GPT-4を超える? GoogleがリリースしたGeminiとは

 Googleは米国時間2023年12月6日に次世代AIモデル「Gemini」を発表しました。テキストや画像、音声、動画など様々な形式の情報を処理することができる「マルチモーダル」が特徴であり、その性能はGPT-4を上回るという報告もあります。今回はその性能や使い方、噂になっているデモ動画について紹介していきます。

1. GeminiとGPT-4の比較

 Googleが報告している”Gemini: A Family of Highly Capable Multimodal Models”[1]によるとGemini Ultraは32のベンチマークのうち30でGPT-4を始めとする、他の大規模言語モデル(LLM)の性能を上回っているとしています。注意点としては、すでに提供が開始されているGemini Proではそこまでの性能は出ていません。Gemini Ultraは2024年に提供が開始されると発表されているので、それまではGPT-4の方が使い勝手がよさそうです。また他にもスマートフォン向けのGemini Nanoもあり、これはPixel 8 Proに搭載されているようです。

[1]より抜粋

2. Geminiの使い方

 Gemini ProはGoogleが提供しているBardで、無料で使用することが可能です。Chat GPTのように会話することができます。試しにGemini Ultraで動いているかを聞いてみたところGemini Proで動いているという返答をもらいました。日本語での会話にも対応してくれるようです。

 マルチモーダルの性能を確認するために画像を説明してもらいました。文字の理解はできていましたが、色や文字の配置などの認識は間違っており、まだ高い性能とは言えないようです。また画像の読み込みには対応していますが、画像生成はできないようです。

 また米国時間2023年12月13日より、Google CloudのAI開発プラットフォームであるVertex AIのGenerative AI StudioでGemini APIが使用できるようにもなりました。こちらも2024年までは無料で1分あたり60クエリまで使用できるようです。将来的な価格はテキスト入力が1000文字ごとに0.00025ドル、画像入力が1画像ごとに0.0025ドル、テキスト出力が1000文字ごとに0.0005ドルとされています。

3. Geminiのデモ動画

 2023年12月6日に公開され大きな話題を呼んだGeminiのデモ動画では、人とAIがリアルタイムにコミュニケーションをしている様子が確認できました。マルチモーダルな情報に対する高い理解力がわかり、AIが人同然に活動できると期待が高まりました。

 しかし、実際には静止画とテキストプロンプトでGeminiに入力を与えていることがGoogleの開発者ブログで公開されており、Gemini Ultraであっても我々が動画を見て期待するような性能には届いていないと考えられます。

開発者ブログ:
https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

 またGeminiと性能比較されているGPT-4もGPT-4 Turboではないとされており、どちらの性能が高いかはまだはっきりしていません。GeminiもGPT-4も、その性能は急速に高まっていくので、現時点での性能比較で結論が出るものではなく、今後の各社からの報告も注意して見ていく必要がありそうです。

[1] Gemini Team Google, Gemini: A Family of Highly Capable Multimodal Models, https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf.

(文・Novusearch)

上部へスクロール