2024年5月13日(アメリカ時間)にGoogleは開発者会議「Google I/O」でGemini 1.5のアップデートを発表しました。OpenAIも同じタイミングでGPT-4oの発表をしましたが、同様にGoogleも高速モデル「1.5 Flash」を発表しています。また「1.5 Pro」は最大200万トークンのコンテキストウィンドウを活用して複雑なデータセットを扱うことが可能となりました。これらの進化により、GoogleのAIは私たちの検索、コミュニケーション、そしてデジタルアシスタントとしての機能を格段に向上させています。
1. Gemini1.5 Flashとは
OpenAIがGPT-4oで解答の高速化を達成したようにGoogleもGemini Flashを構築しました。ただし、こちらは今の所はAPIでの活用を前提としており、言語も英語のみとなっているようです。高速モデルですが、Geminiの特徴であるコンテキストウィンドウの大きさは引き継いでおり、100万トークンまで活用できます。もちろん、画像や音声なども扱えるマルチモーダルなモデルとなっており、動画で言うと1時間、音声では11時間のデータ量に相当するようです。Gemini 1.5 ProのAPI経由での価格は100万トークン当たり3.5ドル(入力の場合かつ128,000トークンまで)ですが、Gemini 1.5 Flashは0.35ドルと非常に安価になっています。GPT-4oは100万トークン当たり5ドルのため、Gemini Flashのコストパフォーマンスの高さがわかります。
2. Gemini 1.5 Proのアップデート内容
2024年2月に公開されていた中型モデルであるGemini 1.5 Proにもアップデートがありました。Geminiには最高モデルのGemini Ultraがありますが、今回のアップデートではUltraについては言及はありませんでしたが、中型モデルである1.5 Proが1.0 Ultraと同等の性能を示すとされています。さらに、コンテキストウィンドウが200万トークンまで拡張されています。動画は2時間まで活用できるので映画も取り込むことができますし、テキストで言うと1500ページほどが取り扱えるようです。大量のデータを扱いやすくするためにGoogleDriveとの連携も追加されます。現時点では最大のコンテキストウィンドウを扱うことのできる生成 AIとなっています。
3. その他の注目ポイント
Google I/Oでは他にも、音声会話機能「Gemini Live」の導入や、Google DeepMindの映像生成AIである「Veo」をベースにした「VideoFX」も発表されています。GeminiLiveではカメラを通じた交流ができるとされており、よりインタラクティブで人に近い交流ができると期待できます。またVideoFXはOpenAIのSoraのようなもので動画を生成するAIです。Soraよりも長い時間の動画を生成できると発表されています。またオープンモデルのGammaについてもアップデートの発表がありました。高性能のGamma 2とより手軽に使用できるGamma 27Bの二つのモデルが発表されています。さらに、Googleの得意領域である検索機能とAIの連携も発表されるなど、豊富なアップデート内容となっています。Googleのサービスに組み込まれることでAIが一段と我々の身近な存在になりそうです。OpenAIだけでなくGoogleも発表を行うなど、各社こぞってアップデートを報告しています。進化の早い生成AIの領域ですが、これからも注目ニュースについてまとめて行きますのでご活用ください。