マイクロソフトが開発した新しい言語モデル、phi-1は、その規模が小さく、わずか13億のパラメータしか持たないにも関わらず、一部の性能指標では競争相手を上回る成績を収めています。phi-1はコーディング用に特化して開発され、訓練には70億以上のトークンが使用され、その後、2億トークン未満で微調整されました。
このモデルは、現存するモデルと比べてトークン数がはるかに少ないにも関わらず、大いなる可能性を示しています。たとえば、ベンチマーク「HumanEval」で50.6%、「MBPP」で55.5%という、一つの言語モデル生成だけを用いた自己報告数値の中で最も優れた結果を達成しました。
phi-1の最も注目すべき特徴の一つは、訓練中に獲得した知識を再編成し、統合する能力です。この知識は最初は明示的に存在しないものでしたが、モデルは訓練中だけでなく、独立して知識を拡張します。微調整プロセスの後、phi-1は微調整データセットに含まれていなかったタスクを実行することができる、適応し改善する能力を示しました。
また、phi-1は訓練開始からわずか4日間でGPT-3.5を上回る成績を収め、今後はGPT-4のような大規模モデルと競争することが期待されています。
これらの進歩は、大規模ニューラルネットワークの訓練技術がTransformerアーキテクチャーの発見以来、驚異的な進歩を遂げてきたことを示しています。しかし、大規模モデルの訓練には膨大なコンピューターリソースが必要となるため、モデルのサイズを大きくする代わりに、データの質を向上させることでモデルのパフォーマンスを向上させるというアプローチが考えられています。
訓練に使用されるデータの質については、Twitterのデータ使用ポリシーに基づき、ユーザーが投稿したコンテンツを、全世界と共有し、他の企業、組織、個人がそのコンテンツをシンジケート、配信、再ツイート、プロモーション、出版するために使用する権利をTwitterに許諾することに同意しています。これには、例えば、コンテンツをキュレーション、変換、翻訳する権利が含まれます。しかし、Twitterのポリシーが機械学習の訓練データにどのように影響するかについての具体的な情報は、現在のところ公には明らかにされていません。
これらの情報を基に、phi-1が大規模言語モデルの新たなパラダイムを形成し、データの質に焦点を当てたアプローチが今後のAIトレーニングにどのような影響を与えるのか、引き続き注目していきたいところです。
(了)
※この記事は生成AIを活用して執筆しました