セールスフォースのXGen-7Bは大規模言語モデルで、最大8,000トークンの長いシーケンスをモデリング可能。これにより、テキスト要約やコード生成など、長距離の構造依存性を必要とする多様なアプリケーションに対応します。
参考
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
https://blog.salesforceairesearch.com/xgen/
要約 -XGen
AI研究の新たな地平を切り開くセールスフォースのXGen-7Bは、一連の大規模言語モデル(LLM)で、長距離の構造依存性を要求するアプリケーションに対応する能力が特長です。これらのモデルは、最大8,000トークンまでの長いシーケンスをモデル化できるという画期的な特性を持っています。これは、テキスト要約、コード記述、タンパク質配列予測など、各種アプリケーションにおいて非常に重要な性能となります。
XGen-7Bは、大規模な学習とパブリックドメインの指導データによる微調整という2つのアプローチを採用しています。この結果、一部のモデルは、他の最先端のオープンソースLLMと同等またはそれ以上の性能を発揮し、長いシーケンスのモデリングベンチマークにおいても、2,000トークンモデルや4,000トークンモデルより優れていることが示されました。
また、XGen-7Bにはいくつかのバリエーションがあります。基本モデルであるXGen-7B-4K-baseとXGen-7B-8K-baseは、それぞれ1.2兆トークンと1.5兆トークンの学習対象です。さらに、指導データに基づくインストラクションチューニングバージョンも存在します。
このモデルは2段階の戦略を用いて学習が行われます。初段階では混合データセットを、次段階ではコード生成タスクをサポートするためのコードデータを学習します。このように異なるデータソースと段階を組み合わせることで、トレーニングプロセスが包括的かつ多様な形で進行します。
XGen-7Bのトレーニングは、Salesforceの社内ライブラリJaxFormerを使用し、LLMの効率的なトレーニングを実現しています。JaxFormerはTPU-v4ハードウェア上で最適化されています。学習レシピとモデル・アーキテクチャは既存のLLaMAモデルに基づいているものの、「ロス・スパイク」の発生調査と段階
的学習を組み合わせ、最大8,192トークンまでのシーケンス長をサポートします。
これらの特性と進歩により、XGen-7Bは、大規模言語モデルの開発における大きな進歩と言えます。これらのモデルは、複雑ながらも、最適な効率と有効性を保証するように設計され、長距離の構造依存性を必要とする多くのアプリケーションに新たな可能性をもたらすことでしょう。
(了)
※この記事は生成AIを活用して執筆しました