Stable Diffusionは失敗したのか?次世代の画像生成AIの動向は

最も有名な画像生成AIと言っても過言ではないStable Diffusionですが、現在の状況はあまり芳しくありません。失敗したとも言われてしまっているStable Diffusionですが、どのような状況にあるのでしょうか。またそれに変わる次世代の画像生成AIも続々と誕生してきています。それらの情報も併せてお伝えいたします。

1. Stable Diffusionの状況

Stable DiffusionはイギリスのスタートアップStability AIによって開発され、2022年に公開されました。1億ドルを超える資金調達にも成功し、画像生成AIの代名詞ともなりました。しかし、ここ最近は暗雲が立ち込めています。まずはビジネスモデルの課題です。これは当初より、AIの民主化を掲げ、オープンソースとしてモデルを公開していたことに起因します。オープンソースにすることで、目論見通りの拡大はできましたが、収益を生めるビジネスモデルになっていなかったため、資金不足の課題が浮き彫りになってきていました。またスタートアップでは初期は売上よりもベンチャーキャピタルなどからの資金調達を原資として活動を行うことが一般的ですが、当時CEOだったエマド・モスターク氏は投資家に対して、自身の学歴やパートナーシップの実績などを誇張して伝えていたと言われており、問題視されていました。そのような問題もあったからか、同氏は2024年の3月にCEOを退いた。さらに、2024年6月にStable Diffusion 3 Mediumを公開した時 、人体がうまく生成できないという性能課題があると見られています。これはStability AIの方向性の都合もあり、収益意識を上げたことで、有料で高性能なStable Diffusion 3 Largeと無料で活用できるオープンなStable Diffusion 3 Mediumと分けようとした結果、性能を意図的に落としているStable Diffusion 3 Mediumではユーザーの期待に応えられなかったという状況になっています。ユーザーは無料で活用できることになれていたため、高性能モデルが有料であることにはハードルも生じています。このような性能に課題があるモデルを公開することには社内の技術者からも不満はあるようで、重要な技術者が離脱したことなども報じられています。また有料化の流れからライセンスの形態も変わっており、その商用ライセンスに内容も曖昧であるとされ、開発者コミュニティとの関係性も悪化してしまっています。このように、様々な課題が顕在化してきているStability AI、つまりStable Diffusionは失敗してしまったという評価を下されているようです。

2. 新しく誕生した画像生成AIとは?

このような状況の中で、2024年8月に公開された画像生成AIがドイツのスタートアップBlack Forest Labsが開発したFLUX.1です。まだシード段階と評価されていますが、初期ラウンドから3100万ドルの資金調達に成功しており期待の高さが伺えます。投資家には有名なベンチャーキャピタルである、アンドリーセン・ホロウィッツ(a16z)もおり、その性能やビジネスモデルも精査されていると推測されます。

FLUX.1には、pro/dev/schnellという3種類のモデルがあり、proはAPIを通じてのみ、dev/schnellはユーザーのローカル環境でも利用できます。ビジネスモデルは基本的には現在のStability AIと同じように有料の高品質モデルであるproと、無料な下位モデルのdev/schnellとなっており、商用利用したい場合は、有料のproライセンスを用いる必要があります。最初からこのようなライセンシング形態となっていることで、無料を前提とした開発やコミュニティの成長は防げるため、途中の方針転換による離脱や関係悪化を起こさないと考えられます。無料で利用できたStable Diffusionと比べると普及に課題があるようにも思えますが、2024年8月14日にはXのAI機能であるGrok 2.0にFLUX.1の画像生成機能が搭載されたことが明らかになりました。さらに、Stable Diffusionを利用するためのWeb UIであったStable Diffusion WebUI ForgeでもFLUX.1が利用できるようになったなど、急速に普及していく様子も窺えます。このように登場したばかりではあリますが、非常に期待が持てる画像生成AIと言えるでしょう。

他にも、Googleの傘下であるDeepMindも2024年5月に画像生成AIであるImagen 3を発表しています。また8月にはImagen 3の性能がStable Diffusionを含む他の画像生成AIと比べても高いという調査結果を論文として発表しています。Imagen 3は「Google Labs」のツール「ImageFX」を通じて利用できるため、Googleという巨大なプラットフォームを活かした別のビジネスモデルとなっています。一方で、有害コンテンツを生成しないような配慮がされており、その制限が高すぎて思うような画像が生成できないという声もあるようです。しかしながら、Googleが発表した画像生成AIとして期待が持てるものとなっております。

画像生成AIには他にもDALL-E 3やMidjourneyなど有名なものがあります。まだ独走しているAIモデルはなさそうですが、新しいAIもどんどん生まれているため、その技術の発展と、発展のために必要な開発者コミュニティの成長など、主流となるための画像生成AIの覇権争いからは目が離せない状況となっています。

上部へスクロール