2024年3月29日にOpenAIは音声生成AIの「Voice Engine」を発表しました。しかし、その活用には危険性があるとし、現時点では限られたユーザーのみがアクセスできるように制限されているようです。では、この新しいAIモデルの凄さや応用可能性、危険性とはどのようなものなのでしょうか?
1. Voice Engineの凄さとは
Voice Engineではわずか15秒の音声データをもとに、新しい音声を生み出すことができます。さらに、異なる言語を話させたり、感情を込めて話させることができると言われています。既存の音声生成AIサービスでも任意の音声データをもとにそれと同様の音声を生成させることができますが、少ないデータから幅広い音声に対応できることが、このモデルの凄さではないでしょうか。
2. Voice Engineを使うには?
2024年4月7日時点ではVoice Engineは一般公開はされておらず限られたユーザーのみのアクセスとなっています。OpenAIのサイト<https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices>ではいくつかの事例が公開されています。EdTech企業のAge of Learningは教育コンテンツの説明や学生とのリアルタイムでの対話への活用を検討していたり、AI動画プラットフォームのHeyGenは複数の言語に翻訳したナレーションを生成しようとしています。他にも、ヘルスケア企業のDimagiはマイナーな言語の話者にもサービスを提供できるように検討していたり、AIコミュニケーションアプリを開発しているLivoxやヘルスケアシステム開発のLifespanはコミュニケーション用の音声生成として検討していたりします。このようにVoiceEngineの活用方法は多岐に渡ります。
また最先端の技術やスタートアップの情報を発信しているTechCrunchでは、現時点では削除されているが、公開されたマーケティング資料には使用料についても書かれていたと発信しています。<https://techcrunch.com/2024/03/29/openai-custom-voice-engine-preview/>それによると、100万文字または162,500単語ごとに$15としており、既存の競合の音声AIサービスよりも安価に提供される可能性があります。
さらに、Voice Engineは一般公開されていませんが、この技術自体は2022年の後半から開発されていたと言われており、すでにChatGPTの音声読み上げ機能などを強化するために使用されているようです。直接は活用できなくても、この技術の恩恵は受けられていることになります。
3. Voice Engineの危険性とは?
Voice Engineは悪用の可能性があるとされ、OpenAIは一般公開を控えています。今回の発表とは関係がありませんが、過去にはバイデン大統領のAI音声が悪用されて有権者に電話がかけられるという事件が起きているようです。他にもエマワトソンを模した音声が作られ悪意のあるメッセージを流されたり、有名人の評判を落とすように使用されてしまう恐れがあります。他にも銀行の音声認証システムを破るために使用される危険性が指摘されています。このような危険性に対応するためにOpenAIは専門チームでの検討を続けており、生成された音声には聞こえない識別子を埋め込むといった対応が取られています。Voice Engineも幅広く活用できると期待が持てる技術ですので、早く安全な形で一般公開されることを楽しみに待ちたいと思います。