AIの間違いを見つけるAI「Critic GPT」とは？

OpenAIはアメリカ時間の2024年６月27日にChatGPTの応答の誤りを発見するAI「CriticGPT」を発表しました。AI同士でお互いにチェックできるようになると成長が加速していくように思えますね。それでは今回はOpenAIが発表したCriticGPTの情報についてご紹介しようと思います。

1. AIが抱えている課題とは

GPT-4の発表以来、AIが人のような応答をすることに疑問を持たないようになってきました。しかし、AIの応答は前後の文脈から確率的に推測して生成されており、その内容の正誤を理解せずに断定的でもっともらしい応答が返ってきます。そのため、その分野についての理解が浅いと、AIの誤りに気がつけないかもしれません。このような現象はハルシネーションと呼ばれており、生成AI分野の重要な課題の一つになっています。さらに、ユーザーが間違いに気が付かないだけでなく、AIモデルを作成する際にも大きな課題となっています。GPT-4のモデルも、Reinforcement Learning from Human Feedback：人間のフィードバックによる強化学習（RLHF）と呼ばれる手法で、人がAIのトレーニングを行い、性能を向上させてきました。しかし、AIの性能が上がれば上がるほど、AIのトレーニングも難しくなり、性能向上にも壁が生まれることになります。そこでOpenAIはAIの間違いもAIに発見させるというコンセプトで「CriticGPT」を発表しました。

2. CriticGPTができることは

CriticGPTはGPT-4をベースとしてChatGPTと同様にRLHFにより訓練されています。しかし、ChatGPTとは異なり、多くの誤りを含んだデータとそれに対する批評を入力データとして訓練されています。これによりCriticGPTでは誤りを批評することができるようになっています。

https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/　より引用

この画像のようにCriticGPTはChatGPTが生成した応答を批評し、誤りがある可能性を示しています。CiriticGPTは現在はAIをトレーニングする際に使われているようです。下記の左図は包括的な批評文を書く能力について示しており、右図はハルシネーションを起こす能力について示しています。右図は数字が小さい方がハルシネーションを起こさないため優れていることを意味しています。つまり、包括的な批評文を書く能力はCriticGPTの方が人よりも高いことを意味していますが、ハルシネーションの点では人の方が優れていることを示しています。しかし、CriticGPTと人が共同で作業を行う場合が最もハルシネーションを抑えられていることがわかります。約60%ほどの人が、このようにCriticGPTの支援を受けることで批評のパフォーマンスが向上すると感じているようです。

OpenAIのCriticGPTの発表では、AIが人を支援することができることが証明されました。さらには今後のAIの性能向上にも寄与すると期待できるため、これからさらにAIの進化が起きるかもしれません。今後のOpenAIの動向に要注目です。