ChatGPTは素早く多様なアイデアを考えてくれるので、とても便利なツールとして使えますが、早いだけでなく優れたアイデアを出してくれるとの報告をしている論文があります。今回は” Ideas are Dimes a Dozen: Large Language Models for Idea Generation in Innovation”[1]という論文を紹介し、そこで書かれているやり方を実践して紹介します。
この論文ではGPT-4 APIを使用しており、下記のようにSystemとUserのRoleでプロンプトを与えています。今回は「アメリカの大学生向けの50ドル以下で売れる物理的な製品」がお題になっています。また、この論文ではTemperatureを0.7に設定しており、創造性を上げるためにランダム性を高めていると書かれています。
#System Prompt
“You are a creative entrepreneur looking to generate new product ideas. The product will target college students in the United States. It should be a physical good, not a service or software. I’d like a product that could be sold at a retail price of less than about USD 50. The ideas are just ideas. The product need not yet exist, nor may it necessarily be clearly feasible. Number all ideas and give them a name. The name and idea are separated by a colon.”
[日本語訳]
あなたは新しい製品のアイデアを生み出そうとしている創造的な起業家です。製品はアメリカの大学生を対象としています。それはサービスやソフトウェアではなく、物理的な商品である必要があります。私は約50 USD以下の小売価格で販売できる製品を求めています。アイデアは単なるアイデアです。製品はまだ存在していなくてもよく、必ずしも明確に実現可能であるとは限りません。すべてのアイデアに番号を付け、それに名前を付けてください。名前とアイデアはコロンで区切ってください。
#User Prompt
“Please generate ten ideas as ten separate paragraphs. The idea should be expressed as a paragraph of 40-80 words.”
[日本語訳]
10のアイデアを10の別々の段落として生成してください。アイデアは1つの段落で40-80単語で表現してください。
このビジネスアイデアを競う相手はWharton、Cornell Tech、INSEADのMBAの学生です。いずれもMBAランキングなどで上位に名を連ねる有名大学です。論文中で言及されていますが、ビジネスアイデアはそこそこのアイデアがたくさんあるよりも、少数でも優れたアイデアがあればいいため、生成AIの突飛な考えを活用できるのではないかという着眼点の研究となっています。
この論文では、GPT-4に100アイデア、学生には全体で200アイデアを出させています。さらに、別のプロジェクトで提案されたアイデアから評価の高かった7つのアイデアをfew-shot learningとして、GPT-4に学習させて、追加で100アイデアを創出させています。
これらのアイデアを「購入意欲」と「新規性」の二項目で評価していました。5段階評価(0点:絶対に購入しない、0.25点:おそらく購入しない、0.5点:どちらとも言えない、0.75点:おそらく購入する、1点:間違いなく購入する)で、一つのアイデアごとに平均20回は評価されるようにしています。評価者は大学生で、一人の評価者は平均40個のアイデアを評価するようにしています。表1と2に購入意欲と、新規性を評価した論文の結果の抜粋を示します。
人が出したアイデア | GPT-4が出したアイデア | トレーニング後のGPT-4が出したアイデア | |
平均点 | 0.404 | 0.468 | 0.493 |
最も良いアイデアの点数 | 0.64 | 0.70 | 0.75 |
P値 | vs. 人のアイデア p<0.001 | vs. 人のアイデア p<0.001 vs.学習前のGPT p=0.11 |
人が出したアイデア | GPT-4が出したアイデア | トレーニング後のGPT-4が出したアイデア | |
平均点 | 0.41 | 0.366 | 0.361 |
P値 | vs. 人のアイデア p<0.001 | vs. 人のアイデア P<0.001 vs.学習前のGPT p=0.12 |
この結果から、人が出したアイデアよりもGPT-4が出したアイデアの方が購入意欲の評価の平均値も最高得点も高いので、優れたアイデアを出せていると判断しています。また少数データを学習させたGPT-4と学習前のGPTの間では有意な差はありませんでした。一方で、アイデアの新規性は人が考えたアイデアの方が有意に高くなっています。なお、こちらのデータは最高得点の数値がなかったため省略しています。これらのことから、GPT-4は購入意欲が湧くようなアイデアは出すが、目新しいアイデアにはなりにくいことがわかります。今回はアイデアを少ない文字数で提案してもらうだけだったので、実際のビジネスにするためには顧客ニーズを捉えていることだけでなく、競合への優位性や市場規模、実現可能性も考慮する必要があります。そのため、新規性の低いアイデアということは、競合との競争も激しい可能性が想定できるでしょう。一方で、人がアイデアを考える時は、新しい発想を出すことに拘り、顧客ニーズを捉えられていないという傾向があると解釈することもできるかもしれません。つまり、人とAIの良いところを相補的に使うのが良いのではないでしょうか。
また論文では、アイデアの類似性について課題があることを言及しています。似たようなアイデアをGPT-4が出している可能性があり、似たようなアイデアが高い評価を得ているとすると、平均値を押し上げているかもしれません。そこで、今回は実際にどのようなアイデアが生成されるのか、Chat GPTで試してみました。瞬時に多くのアイデアを生成してくれます。しかしながら、論文で書かれていたように、確かに目新しいアイデアは少ないように思えます。20個ほど生成してもらった中で目新しそうなものには、タイマー付きクリップ型ブックライトがありました。(提案されたアイデア)”Clip-on Book Light with Timer: This LED book light clips onto books and notebooks, providing targeted lighting for reading and writing. It comes with an adjustable timer, ensuring students don’t strain their eyes during extended periods.” また私が検証した範囲での類似アイデアとしては、アロマディフューザーが多めに提案されていました。
さらに日本語でもアイデア創出をさせてみました。下記のように提案されるアイデアは英語のものと大きくは変わりませんでしたが、文字数が減ってしまいました。アイデアの概要を多く取り入れたいときは日本語でも十分かもしれませんが、少し詳しく説明してもらいたいときは英語を活用する方がよさそうです。
参考文献
[1] Girotra, Karan and Meincke, Lennart and Terwiesch, Christian and Ulrich, Karl T., Ideas are Dimes a Dozen: Large Language Models for Idea Generation in Innovation (July 10, 2023). Available at SSRN: https://ssrn.com/abstract=4526071