MITスローンアフィリエイトの新しい研究は、生成人工知能(AI)のパフォーマンスの改善は、大規模な言語モデル(LLM)の進歩にのみ起因するものではないことを示しています。大規模な実験では、モデル自体から生じたより高度なAIモデルへの移行後に観察されたパフォーマンスの半分のみが観察されたことが明らかになりました。残りの半分は、新しいシステムを効果的に活用するために、ユーザーがAIに提供された書面による指示を適応させるためのユーザーによるものでした。
この発見は、企業にとって重要な現実を強調しています。新しいAIツールへの投資は、従業員も使用法を改善しない限り、予想される価値をもたらさないでしょう。この研究は、プロンプトは、正式な指導がなくても、個人が迅速に改善できる学習可能なスキルであることを示唆しています。
David Holtz、SM18、PhD ’21、コロンビア大学の助教授であり、デジタル経済に関するMITイニシアチブの研究系列会社であり、研究の共著者であると述べました。
この実験には、OpenaiのDall-Eイメージ生成システムの3つのバージョンのいずれかにランダムに割り当てられた1,900人近くの参加者が参加しました。Dall-E 2、より高度なDall-E 3、またはユーザーのプロンプトを使用してGPT-4 LLMによって自動的に書き直されたDall-E 3が知識なしに自動的に書き直されました。参加者は、AIに指示を入力することにより、写真、グラフィックデザイン、アートの一部などの参照画像を再作成する任務を負っていました。彼らは少なくとも10個のプロンプトを提出するのに25分かかり、パフォーマーの上位20%に対するボーナス支払いでインセンティブを受け、指示をテストして改良することを奨励しました。
研究者はいくつかの重要な調査結果を報告しました:
- DALL-E 3のベースラインバージョンを使用する参加者は、Dall-E 2ユーザーが生成したものと比較して、ターゲット画像に似た画像を作成しました。
- ベースラインDall-E 3を利用している参加者は、Dall-E 2ユーザーのプロンプトよりも24%長いプロンプトを書きました。これらのプロンプトは、互いにより大きな類似性を示し、記述的な単語の割合が高いことも含まれていました。
- 画像の類似性の改善の約半分は強化されたモデルに起因し、残りの半分は、ユーザーが改良されたモデルの機能を活用するためにプロンプトを調整したことから生じました。
この研究は画像生成に焦点を合わせていましたが、研究者は、同じパターンが書き込みやコーディングなど、他のタスクに適用される可能性が高いと考えています。
この調査では、時間の経過とともにプロンプトを適応させる能力は、技術に精通したユーザー専用ではないことが実証されました。 Holtzは次のようにコメントしています。「人々は、AIの利益を上げて恩恵を受けるためにソフトウェアエンジニアである必要があるとよく考えています。しかし、私たちの参加者は、幅広い仕事、教育レベル、年齢層から来ました。技術的なバックグラウンドのない人でさえ、新しいモデルの能力を最大限に活用することができました。」
データは、効果的なプロンプトがコーディングよりも明確なコミュニケーションに関するものであることを示唆しています。 Holtzは、「最高のプロンプターはソフトウェアエンジニアではありませんでした。彼らは、必ずしもコードではなく、日常言語でアイデアをはっきりと表現する方法を知っていた人々でした。」
このアクセシビリティは、スキルレベルと経験がさまざまなユーザーのパフォーマンスの格差を減らすことにも貢献する可能性があります。メリーランド大学の助教授であり、デジタル経済に関するMITイニシアチブのデジタルフェローであるEaman Jahani博士、および研究の共著者は、生成AIがユーザー間のパフォーマンスギャップを狭める可能性があることを観察しました。 「下端から始める人 [performance] スケールは最も利益を得ていました。つまり、結果の違いは小さくなりました。「モデルの進歩は、実際に出力の不平等を減らすのに役立つ可能性があります。」
Jahaniは、チームの調査結果が、明確で測定可能な結果と、良い結果を得るために識別可能な上限を備えたタスクに適用できることを明らかにしました。彼は、単一の正解なしで、そして変革的な新しいアイデアを生成するなど、潜在的に重要なペイオフを持たない、よりオープンエンドのタスクのために同じパターンが当てはまるかどうかはまだ明らかではないと述べました。
予期せぬ発見の1つは、生成AIを使用したプロンプトの書き換えがパフォーマンスの大幅な減少につながったことです。生成AIを使用してDall-E 3を使用したグループは、ベースラインDall-E 3グループと比較して、パフォーマンスが58%の分解を自動的に書き換えました。研究者たちは、自動書き換えが頻繁に外部の詳細を導入するか、ユーザーの入力の意図した意味を変更し、AIが誤った画像を生成することを発見しました。
ホルツは説明した。[Automatic prompt rewriting] このようなタスクではうまく機能しません。目標は、ターゲット画像を可能な限り密接に一致させることです。さらに重要なことは、デザイナーが人々がそれらをどのように使用するかについて仮定するときに、AIシステムがどのように分解できるかを示しています。ツールに隠し手順をハードコードすると、ユーザーが実際にやろうとしていることと簡単に競合できます。」
研究の企業に対する影響は明らかです。「正しい」AIモデルを選択するだけでなく、リーダーは効果的なユーザー学習と実験を可能にすることを優先する必要があります。ジャハニは、プロンプトはプラグアンドプレイスキルではないことを強調しました。 「企業は人事に継続的に投資する必要があります」と彼は言いました。 「人々はこれらのテクノロジーに追いつき、それらをうまく使用する方法を知る必要があります。」
生成AIの利点を最大化するために、研究者は、実際の設定でAIシステムの有効性を高めることを目的としたビジネスリーダーにいくつかの重要な優先順位を提供します。
- トレーニングと実験に投資する: 技術的なアップグレードだけでは不十分です。 AIシステムとの相互作用を改善するための時間とサポートを従業員に提供することは、完全なパフォーマンスの向上を実現するために重要です。
- 反復のためのデザイン: テスト、改訂、学習を促進し、結果を明確に表示するユーザーインターフェイスは、時間の経過とともにより良い結果に貢献します。
- 自動化に注意してください: 自動化された迅速な書き換えは便利に思えるかもしれませんが、ユーザーの意図を不明瞭にしたりオーバーライドしたりすると、パフォーマンスを改善するのではなく、パフォーマンスを妨げる可能性があります。
この論文は、MIT Sloan PhDの学生Benjamin S. Manning、SM ’24によって共著されました。 Hong-yi Tuye、SM ’23;モハメッドはまた、’16、SM ’24;スタンフォード大学の学生ジョー・チャン、マイクロソフト計算社会科学者シッダールス・スリ、キプロス大学の助教授クリストス・ニコライデス、SM ’11、PhD ’14。
Source: AIパフォーマンスの半分について迅速な品質アカウントが得られます








