Openaiが発表した画期的な研究論文で、研究者は、ChatGptのような大規模な言語モデル(LLM)が頻繁に幻覚し、誤って誤った情報を生成する理由について厳密な数学的説明を提供しました。 2025年9月16日にWei Xingによって発表されたこの研究は、この問題は単なるトレーニングの欠陥ではなく、これらのモデルがどのように機能するかの固有の結果であると主張しています。このペーパーは潜在的なソリューションを提供しますが、それらを実装することでユーザーエクスペリエンスや計算コストを急増させる可能性があり、消費者アプリケーションの採用が広くなる可能性が低いことを強調しています。コアの問題は、LLMSの自己回帰的性質に由来し、トレーニングデータから導き出された確率に基づいて一度に1つの単語を予測することで応答を生成します。このシーケンシャルプロセスは、本質的にエラーの蓄積につながります。研究者によると、文全体を生成するための総エラー率は、単純なYES/NOの疑いのエラー率の少なくとも2倍の高さです。たとえば、モデルがバイナリクエリで10%のエラー率を持っている場合、複数のトークンで不正確さが複合化されるため、文レベルのエラーは20%以上に2倍になります。幻覚は、有効な応答と無効な応答を分類するモデルの能力に基本的に制限されています。これは、多様な知識ドメイン全体で挑戦的であることを証明するタスクです。完璧なトレーニングデータを使用しても、確率的予測メカニズムにより、ある程度の避けられない虚偽が保証されます。この論文は、トレーニングデータセットにおける情報の希少性がこれを悪化させることを強調しています。まれに見える事実は、誤ったことや製造を起こしやすいです。印象的な例には、顕著な数字の誕生日が含まれます。分析では、このような誕生日の20%がトレーニングデータに1回しか表示されない場合、ベースLLMは関連するクエリの少なくとも20%に誤りを犯すと予測されていることがわかりました。説明するために、研究者は、論文の共著者の1人であるAdam Kalaiの誕生日に最先端のモデルをテストしました。モデルDeepSeek-V3は、別々の試みで、3つの非常に誤った日付を出力します: “03-07、” “15-06″、および「01-01」。実際の日付は秋に始まり、モデルが現実から遠く離れている詳細を自信を持って主張できることを強調しています。問題を調合することは、AIベンチマークで使用される評価フレームワークです。この調査では、Google、Openai、および大手AIリーダーボードを含む10の主要なベンチマークをレビューしました。 9つは、「私は知らない」などの不確実性の表現に対してゼロポイントを授与するバイナリグレーディングシステムを採用しています。このセットアップは、無知の正直な入学を完全なエラーと同一視し、モデルが棄権するのではなく常に推測するためのひねくれたインセンティブを生み出します。数学的には、研究者は、バイナリ評価の下で、正確性の真の確率に関係なく、応答を差し控えるよりも予想されるスコアが高いことを推測することを証明しています。モデルにわずかなチャンス(たとえば、1%)が正しい場合、潜在的な報酬が棄権のペナルティを上回ります。著者が説明するように、不確実性を罰することのこの「流行」は、自信過剰な出力を永続させ、より信頼性の高いAIに向かって進歩を抑えます。 Openaiの提案された救済策には、モデルの意思決定プロセスに信頼性の推定を統合することが含まれます。応答する前に、AIはその確実性レベルを評価し、事前定義されたしきい値を超えた場合にのみ続行します。その後、ベンチマークは、この信頼に基づいてスコアに基づいて調整されます。たとえば、間違いをより強く罰する(例えば、-3ポイント)、正解(+1ポイント)に報いたり、低信頼症例に棄権を許可したりします。数学的枠組みは、適切なしきい値がモデルが自然に不確実性を表現し、幻覚を減らすことを奨励することを示しています。ただし、実用的な実装により、重要な欠点が明らかになります。このペーパーでは、75%の信頼性のしきい値を適用すると、Trainingデータの事実上のギャップに基づいて、ChatGptがクエリの約30%に「わからない」と応答する可能性があると推定しています。即座に居住する権威ある回答に慣れているユーザーは、このイライラすることに気づき、あまり慎重でない代替品に切り替えるかもしれません。 Wei Xingは、ユタ州ソルトレイクシティにある航空品質の監視プロジェクトへの関与と並行しています。システムが不確実な天候やキャリブレーションのために不確実性にフラグを立てている場合、ユーザーのエンゲージメントは、たとえ不正確な読み物であっても、自信のあるディスプレイと比較して低下します。この類推は、精度よりも確実性に対するより広範な人間の好みを強調しており、消費者の設定で不確実性認識AIの採用を侵食する可能性があります。ユーザーエクスペリエンスを超えて、計算需要は手ごわい障壁を引き起こします。不確実性を定量化するには、複数の応答パスを評価し、信頼区間を推定する必要があります。これは、標準のトークン予測よりもはるかにリソース集約的なプロセスです。何百万もの毎日のクエリを処理するサービスの場合、これは運用コストを劇的に増加させる可能性があります。統計や機械学習などの分野で数十年にわたって開発された確立された不確実性の定量化方法は、効果的ですが、計算的に高価です。 AIがユーザーに明確な質問を提起するアクティブ学習などの高度な手法は、精度をさらに強化しますが、要件をさらにエスカレートすることができます。これらのアプローチは、エラーが深刻な結果をもたらすハイステークスドメインで実行可能です。たとえば、サプライチェーンロジスティクス、金融取引、または医療診断では、幻覚のコスト(例えば、数百万人の収益の損失や患者の危害)は、慎重なコンピューティングが多いシステムへの投資を正当化します。チップ設計または経済インフラストラクチャ管理では、不確実性を認識するAIは、単に実行可能であるだけでなく、不可欠になります。この論文は、AIエージェントが重要な運用を監督する場合、経済学の変化:徹底的な信頼チェックの費用は、自信過剰エラーのリスクに対して違っていることを指摘しています。ただし、開発の優先順位を支配する消費者AIは、異なるルールの下で動作します。ユーザーは、トリビアからアドバイスまで、あらゆる質問に対する迅速で保証された回答を要求します。ベンチマークは引き続き当て推量を支持しており、トークンごとのエネルギーコストの低下やチップアーキテクチャの改善など、ハードウェアの効率は最終的には障壁が少ない場合があります。しかし、今日の合理化された推測モデルと比較して、不確実性の処理は常により多くの処理能力を必要とします。この論文は、ビジネスのインセンティブの不整合を不注意に公開します。速度と信頼性は、消費者アプリの利益を促進しますが、正確性は後部座席になります。人間のフィードバック(RLHF)からの強化学習などのトレーニング後の手法は、いくつかの幻覚を軽減しましたが、根本原因に対処できません。この研究では、最適化されたモデルでさえ、これらの数学的不可避性を保持していることが証明されています。評価基準が進化してニュアンスと計算経済学に報いるまで、速度よりも信頼性を優先するため、幻覚は消費者LLMの特徴として耐えます。この啓示は、AI業界の軌跡に挑戦します。モデルが大きくなり、より能力が高まるにつれて、イノベーションと信頼性のバランスをとる圧力が激化します。 Openaiの仕事は、パラダイムシフトを求めており、開発者、ベンチマーククリエイター、ユーザーに較正された応答を評価するよう促しています。価値の高いセクターでは、養子縁組が差し迫っているようです。日常のツールでは、遠い見通しのままです。 Openaiの研究者を含む論文の著者は、インセンティブの再編成がなければ、完璧なAIの追求はとらえどころのないままであると結論付けています。シェフィールド大学の数学および物理科学学校の助教授であるWei Xingは、クリエイティブコモンズのライセンスの下で会話から再発行された記事の記事に、「消費者AI開発を推進するビジネスインセンティブは、幻覚を減らすことで根本的に誤って整理されたままです」と述べています。この研究は、永続的な欠陥を診断するだけでなく、先進的な道をチャート化します。これは、ユーザビリティ、コスト、および真実性のトレードオフを必要とするものです。 AIが日常生活に深く統合されているため、これらの緊張に対処することは、持続可能な進歩のために重要です。

Source: Openai Researchは、数学的に避けられないLLMの幻覚を証明しており、費用のかかる修正を提案しています

  Instagram ブロードキャスト チャンネル: アクセス方法と使用方法