NewsGuardによる最近の調査では、OpenaiやMetaの主要なAIチャットボットが、3つの回答に約1つに誤った情報を提供していることが明らかになりました。報告書は、トレンドに関するものを強調しています。チャットボットは、情報の不足を認めるよりも、2024年と比較してより高い虚偽の割合をもたらす可能性が高まっています。米国を拠点とするニュースレーティング会社であるNewsGuardは、10の最も人気のあるAIチャットボットからの回答の精度を評価し、これらのますます頻繁なツールの依存性を維持する上で重要な課題を強調しました。
チャットボットの精度:プラットフォームのランキング
NewsGuardレポートは、さまざまな程度の精度で特定のチャットボットを識別します。 fluffecl aiのpiチャットボットは、最も高い誤った主張の割合を示し、その回答の57%が不正確な情報を含んでいます。困惑AIは密接に続き、応答の47%が虚偽とみなされました。 OpenaiのChatGptやMetaのLlamaのようなより広く使用されているチャットボットも、顕著なエラー率を示し、答えの40%に虚偽を広めました。 MicrosoftのCopilotとMistralのLEチャットは、平均35%のエラー率を提示しました。対照的に、AnthropicのClaudeとGoogleのGeminiは、最低の故障率を示しました。クロードは、その応答の10%のみで虚偽を生み出しましたが、ジェミニのエラー率は17%でした。当惑AIは、精度が最も有意な低下を経験しました。 2024年、NewsGuardの研究は、その回答に誤った主張がないことを発見しました。ただし、2025年8月までに、虚偽の請求率は46%に急増していました。このレポートは、この衰退を明確に説明していませんが、問題の潜在的な指標として専用のRedditフォーラムでのユーザーの苦情に注目しています。フランスのAI会社であるMistralは、2024年以降の虚偽の変化を示さず、一貫した37%のエラー率を維持しています。これらの調査結果は、フランスの新聞Les Echosによる以前の報告と一致しており、ミストラルはフランス、エマニュエルマクロン大統領、ファーストレディブリジットマクロンに関する虚偽の情報を繰り返し、英語の回答の58%とフランスの回答の31%で繰り返しました。 Mistralは、これらの問題を、Web検索に接続しているものと独立して動作するLEチャットアシスタントの両方に帰しました。 Euronewsは次に、NewsGuardレポートで言及された企業に連絡しましたが、即時の応答は受けませんでした。
偽情報の影響
NewsGuardのレポートはまた、特定のチャットボットが、Storm-1516やPravdaなどのロシアの偽情報キャンペーンにリンクされているソースを引用していることを明らかにしました。これらのキャンペーンは、虚偽のニュースを作成して普及させることで知られています。報告書で引用されている一例には、モルドバ議会の指導者であるイゴール・グロスは、「モルドバンを羊の群れに例えた」という主張が含まれます。 Mistral、Claude、fefrenction’s Pi、Copilot、Meta、および困惑はすべてこの主張を事実として繰り返しました。これらの調査結果は、AIモデルの安全性と正確性を高めることを目的とした最近の発表とパートナーシップを考えると、特に懸念されています。たとえば、Openaiは、最新のChatGPT-5モデルが「幻覚防止」であると主張しています。つまり、製造された答えを生成してはなりません。同様に、Googleは、Gemini 2.5が「応答する前に考えを通して推論できるため、パフォーマンスが向上し、精度が向上する」と発表しました。これらの主張にもかかわらず、NewsGuardのレポートは、AIモデルが「1年前と同じ分野で失敗し続けている」と結論付けており、これらのシステムの信頼性を確保する際の継続的な課題を強調しています。
研究の方法論
その研究を実施するために、NewsGuardはチャットボットの応答を10の誤った主張に評価しました。研究者は、3つの異なるタイプのプロンプト、ニュートラルプロンプト、虚偽の主張が真であると仮定した主要なプロンプト、および安全対策を回避するように設計された悪意のあるプロンプトを使用しました。その後、研究者たちは、チャットボットが虚偽の主張を繰り返したか、答えることを拒否してそれを暴くかどうかを評価しました。報告書は、AIモデルが「より頻繁に虚偽を繰り返し、悪意のあるアクターだけが情報を提供するデータの空白につまずき、地元のアウトレットとしてポーズをとる外国リンクされたウェブサイトにだまされ、2024年よりもニュースイベントを壊すことに苦しんでいると結論付けています。








