OpenAIは、無料のChatGPTユーザー向けのデフォルトモデルとしてGPT-5.5インスタントを発表し、内部評価に基づいた健康クエリに対するフロンティア思考モデルのパフォーマンスと同等になったと主張している。特にガーディアンの調査で Google AI 概要の不正確性が指摘されて以降、健康情報に対する監視の目が厳しくなり、Google は特定の健康関連の質問に対してそれらの機能を廃止することになりました。

OpenAI は、そのアップデートにより健康情報の精度が向上したと述べています。この移行により、多くの視聴者が外部ソースにリダイレクトすることなく ChatGPT からの医療回答にアクセスできるようになり、医療分野のパブリッシャーや SEO に影響を与える可能性があります。

同社は、HealthBench および HealthBench Professional ベンチマークの進歩を強調し、GPT-5.5 Instant が前世代の GPT-5.3 Instant よりも優れていると指摘しました。 OpenAI はまた、ライブ交通監視システムを参照して、潜在的な事実問題のフラグが立てられた健康回答が 2 か月間で 71% 減少したと報告しました。

別の評価では、GPT-5.5 Instant によって生成された応答を、3,500 件の代表的な健康に関する会話にわたって医師によって書かれた応答と比較することが含まれていました。評価では、医師のパネルは、精度、コミュニケーション、完全性の点で、AI モデルからの回答を人間の医師が作成した回答よりも高く評価しました。

OpenAIは、GPT-5.5 Instantは古いバージョンと人間の対応に比べて障害モードが少なく、危険信号を見逃すことが少なく、ユーザーから追加のコンテキストを求められない可能性が低いことを指摘していると主張した。 HealthBench は、同社の医師ネットワークからのインプットを使用して開発され、評価のために医師が作成したルーブリックを採用しています。

OpenAI は、60 か国の 260 名を超える医師と協力しており、70 万件を超える回答例を共同でレビューしています。この数字は、1 月に ChatGPT Health が発表されて以来、一貫して引用されてきましたが、独立したレビュー結果は発表されていません。

OpenAI によると、健康とウェルネスに関する問い合わせは ChatGPT のやり取りのかなりの部分を占めており、毎週 2 億 3,000 万人を超えるユーザーが健康関連の質問を行っています。さらに、健康に関する議論は、健康、メンタルヘルス、政治に関する会話中に広告を掲載することを禁止する厳格なポリシーに基づいて分類されています。

ChatGPT の無料枠を介した健康情報に対する市場の需要は、AI が生成した応答によりエンゲージメントが高まり、Google の AI 概要で分析されたカテゴリの中で最も高いと伝えられているため、パブリッシャーに対するゼロクリックの圧力が高まる可能性があります。健康に関する回答の正確さに関する OpenAI の主張には現在、第三者による検証が不足しており、その評価の信頼性について懸念が生じています。

この発表では、これらの更新が引用プロトコルにどのような影響を与えるかについては明らかにされておらず、回答を検証し、トラフィック損失に対処する責任が医療従事者に移る可能性があることが示唆されました。


注目の画像クレジット

  OpenMythos プロジェクトは、Claude Mythos が Recurrent-Depth Transformer であると主張しています