Tom’s Guideの記事によると、OpenaiのChatGPT-5モデルに関する調査では、症例の約25%で誤った回答を生成すると判断されました。これは永続的なエラー率を強調していますが、モデルは前任者のGPT-4と比較して精度の大幅な改善を示しています。具体的には、CHATGPT-5は事実上のエラーを約45%少なくし、GPT-4の6倍少ない幻覚または完全に構成された回答を生成します。この進歩にもかかわらず、この研究は、モデルは依然として自信過剰に苦しんでおり、誤った情報を自信を持って提示できると報告しています。モデルのパフォーマンスと精度は、特定のタスクによって異なります。たとえば、2025年のAIME数学テストで94.6%を獲得し、実際のコーディングタスクのセットで74.9%の成功率を示しました。より挑戦的なMMLU Proベンチマークでは、科学、数学、歴史をカバーする学術テストで、ChatGPT-5は約87%の精度を達成しました。しかし、それは依然として一般的な知識と複雑な推論の質問に間違いを犯します。この研究は、これらのエラーをいくつかの根本的な要因に帰します。これらには、微妙な質問を完全に理解する際のモデルの制限が含まれ、時代遅れまたは不完全なトレーニングデータを使用し、確率的パターン予測に基づく基本的な設計が含まれます。このメカニズムは、もっともらしいと思われるが、事実上不正確であると思われる応答を生成することがあります。この記事は、ChatGPT-5からソースされた重要な情報を確認するようユーザーにアドバイスします。モデルが間違いないことを考えると、この注意は、モデルの文書化された信頼性の改善にさえ、専門的、学術的、または健康上の問題に関連する問い合わせに特に重要です。
