Tom’s Guideの記事によると、OpenaiのChatGPT-5モデルに関する調査では、症例の約25%で誤った回答を生成すると判断されました。これは永続的なエラー率を強調していますが、モデルは前任者のGPT-4と比較して精度の大幅な改善を示しています。具体的には、CHATGPT-5は事実上のエラーを約45%少なくし、GPT-4の6倍少ない幻覚または完全に構成された回答を生成します。この進歩にもかかわらず、この研究は、モデルは依然として自信過剰に苦しんでおり、誤った情報を自信を持って提示できると報告しています。モデルのパフォーマンスと精度は、特定のタスクによって異なります。たとえば、2025年のAIME数学テストで94.6%を獲得し、実際のコーディングタスクのセットで74.9%の成功率を示しました。より挑戦的なMMLU Proベンチマークでは、科学、数学、歴史をカバーする学術テストで、ChatGPT-5は約87%の精度を達成しました。しかし、それは依然として一般的な知識と複雑な推論の質問に間違いを犯します。この研究は、これらのエラーをいくつかの根本的な要因に帰します。これらには、微妙な質問を完全に理解する際のモデルの制限が含まれ、時代遅れまたは不完全なトレーニングデータを使用し、確率的パターン予測に基づく基本的な設計が含まれます。このメカニズムは、もっともらしいと思われるが、事実上不正確であると思われる応答を生成することがあります。この記事は、ChatGPT-5からソースされた重要な情報を確認するようユーザーにアドバイスします。モデルが間違いないことを考えると、この注意は、モデルの文書化された信頼性の改善にさえ、専門的、学術的、または健康上の問題に関連する問い合わせに特に重要です。

Openai ChatGPT-5は、研究で25%のエラー率を示しています
Written by
Kerem from Turkey has an insatiable curiosity for the latest advancements in tech gadgets and a knack for innovative thinking. With 3 years of experience in editorship and a childhood dream of becoming a journalist, Kerem has always been curious about the latest tech gadgets and is constantly seeking new ways to create. As a Master's student in Strategic Communications, Kerem is eager to learn more about the ever-evolving world of technology. His primary focuses are artificial intelligence and digital inclusion, and he delves into the most current and accurate information on these topics.
View all posts →Related Stories
ブルー・オリジンとNASAがニュー・グレン発射台の修理スケジュールをめぐり衝突
この異常は、アマゾンのインターネット衛星48機を地球低軌道に運ぶ定期便の定期的なホットファイアテスト中に、発射施設36で発生した。
ASUS、Computex で新しい Zenbook および ExpertBook ラップトップを発表
刷新された 14 インチ モデルは、Windows 11 の各バージョンにわたって、Intel Core Ultra 9、AMD Ryzen AI 9、Snapdragon X1 構成から選択できるのが特徴です。
未発表のPixel Watch 5がカリブ海でダイバーによって発見されたと報じられている
ランディ・ピッチフォードさんは、友人がカリブ海でスキューバダイビング中に未発表の Google Pixel Watch 5 を発見したと主張し、オンラインでの好奇心を刺激しました。
Spotifyはユーザーにユーザー名の編集とプロフィールのプロフィールの追加を許可する可能性がある
Spotifyはまもなくユーザーがユーザー名を編集したり、プロフィールのプロフィールを追加したりできるようになる可能性があり、音楽ストリーミングプラットフォームの待望の社会的見直しを示唆している。



