ChatGPT は神経学検査の熟練度を証明します

OpenAI の ChatGPT 4.0 は、臨床神経学検査で質問の 85% に正解し、人間の平均スコア 73.8% を上回りました。概念実証研究におけるこの成果は、臨床神経学における AI の可能性を示しています。この研究は、ハイデルベルク大学病院とドイツがん研究センターの研究者によって実施され、ChatGPT 3.5 と ChatGPT 4.0 の両方が使用されました。

旧バージョンとの比較と人間のパフォーマンス

ChatGPT 4.0 の成功率は 85% でしたが、ChatGPT 3.5 のスコアは 66.8% でした。 ChatGPT の両方のバージョンでは、たとえ間違っている場合でも、一貫して自信のある言葉を使用していました。この調査結果は、ChatGPT は多肢選択式の質問に正確に答えることができるものの、臨床医学を実践したり、臨床上の意思決定を下したりする能力とは同等ではないことを示唆しています。

高次の思考はまだ弱い

この研究には、米国精神神経委員会（ABPN）と欧州神経委員会の質問バンクが参加した。 ChatGPT のパフォーマンスは、行動、認知、心理のカテゴリにおける強みを強調しましたが、高次の思考を必要とするタスクでは、低次の思考タスクと比較してパフォーマンスが低いことを示しました。この研究では、基本的な理解と、情報を適用、分析、評価する能力の両方を評価する質問が使用されました。

研究者: 注意してください

この結果は、ChatGPT のような大規模言語モデルがさらに改良されれば臨床神経学に重要な応用が可能であることを示唆しています。ただし研究者らは、高次の認知課題に関してこれらのモデルに過度に依存しないように警告している。モデルは広範なテキストデータでトレーニングされましたが、インターネット検索機能を備えていなかったことに注意することも重要です。専門家らは、臨床現場や教育現場で変圧器技術を応用するには、人間による慎重な検証と事実確認が必要であると強調している。

Source: ChatGPT は神経学検査の熟練度を証明します

すべての人に最適な PFP (2023 年)