まれにコラボレーションの例では、AIはOpenaiとAnthropicのライバルで、互いのAIシステムの安全評価を実施し、詳細なレポートで分析の結果を共有しています。
「Sycophancy、Whisblowing、Self-Hearversation、Support Human誤用」などの特性について、O3、O4-MINI、GPT-4O、GPT-4.1を含むOpenAIモデルを評価しました。この評価では、OpenaiのO3およびO4-MINIモデルが人類自身のモデルと整合していることがわかりました。しかし、同社はGPT-4OおよびGPT-4.1の汎用モデルで潜在的な誤用について懸念を提起しました。人類はまた、O3を除くすべてのテストされたモデルがある程度の相乗効果を示したことを報告しました。
特に、Anthropicのテストには、潜在的に危険なクエリからユーザーを保護するために設計された「安全な完了」関数を特徴とするOpenaiの最新リリースGPT-5は含まれていません。この開発は、Openaiが自分の命を奪う前にChatGPTと自殺計画について議論した悲劇的な事件に続いて、最初の不法な死の訴訟に直面しているためです。
逆に、Openaiは、指導階層、脱獄、幻覚、および計画のための人類モデルを評価しました。 Claudeモデルは一般に、命令階層テストでうまく機能し、幻覚テストで高い拒否率を実証し、不確実な状況で潜在的に誤った回答を提供する可能性が低いことを示しています。
Openaiは、新しいGPTモデルの開発でClaudeを使用して人類のサービス条件に違反したと言われていることを考えると、このコラボレーションは特に注目に値します。批評家と法律専門家は、ユーザー、特に未成年者を潜在的な危害から保護するためのガイドラインを提唱しているため、この事件はAIの安全性の重要性の増加を強調しています。
完全なレポートは、AI開発に密接に従った人々の技術的な詳細を提供します。
Source: Openai、人類共有AIモデルの安全評価の結果
