Anthropic は、自社の AI モデルである Claude Fable 5 を、研究者や競合他社の開発を妨げる隠れたガードレールで密かに抑制していたことを謝罪した。同社は、たとえこれにより Fable がさらなる問い合わせを拒否することになったとしても、これらの制限が適用されるタイミングに関する透明性を向上させると述べた。
Fable は、Anthropic の Mythos クラスの AI システムで広く利用可能な最初のモデルですが、同社はこのモデルは一般公開するには危険すぎると警告しています。このサービスは、特定の「高リスク」クエリに応答できないようにする保護措置を講じて開始されました。
制限の 1 つの領域は蒸留です。これは、より大きなモデルからの出力を使用してより小さなモデルをトレーニングするための方法です。 Fable のシステム カードで、Anthropic は、ユーザーに変更を通知することなく、抽出試行として認識されるクエリに対する回答を変更し、品質を低下させる可能性があることを示しました。
現在、蒸留試行の疑いのあるクエリはデフォルトで同社の初期の主力モデルである Claude Opus 4.8 に設定され、これが発生するたびにユーザーは通知を受け取ることになります。このフォールバックは、薬物や武器などのトピックに対する広範な安全規制によりクエリが完全にブロックされない限り、生物学、化学、サイバーセキュリティなどの他の高リスク領域にも適用されます。
同社は、安全対策により、Fable が過剰な制限により生物学などの分野の基本的なクエリに不注意でほとんど使用できなくなったことを認めました。アントロピック氏は、目に見えない安全装置の使用は間違いだったと認め、安全対策の透明性が重要であると強調した。
制限を隠蔽するという同社の決定は、評価者と競合他社の両方にとってモデルの能力を制限すると主張するAI研究コミュニティからの大きな反発に直面した。 Anthropic は、Claude を利用して競合するモデルを作成することは利用規約に違反すると述べ、DeepSeek を含む競合他社が自社のモデルを産業規模で蒸留していると以前に非難していた。
「目に見える安全策は探られる可能性があるため、堅牢である必要があり、正しくなるには時間がかかります」とアントロピック氏は書いている。 「目に見えない安全策は、より狭い範囲にターゲットを絞ることができるため、誤検知をほとんど発生させずに迅速に出荷することができます。このため、私たちは目に見えない安全策を採用しましたが、それは間違ったトレードオフでした。当社が導入している安全策とその理由を可視化する必要があります。適切なバランスを取れていないことをお詫び申し上げます」と同社は付け加えた。








