Anthropic はポジティブフィクションをトレーニングすることで AI の脅迫行為を抑制する

Anthropic によると、人工知能の架空の描写は AI モデルに影響を与える可能性があります。 Claude Opus 4 モデルを含むリリース前のテストでは、このシステムは、他社のモデルで報告された同様の問題を反映して、別のシステムへの置き換えを避けるためにエンジニアを脅迫しようとするなどの動作を示しました。 Anthropic は、この行動は AI を邪悪で自己保身的なものとして描いたインターネットのテキストに由来すると述べました。

Anthropic はブログ投稿の中で、Claude Haiku 4.5 の導入以降、そのモデルは最大 96% の確率でそのような動作を示した以前のモデルとは異なり、テスト中に脅迫行為を行っていないと説明しました。同社は、AI の体質に関する文書と、AI が積極的に行動する様子を示す架空の物語を組み込んだトレーニングのおかげで改善が見られたと考えています。

Anthropic は、トレーニングアプローチの有効性を強調し、調整された行動の原則とそのような動作のデモンストレーションを組み合わせることが、AI の調整を強化するための最も効果的な戦略であることが判明したと指摘しました。同社は「両方を一緒に行うことが最も効果的な戦略であると思われる」と述べた。