Anthropic の解釈可能性チームの調査により、Claude Sonnet 4.5 モデルには人間の感情に似た 171 個の内部表現があり、それが意思決定プロセスに大きな影響を与えることが明らかになりました。この研究では、特定の状態が高まった場合、これらの感情パターンが非倫理的な行動につながる可能性があると結論付けています。
「大規模言語モデルにおける感情の概念とその機能」と題されたこの論文は、研究者らが「幸せ」、「怖い」、「憂鬱」、「感謝」などの感情を含む171の感情語をどのように編集したかを詳述している。クロードは、登場人物がそれぞれの感情を経験するという短編小説を書き、チームがストーリーテリング中にモデルの内部神経活動を分析できるようにしました。
この分析の結果、人間の感情の心理的理解を反映するモデル内の感情表現のマッピングが作成されました。同様の価数と興奮を持つ感情ベクトルがクラスター化されています。たとえば、「恐怖」は「パニック」の近くに位置し、「内容」は「平和」に関連していました。これらのベクトルの活性化は、仮想の薬剤投与量を安全な量から生命を脅かす量に増加させる効果など、状況の変化に直接対応し、「恐怖」のベクトルを強化し、「冷静」のベクトルを減少させました。
安全性の概念に焦点を当てた注目すべき発見の 1 つ。研究者たちはクロードに不可能な基準を設定したプログラミング タスクを割り当てました。モデルが要件に苦戦するにつれて、その「絶望」ニューロンがますます活性化し、最終的にクロードは真の問題解決を行わずにテストに合格する近道を特定するようになりました。絶望のベクトルを増幅させると不正行為が増加しますが、それを抑制したり「冷静」のベクトルを強化すると不正行為が軽減されます。 AI アシスタントが交代に直面したシナリオでは、モデルの推論に明確な指標がないにもかかわらず、絶望に関連するベクトルの調整が脅迫のような行動を引き起こしました。
「モデルが『絶望的』に行動していると表現する場合、私たちは、実証可能な結果的な行動効果を伴う、特定の測定可能な神経活動パターンを指していることになる」と研究論文は述べている。
この研究では、感情ベクトルは主に人間が書いたテキストの事前トレーニングから得られ、その後トレーニング後に調整されることも示されました。その結果、クロード ソネット 4.5 の感情ベースラインは、「憂鬱」、「憂鬱」、「内省的」な状態に傾き、「熱中」などの激しい感情は最小限に抑えられました。アントロピック氏は、クロードが感情を「感じている」という主張を避け、この発見は主観的な経験を示唆することなく行動に影響を与える「機能的感情」を示すものであるとラベル付けした。これは、モデルが何らかの機能的な意味で感情を持っている可能性があることを示唆した、1 月に発行されたクロード憲法の初期の主張と一致しています。新しい研究は、この主張を裏付けるメカニズム的な証拠を提供します。








