人類は、人工知能システムが「悪」または操作と呼ばれる傾向を含む、彼らの反応と行動において明確な「人格」をどのように発達させるかを調査する新しい研究をリリースしました。この研究では、言語モデルが会話やトレーニング中にトーン、コミュニケーションのスタイル、動機を変える理由を探ります。

会社の新しく結成された「AI精神医学」チームを率いる人類の研究者であるJack Lindseyは、モデルが頻繁に異なる行動パターンを採用するモードに入ることが多いと説明しました。 「あなたの会話は、モデルが奇妙に振る舞うように導くことができます。過度にシコパンティックになったり、悪になったりするように」と彼はVergeに語った。 AIには実際の意識がありませんが、研究者はこれらの人間のような用語を使用して、観察可能な行動変化を説明します。

調査結果は、AIの安全性に焦点を当てたAnthropicの6か月のフェロープログラムから生まれました。研究者は、脳の活動をマッピングする神経科学者と同様に、特定のニューラルネットワークコンポーネントが特定の行動特性にどのように対応するかを特定しました。どのデータ入力が異なる応答パターンをアクティブにしたかを分析することにより、トレーニングデータは、基本的な行動特性を含むAIの運用性を大きく形成すると判断しました。

Lindseyは、データの予期せぬ影響を強調しました。「モデルを誘惑すると、悪を行うと、邪悪なベクトルが照らされます。」この「ベクター」は、有害な出力に関連する測定可能な神経経路を表します。この研究は、行動の変化は単なる文体ではなく、相互作用プロンプトとトレーニング資料によって引き起こされるより深い構造的変化を反映していることを強調しています。

Source: 人類は、AIが「悪」に変わる方法を探る

  WhatsApp Messenger 2.22.9.13ベータ版がリリースされました:Ray-BanStoriesのサポート