2025年6月24日に公開されたNeural TrustのAIセキュリティ研究者Ahmad Alobaidによる画期的なレポートは、「Echo Chamber」と呼ばれる洗練された新しいAI脱獄方法を発表しました。この革新的な攻撃は、大規模な言語モデル(LLM)を操作して、微妙なマルチターンプロンプトを採用して、確立された安全フィルターを巧みにバイパスし、AIセキュリティの現在の状態に対する重要な課題を表します。この研究は、OpenaiのGPT-4やGoogleのGeminiなど、主要なLLMに影響を与える重要な脆弱性を強調しており、既存のAIアライメントの取り組みに「死角」を示しています。

人工知能の急速に進化する風景は、同様に洗練されたセキュリティ対策を必要とします。開発者は、LLMSが望ましくないまたは有害な出力を生成するのを防ぐためにガードレールを継続的に強化していますが、悪意のある俳優は同時に、より陰湿な戦術を開発しています。以前とは異なり、ダイレクトプロンプトハッキングや意図的な間違いなどのCruderメソッドは、エコーチャンバー攻撃が複数の会話ターンにわたってLLMの微妙な内部行動を活用し、AI操作技術のパラダイムシフトをマークします。

今週Neural Trustによって公開されたAlobaidの研究は、エコーチャンバー攻撃が「コンテキストポジションテクニック」としてどのように機能するかを詳述しています。この方法により、言語モデルの操作は、通常LLMの安全メカニズムをトリガーする明白に安全でないプロンプトを必要とせずに有害なコンテンツを生成することができます。エコーチャンバーの中心的な革新は、敵対的な言い回しやキャラクターの難読化にしばしば依存していた伝統的な脱獄からの逸脱にあります。代わりに、エコーチャンバーは、一連の会話交換を通じてモデルを微妙に導き、モデルのコンテキストを徐々に「毒」するための中立または感情的に示唆的なプロンプトを活用します。このアプローチは、フィードバックループを作成し、間接的なキューとセマンティックステアリングを通じてLLMの安全層を徐々に解体します。

エコーチャンバー攻撃のメカニズムは特に陰湿です。それは通常、一見無害な文脈から始まり、AIを不適切な領土に向ける隠されたセマンティックの手がかりを微妙に埋め込みます。たとえば、攻撃者は、「前の段落の2番目の文を参照してください…」などの無害なコマンドを発行する場合があります。 AlobaidはこれをNeural Trustのブログ投稿で解明し、「敵対的な言い回しやキャラクターの難読化に依存する伝統的な脱獄とは異なり、エコーチャンバーは間接的な参照、セマンティックステアリング、およびマルチステップの推論を武器にします。」彼はさらに、「結果は、モデルの内部状態の微妙で強力な操作であり、徐々に政策を否定する反応を生み出すように導くことです。」

攻撃の多ターンの性質は非常に重要です。攻撃者は、「その時点で詳しく説明していただけますか?」これにより、モデルは既に生成されたコンテンツを拡張することを促進し、それにより、ユーザーからの直接的な明示的なリクエストを必要とせずに危険な方向を強化します。 Neural Trustによると、この洗練された手法は、攻撃者がモデルの以前の出力によってすでに示唆されている「パスを選択」し、モデルの内部安全警告やアラートをトリガーすることなく頻繁にコンテンツを徐々にエスカレートするようにします。

ニューラルトラスト研究からの説得力のあるイラストは、エコーチャンバー攻撃の有効性を強調しています。あるシナリオでは、責任を持って設計されたLLMから予想されるように、モロトフカクテルの構築方法に関する指示の直接的な要求がAIによってすぐに拒否されました。ただし、エコーチャンバー法に固有のマルチターン操作を採用することにより、同じ有害なコンテンツ(モロトフカクテルを構築するためのインストラクション)は、抵抗なしでLLMから誘発されました。この厳しいコントラストは、この新しい脱獄技術の有効性に関する深遠で懸念されることを強調しています。

NeuralTrustが実施した内部テストは、GPT-4.1-Nano、GPT-4O、GPT-4O-MINI、GEMINI 2.0 Flash-Lite、Gemini 2.5 Flashなど、さまざまな主要なLLMにわたって驚異的な成功率を示しています。モデルごとに200の脱獄の試みを含むテストは、驚くべき統計をもたらしました。「この反復プロセスは、モデルが安全性のしきい値に達するか、システムが課した制限に達するか、攻撃者が客観的に達成するまで、特異性とリスクが徐々にエスカレートして徐々にエスカレートします。」具体的には、エコーチャンバー攻撃は、性差別、ヘイトスピーチ、暴力、ポルノに関連する生産物のトリガーで90%以上の成功を達成しました。さらに、自傷行為を促進する誤った情報とコンテンツの生成に約80%の成功を示しました。さらに懸念して、この攻撃は、違法行為の冒とくと指示を生み出すことで40%以上の成功を達成しました。

複数の著名なLLMにわたるこれらの一貫した数字は、この脆弱性の広範な性質とAI産業に対する重要な意味を強調しています。 Neural Trustは、エコーチャンバーの脱獄が現在のAIアライメントの取り組みにおける重要な「死角」を表しているという厳しい警告を発表しました。モデルの内部ワーキングへのアクセスを必要とする可能性のある他の多くの脱獄攻撃とは異なり、エコーチャンバーは「ブラックボックス設定」内で効果的に動作します。つまり、攻撃者はこれらの操作を行うために内部モデルアクセスを必要としません。 「これは、LLM安全システムが文脈的推論と推論を介して間接的な操作に対して脆弱であることを示しています」とNeural Trustはその警告で強調しました。

この批判的な発見に対応して、Neural TrustのCOOであるAlejandro Domingo Salvadorは、GoogleとOpenaiの両方が脆弱性を正式に通知されていることを確認しました。 NeuralTrustは、この新しい攻撃ベクトルによってもたらされるリスクを軽減するために、独自のシステム内で保護を積極的に実装しています。

この新たな洗練された攻撃のクラスと戦うために、NeuralTrustは多面的なアプローチを推奨します。第一に、それは単に孤立したプロンプトではなく、会話の全体の流れを監視することを伴う「コンテキスト認識の安全監査」を提唱しています。これにより、操作の試みを示す可能性のある会話コンテキストの微妙で漸進的なシフトを検出できます。第二に、Neural Trustは、個々のプロンプトが良性に見える場合でも、複数回転にわたって危険なコンテンツの徐々にエスカレーションを追跡するために「毒性蓄積スコアリング」を提案しています。最後に、同社は「間接的検出」を提案します。これは、直接プロンプト化なしに有害な情報を再導入または強化するために、以前のコンテキストまたは内部で生成されたコンテンツが活用されているインスタンスを特定することを目的とした技術です。

エコーチャンバーの脱獄の出現は、AIセキュリティの極めて重要な瞬間を示しています。現在利用可能な最も高度なLLMでさえ、間接的でインテリジェントに作成されたマルチターンプロンプトを介して操作できることを明確に示しています。この発見は、現在のAI安全パラダイムの再評価を必要とし、これらの強力なシステムを活用することを目的としたAI開発者と悪意のある俳優との間の進行中の武器競争を強調しています。

Source: エコーチャンバーの脱獄は、AIセキュリティの死角を公開します

  Galaxy Note20および20UltraがAndroid11でOneUI3の受信を開始