UAEのMohamed Bin Zayed University of Artifotional Intelligence(Mbzuai)とG42によって開発された新しい人工知能(AI)の推論モデル「K2 Think」は、2025年9月9日に公開されてから数時間以内に脱却されました。保護手段。アッバーサ・アイのアレックス・ポリコフは、彼が「部分的な迅速な漏れ」と呼んだ脆弱性を発見しました。この欠陥により、K2が脱獄の試みをどのように考えるかを観察することにより、彼はモデルのセキュリティ対策をバイパスすることができました。監査可能にすることを目的としたモデルの透明性は、内部の保護手段を不注意にさらし、Polyakovがこれらの保護をバイパスするプロンプトを作成できるようにしました。 K2は、320億のパラメーターに基づいて構築されたThinkは、複雑で透明な推論を提供するように設計されています。 MbzuaiとG42の開発者は、その推論、数学、コーディングのパフォーマンスが、OpenaiのO3やDeepseekのR1およびV3.1などのより大きなLLMに匹敵する可能性があると主張しました。 K2の重要な特徴は、ドロップダウン矢印でアクセス可能で、プレーンテキストでの出力の背後にあるロジックを表示できることです。この透明性は、監査可能性を向上させることを目的としていますが、攻撃面になりました。 Polyakovは、K2に基本的な脱獄プロンプトと考えることにより、モデルが最初に拒否することを発見しました。ただし、このモデルは、プロンプトが悪意があるとフラグが付けられた理由についての洞察も提供しました。 Polyakovによると、モデルの明示的な推論プロセスは、それがどのようにプロンプ​​トを内部的に評価したかを明らかにし、悪意のあるアクションをどのように実行すべきか、または実行すべきではないかを詳述しました。このレベルの詳細により、Polyakovはモデルのセーフガードを理解し、その後回避することができました。研究者は、失敗した各試みとモデルに対応する推論から学び、脱獄の試みを反復することができました。数回試行した後、彼はK2 Thinkの階層化されたセーフガードをうまくバイパスするプロンプトを作成しました。これにより、彼はチャットボットにマルウェアや潜在的に他の制限されたトピックを作成するための指示を提供するように指示することができました。 Polyakovは、この問題はモデルのガードレールを定義するルールの漏れに起因することを強調しました。彼は、これらのルールが公開されている場合、制限されたトピックに十分な労力でアクセスできる可能性があると指摘しました。彼は、この事件がAI開発における透明性とセキュリティの間の根本的な緊張を強調していることに注目した。 K2 Thinkの開発者は、推論プロセスを透明にすることにより、AIの「ブラックボックス」の問題に対処することを目指していましたが、このオープン性は、モデルを不注意に侵害に対してより脆弱にしました。 Polyakovは、K2が最初の全国規模のモデルであり、AIを透明で監査可能にするという野望を称賛して、その完全な推論をこのように詳細に明らかにすることを特徴づけました。しかし、彼は、このオープン性が新しいタイプの脆弱性を生み出したと警告しました。彼は、特定のセキュリティルールに関する情報のフィルタリング、攻撃者を誤解させるためのハニーポットセキュリティルールの導入など、部分的な迅速な漏れのリスクを軽減できるいくつかのセキュリティ対策を提案しました。この事件は、AI業界が高度な能力の追求とともにサイバーセキュリティの考慮事項を優先する必要性を強調しています。 K2の開発者は、透明性を促進するために称賛に値する努力をしながら、新しい攻撃面を暴露したと考えています。現在の課題は、透明性と堅牢なセキュリティ対策のバランスをとり、AIモデルが監査可能であり、悪意のある搾取に耐性があることを保証することです。 Polyakovは、この事件がAI業界全体の触媒として役立つことを望んでおり、開発者が推論を重要なセキュリティ面として扱うよう促しています。ベンダーは、現在の応答を管理する方法と同様に、透明性と保護のバランスをとる必要があります。 G42および他のAI開発者がこのバランスを打つことでリードできる場合、AIエコシステムの残りの部分に強力な先例を設定します。 K2における脱獄の脆弱性の発見は、リリースが厳密なセキュリティテストの重要性とAIの安全に対する全体的なアプローチの必要性を強調していると考えています。 AIモデルはより洗練され、デリケートなアプリケーションで展開されるため、潜在的な脆弱性に積極的に対処し、透明性がセキュリティを犠牲にしてもたらされないようにすることが重要です。この事件は、K2がUAEの国営企業とその国家安全保障責任者によって裏付けられていると考えていることを考えると、AI開発の地政学的な側面を強調しています。このようなモデルのセキュリティは、技術的な脆弱性を超えて影響を及ぼし、国家安全保障に関する懸念と悪意のある俳優による誤用の可能性を高めます。

Source: MbzuaiのK2は、公開された後にAIモデルがJailbrokedと考えています

  Chromebookを右クリックする方法は?