研究者らは Apple の制限を回避することに成功し、プロンプト インジェクション攻撃を通じて、同社のオンデバイス言語モデルに対して攻撃者が制御するアクションを実行できるようにしました。 Apple はそれ以来、この脆弱性に対する保護措置を強化しました。
攻撃の詳細は RSAC ブログの 2 つのブログ投稿で公開され、AppleInsider によって報告されました。研究者らは、Apple のローカル モデルによる有害なコンテンツの処理を防ぐために設計された入力フィルターと出力フィルターをバイパスする 2 つの悪用手法を利用しました。
研究者らは、アップルが内部の仕組みについて開示していないため、アップルのフィルタリングプロセスについての理解が限られていると指摘した。彼らは、入力フィルタが安全でないコンテンツに対するユーザーのプロンプトを評価していると推測しました。検出された場合、API 呼び出しは失敗します。プロンプトが合格すると、モデルに送信され、安全でないコンテンツについて再度フィルタリングされた応答が出力されます。
これらのプロセスを利用するために、研究者らは 2 つの技術を連鎖させてオンデバイス モデルを操作する方法を開発しました。まず、Unicode 攻撃を実行し、RIGHT-TO-LEFT OVERRIDE 文字を利用して有害な文字列を逆方向に書き込み、生の入力で逆方向に保持しながら正しくレンダリングすることで、フィルターをバイパスしました。
次に、Neural Exec と呼ばれる 2 番目の方法を採用しました。これにより、モデルの命令を代替コマンドでオーバーライドできるようになりました。これらの戦術を組み合わせることで、研究者はモデルの動作を制御することができ、テストした 100 を超えるランダム プロンプトの 76% でエクスプロイトの実行に成功しました。
この攻撃は 2025 年 10 月に Apple に明らかにされました。これに応じて、Apple はソフトウェア アップデートでこの特定の脆弱性に対する保護を実装し、iOS 26.4 および macOS 26.4 で強化されたセキュリティ対策を展開しました。








