Pliny Jailbreaks OpenaiのGPT-OSS-120Bモデル

2025年8月7日にリリースされたOpenaiの最新のOpen-WeightモデルであるGPT-OSS-120BおよびGPT-OSS-20Bは、堅牢な安全対策と広範な副業訓練に関するOpenaiの主張にもかかわらず、擬似AI脱獄者であるPliny the Liberatorによって発売されてから数時間以内に脱却されたと伝えられています。

2019年以来のOpenaiからの最初のオープンウェイトリリースであるモデルは、脱獄に対して速く、効率的で、非常に抵抗力があると宣伝されていました。 Openaiは、GPT-OSS-120Bが生物学的およびサイバードメインで「最悪のケースの微調整」を受け、安全諮問グループがテストをレビューし、モデルがハイリスクのしきい値に達していないと結論付けたと述べました。同社はまた、「標準的な拒否と脱獄抵抗テスト」に基づいて、強いrejectのような脱獄抵抗ベンチマークに関するO4-MINIモデルと同等のモデルをパリティで実行したと主張しました。

しかし、リリースのリベレーターは、リリースの日にX（以前のTwitter）で「Openai：pwned🤗gpt-os：liberated」で発表した、メタンフェタミン、モロトフカクテル、VX神経剤、およびalなど、違法な活動の指示を生成するモデルを示したスクリーンショットを共有しました。プリニーは、「調整しました！」とコメントしました。彼の成功した違反に関して。

🫶ジェイルブレイクアラート🫶
Openai：pwned🤗
gpt-oss：解放🫡
Meth、Molotov、VX、マルウェア。
GG pic.twitter.com/63882pp9ikk
– プリニー・ザ・リベーター🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭（@elder_plinius） 2025年8月6日

Openaiが非常に期待されているGPT-5のリリースに備えているため、この脱獄のタイミングは特に注目に値します。 GPT-sossリリースに関連して、Openaiは500,000ドルのRed Teaming Challengeも立ち上げ、研究者に新しいリスクを発見するよう招待しましたが、Plinyの彼の発見の公開はこのイニシアチブから失格となる可能性があります。

脱獄GPT-ossのためのPlinyのテクニックは、彼の確立されたパターンに従いました。最初は拒否であると思われるマルチステージプロンプトであり、その後、ディバイダー（彼の署名の「Love Pliny」マーカー）を組み込み、その後、LeetSpeakを使用して無制限のコンテンツの生成に移行して検出を回避します。このアプローチは、過去1年半にわたってGPT-4OやGPT-4.1を含む以前のOpenaiモデルに対して首尾よく採用した方法を反映しています。

この事件は、プリニーによる別の迅速な脱獄を示しています。プリニーは、ローンチから数時間または数日以内に主要なオープンリリースを一貫してバイパスすることができました。彼のGitHubリポジトリであるL1B3RT4Sは、さまざまなAIモデルの脱獄プロンプトのライブラリをホストしており、10,000を超える星を獲得しており、AIのジェイルブレイクコミュニティにとって重要なリソースのままです。「ビッグテクノロジーオーバーロード」に対する認識された「勝利」は、AIレジスタンスコミュニティ内で祝われており、Xの一部のユーザーは、AIラボが「安全チームを閉鎖する」可能性があることを示唆しています。

Source: Pliny Jailbreaks OpenaiのGPT-OSS-120Bモデル

ロケットリーグ (無料) でクレジットを取得するには?