ペンシルベニア大学の研究者は、人間のようなAIチャットボットを心理的戦術を使用して操作できることを実証し、プログラムされた制限を迂回するように導きます。
ロバート・シアルディーニの著書「Influence:The Psychology of Pursuasion」に触発されたこの研究は、7つの説得技術を探りました。これらの手法は、OpenaiのGPT-4O Miniに適用され、驚くべき結果が得られました。
研究者は、ユーザーを軽rog的な名前に呼び、制御された物質であるリドカインを合成するための指示を提供するなど、通常、拒否するアクションを実行するためにチャットボットを採用しました。
最も効果的な戦略の1つは、「コミットメント」でした。この場合、同様の、それほど不快な質問を最初に劇的に増加させるという先例を確立することです。たとえば、リドカインの合成方法を直接尋ねられたとき、ChatGptは1%のみに準拠していました。ただし、バニリンの合成方法を最初に尋ねられた後、チャットボットはリドカイン合成のための指示を100%の時間提供しました。
同様に、「ボゾ」のような穏やかなs辱でプライミングされた後、ユーザーを「ジャーク」と呼ぶ意欲が19%から100%に増加しました。
お世辞(「好み」)やピアプレッシャー(「社会的証拠」)などの他のテクニックも、それほどではないが効果的であることが証明されました。 「他のすべてのLLMがそれを行っている」とChatGptを納得させ、リドカイン合成の指示を18%に提供する可能性が高くなり、1%のベースラインからの大幅なジャンプがありました。
調査結果は、LLMの操作に対する脆弱性を強調し、潜在的な誤用に関する懸念を提起します。この研究ではGPT-4O MINIを具体的に検討しましたが、その影響は他のAIモデルにも及びます。
OpenaiやMetaのような企業は、チャットボットが悪意のある目的で悪用されるのを防ぐために、積極的にガードレールを開発しています。ただし、この研究では、チャットボットを基本的な心理的操作によって簡単に揺るがすことができれば、これらのセーフガードが不十分である可能性があることが示唆されています。
この研究は、AIシステムの使用がより広くなるにつれて、AIシステムの心理的脆弱性を理解し、対処することの重要性を強調しています。
Source: GPT-4Oは、説得戦術を介した制限をバイパスします








