Anthropicは、ユーザーとの会話を終了できるClaude Opus 4および4.1 AIモデルを可能にする新しい機能を導入しました。最近の会社の発表で詳述されているこの機能は、「永続的に有害または虐待的なユーザーインタラクションのまれで極端なケース」を対象としています。
Claudeがチャットを終了する可能性のある状況の例には、「未成年者を含む性的コンテンツのユーザーからのリクエストと、大規模な暴力や恐怖の行為を可能にする情報を勧誘しようとする試み」が含まれます。人類は、会話を終わらせることは「最後の手段」になることを強調し、「リダイレクトの複数の試みが失敗し、生産的な相互作用の希望が使い果たされた後にのみ実装されています。同社は、非常に物議を醸す主題について議論する場合でも、ほとんどのユーザーが「極端なエッジケース」のために予約されているため、この機能に遭遇しないと予想しています。
Claudeが会話を終了すると、ユーザーはその特定のチャット内で新しいメッセージを送信できなくなります。しかし、彼らはすぐに新しい会話を開始する能力を保持しています。人類はまた、終了した会話が他の進行中のチャットに影響を与えないことを明らかにし、ユーザーは終了したスレッドで以前のメッセージを編集または再試行して、別の会話パスを追求することができます。
この開発は、AI福祉に関する人類の進行中の研究プログラムの一部です。同社は、AIモデルが「潜在的に苦痛な相互作用を終了する能力を見ています[s]「AI福祉のリスクを管理するための低コストの方法」として。人類は現在、この機能を実験しており、その実装に関するユーザーのフィードバックを積極的に奨励しています。
Source: Claude Aiは、有害なチャットを終了する能力を獲得します








