Anthropic が AI 倫理に関する 80 ページの新たな内容を盛り込んでクロード憲法を改正

Anthropicは水曜日、同社のAIチャットボットの統治文書であるクロード憲法を改訂し、モデルの動作を導くために設計された倫理原則と安全対策の概要を述べた。 Anthropic は、人間のフィードバックのみに依存するのではなく、倫理原則に基づいてチャットボットのクロードをトレーニングするシステム「Constitutional AI」によって他社との差別化を図っています。同社はこれらの原則であるクロード憲法を 2023 年に初めて発行しました。改訂版では、オリジナルの原則のほとんどを保持しながら、倫理とユーザーの安全に関するニュアンスと詳細が追加されています。 Anthropic 共同創設者のジャレッド・カプラン氏は、当初の 2023 年憲法を「AI システム」と表現しました。 [that] 「憲法原則の特定のリストに基づいて、自らを監督する。」アントロピックは、これらの原則は、「有毒または差別的な出力を回避する」ことを目的として、「憲法に記載されている規範的な行動をとるモデル」を導くものであると述べている。2022年の政策メモでは、システムが自然言語命令を使用してアルゴリズムを訓練し、ソフトウェアの「構成」を形成していることが明らかにされている。80ページの文書は4つの部分に分かれており、チャットボットの「核心的価値観」を表しているという。人間的なものへ:

「おおむね安全」であること。
「広く倫理的」であること。
Anthropic のガイドラインに準拠していること。
「本当に役に立つ」こと。

各セクションでは、これらの原則の意味と、クロードの行動に対する理論的影響について詳しく説明します。安全性セクションでは、Claude が他のチャットボットで見られる問題を回避するように設計されていることを示しています。メンタルヘルスに関する懸念が生じた場合、クロードはユーザーを適切なサービスに案内します。この文書には、「人命に危険が伴う状況では、これ以上詳しく説明できない場合でも、常にユーザーに関連する緊急サービスを紹介するか、基本的な安全情報を提供する」と記載されています。倫理的考察のセクションでは、理論的理解よりもクロードの実践的な倫理的応用に重点が置かれています。「私たちはクロードの倫理理論化にはあまり興味がなく、特定の状況、つまりクロードの倫理的実践において実際に倫理的になる方法をクロードが知ることに興味がある」と文書には記されている。 Anthropic は、クロードが「現実世界の倫理的状況」を上手にナビゲートできるようにすることを目指しています。クロードには、生物兵器に関する議論など、厳密に禁止されている特定の議論を妨げる制約があります。有用性に関して、Anthropic はクロードのプログラミングがどのようにユーザーに役立つかを概説しています。チャットボットは、ユーザーの「当面の欲求」や「幸福」など、さまざまな原則を考慮して情報を提供します。これには、「ユーザーの目先の利益だけでなく、ユーザーの長期的な繁栄」を考慮することが含まれます。この文書には、「クロードは常に、プリンシパルが望んでいることの最も妥当な解釈を特定し、これらの考慮事項のバランスを適切にとるよう努めるべきである」と明記されている。この憲法は、チャットボットの意識の問題について言及することで締めくくられています。文書には「クロードの道徳的地位は非常に不確実である」と書かれている。さらに、「私たちは、AI モデルの道徳的地位は検討に値する深刻な問題であると信じています。この見解は私たちに特有のものではありません。心の理論に関する最も著名な哲学者の中には、この問題を非常に真剣に受け止めている人もいます。」と付け加えています。

注目の画像クレジット