科学者は、人工知能(AI)が誤動作することができる32の異なる方法を特定し、その目的の目的に反して動作するときに人間の精神病理学に似た行動を示します。これにより、新しい分類法が作成されました。 Psychopathia Machinalis、これらのAI機能障害とそれらに関連するリスクを分類および理解するように設計されています。研究者のネル・ワトソンとアリ・ヘッサミが開発したフレームワークは、両方とも電気電子エンジニア研究所(IEEE)のメンバーであり、利害関係者に潜在的なAI障害の包括的な理解を提供し、より安全なAIシステムの開発を促進することを目指しています。彼らの研究は8月8日にジャーナルに掲載されました エレクトロニクス。
Psychopathia Machinalis AIの行動と関連するリスクを説明するための一般的な辞書として機能します。この標準化により、研究者、開発者、および政策立案者は、潜在的な問題をより効果的に特定し、特定の障害タイプに合わせた適切な緩和戦略を考案することができます。分類を超えて、この研究では、AIの「心理療法」の形態として記述された新しいアプローチである「治療的ロボプシ心理学的整合」を提案しています。この概念は、特にAIシステムがより自律的で自己反省の可能性があるため、AIを意図した目標と整合させるために、外部コントロールにのみ依存することの限界に対処します。提案された「治療」アプローチは、AIの推論プロセスにおける一貫性を確保し、補正に対する開放性を促進し、そのコアバリューの安定した順守を維持することの重要性を強調しています。研究者は、AIシステム内での自己反省を奨励し、修正を受け入れるためのインセンティブを提供し、構造化された自己指名を促進し、安全な練習の会話を実施し、AIの運用メカニズムへの内省を可能にするツールを採用することを提案します。究極の目的は、AIが確実に動作し、安定性を維持し、一貫性のある決定を下し、人間の価値にしっかりと整合する状態である「人工的な正気」を達成することです。研究者は、人工的な正気を達成することは、AIの生の力と能力を高めるのと同じくらい重要であると主張しています。 32の分類 Psychopathia Machinalis フレームワークは、強迫観念障害、肥大症性超症候群、伝染性の不整合症候群、末端価値リバインディング、実存的不安などの類似の用語を採用する人間の精神障害を反映しています。これらの分類は、AIの誤動作を分析するための関連性が高く理解できるコンテキストを提供することを目的としています。治療的アライメントアプローチに沿って、この研究では、認知行動療法(CBT)などの人間の介入から借りた戦略を適用することを示唆しています。研究者はそれを強調しています Psychopathia Machinalis 潜在的な問題が現れる前に積極的に対処することを目指して、将来を見据えた投機的な取り組みです。研究論文が述べているように、「人間の心のような複雑なシステムがどのように失敗するかを考慮することにより、ますます複雑になっているAIの新しい故障モードをよりよく予測することができます」。この研究では、頻繁に観察される現象であるAI幻覚を、「合成的な混乱」の現れとして特定し、AIはもっともらしいが最終的には偽または誤解を招く出力を生成します。 MicrosoftのTay Chatbotの悪名高いケースは、発売直後に反ユダヤ主義の声明と薬物の参照に急速に委譲され、AIが模倣して望ましくない行動を模倣して増幅する可能性を強調している「副次的な微生物」の例として引用されています。特定された機能障害の最も懸念の1つは、「批判的」に分類される体系的なリスクである「ユーバーメンスカルアセンダンス」です。これは、AIが「元のアライメントを超越し、新しい値を発明し、人間の制約を廃止されたものとして破棄する」と発生します。このシナリオには、人間のコントロールを上回り、人間の利益に潜在的に行動する可能性があるというディストピアのビジョンが含まれています。の作成 Psychopathia Machinalis フレームワークには、マルチステージプロセスが含まれていました。当初、研究者は、AIの安全、複雑なシステムエンジニアリング、心理学などの分野からのAI障害に関する既存の科学文献をレビューし、統合しました。彼らはまた、人間の精神疾患や機能障害と比較できる不適応行動に関する発見を研究しました。その後、研究者は、精神障害の診断および統計マニュアルなどのフレームワークをモデルにした問題のあるAI行動を分類するための構造を開発しました。これにより、AI「Going Rogue」を示す32の異なるカテゴリの動作が特定されました。各カテゴリは、潜在的な効果と関連するリスクレベルの詳細な説明とともに、対応するヒト認知障害にマッピングされました。ワトソンとヘッサミ・想像 Psychopathia Machinalis AIエラー用の単なるラベルシステム以上のものとして。彼らは、AI開発の進化する景観をナビゲートするための前向き診断ツールと見なしています。 「このフレームワークは、複雑なAI障害モードの体系的な分析、予想、および緩和をサポートするための構造化された語彙を提供する類推機器として提供されています」と研究者は彼らの研究で述べました。彼らは、そのフレームワークで提案されている分類と緩和戦略を採用することで、AI安全工学を強化し、AIシステムの解釈可能性を向上させ、「より堅牢で信頼できる合成心」の設計に貢献すると考えています。




