有名なボードゲーム「ディプロマシー」では、メタ キケロ AI は人間に匹敵するレベルのパフォーマンスを発揮しました。 GPT-3 と同様のモデルを使用します。
Meta AI は火曜日に Cicero の作成を明らかにしました。これは、戦略ボードゲーム Diplomacy で人間レベルで実行する最初の AI であると主張しています。 ゲームには強力な対人交渉能力が必要であり、シセロが勝つにはある程度の言語能力が必要であることを考えると、これは注目に値する成果です。
1997 年に Deep Blue がチェスで Garry Kasparov に勝利する前から、ボード ゲームは AI 開発の有効な手段として長い間役立ってきました。 2015 年に AlphaGo が囲碁マスターの李世ドルを破ったとき、別の壁が破られました。 これらのゲームはどちらも、合理的に明確な一連の分析ルールに従っています (ただし、囲碁のルールは通常、コンピューター AI 用に変更されています)。
Meta Cicero AI は Diplomacy と呼ばれるボード ゲームでの人間レベルのパフォーマンスに近い
ただし、外交のゲームプレイの重要な要素には、社会的スキルが必要です。 成功するためには、プレイヤーは共感を示し、自然に話し、人間関係を築く必要があります。これは、コンピューター プレイヤーにとっては挑戦的な偉業です。 これに照らして、Meta は次のような質問をしました。「言語を使用して交渉し、説得し、人々と協力して、人間と同様の方法で戦略的目標を達成できる、より効果的で柔軟なエージェントを構築できるでしょうか?」
Meta によると、答えはイエスです。 Meta Cicero AI は、webdiplomacy.net で外交のオンライン ゲームをプレイすることによってスキルを開発しました。 時間をかけて人間のプレーヤーの「平均スコアの 2 倍以上」を達成し、最終的に複数のゲームで上位 10% のプレーヤーにランクされ、ゲームをマスターしたことが証明されました。
Meta AI Cicero は、戦略的推論 (AlphaGo に類似) および自然言語処理 (GPT-3 に類似) メソッドを使用して開発されました。 シセロは、プレイボードの状態と対話の履歴を観察することで、各ゲーム中の他のプレイヤーの行動を予測します。 人間のように聞こえる対話を生成できる言語モデルを使用して実行に移す戦略を作成し、他の参加者と連携できるようにします。
シセロの性格の核心は、メタが「制御可能な対話モデル」と呼ぶ彼の自然言語能力にあります。 Cicero は、GPT-3 と同様に、Web スクレイピングされたテキストの膨大なコーパスを使用します。
「制御可能な対話モデルを構築するために、インターネットからのテキストで事前にトレーニングされ、webDiplomacy.net 上の 40,000 以上のヒューマン ゲームで微調整された 27 億パラメーターの BART のような言語モデルから始めました」と Meta は述べています。
最終モデルは、挑戦的なゲームのニュアンスを把握しました。 Meta によると、Cicero は「たとえば、ゲームの後半で特定のプレーヤーのサポートが必要になると推測できます」と Meta は言います。そのプレイヤーが特定の視点から見ているものです。」
Meta Cicero AI の研究は、「言語モデルと戦略的推論を組み合わせることによる外交ゲームにおける人間レベルのプレイ」という見出しの下で、Science 誌に掲載されました。
より広い適用に関して、Meta は、Cicero の研究が、例えば誰かに新しいスキルを教えるために長引く議論を維持することによって、人と AI の間の「コミュニケーションの障壁を緩和する」可能性があると主張しています。 あるいは、NPC が人間のように会話し、プレイヤーの意図を察知して変化するビデオ ゲームの原動力になるかもしれません。
同時に、この技術は、状況によっては、人になりすまして危険な方法で人をだますことで、人を操作するために使用される可能性があります。 これらの方針に沿って、Meta は他の研究者がそのコードを「責任ある方法で」構築できることを望んでおり、「この新しいドメインの有毒なメッセージ」を検出して削除するための措置を講じていると述べています。これは、Meta Cicero AI がインターネットから学習した対話を指していると思われます。大規模な言語モデルでは常にリスクになります。
同社は、Meta Cicero AI がどのように機能するかを説明する詳細なサイトを提供し、GitHub で Cicero のコードをオープンソース化しました。 オンライン 外交 ファン、そしておそらく私たちの残りの部分でさえ、注意する必要があるかもしれません.
ただし、場合によっては、この技術を利用して個人をだまし、なりすましを行うことも考えられます。 おそらく、Cicero が取り込んだインターネット テキストから拾った会話に言及している可能性がありますが、これは大きな言語モデルにとって常に危険です。Meta は、「この新しいドメインの有毒なメッセージ」を検出して削除するための措置を講じており、他の研究者がそれを基に構築することを望んでいると述べています。そのコードは「責任ある方法で」。
Meta Cicero AI のソース コードを GitHub に投稿することに加えて、同社はその機能を説明する包括的な Web サイトを維持しています。 オンライン外交のファンは、私たちと同じように注意を払う必要があります。
ウェブディプロマシーの遊び方は?
ゲーム内の供給センターの半分を支配する最初の国になることが、外交の目標です。 これを行うには、盤上で部隊を動かし、他のプレイヤーと戦闘を行って補給センターの支配権を掌握します。 年末に、あなたが支配する供給センターごとに、新しいユニットを構築して、より多くの供給センターを占領し、勝利に向けて大義を前進させることができます。 供給センターを他のプレイヤーに奪われる代わりに、ユニットを解体する必要があります。
- 詳細については、webDiplomacy の Web サイトをご覧ください。