Google の DeepMind は、テキスト プロンプトのみからプレイ可能な 3D ゲームの世界を生成できる画期的なモデルである Genie 2 を発表しました。このテクノロジーは、2D 環境を作成した以前のバージョンの Genie 1 に基づいて構築されています。 Genie 2 の進歩により、Genie 2 はリアルタイムで多様なインタラクティブなエクスペリエンスを作成するための革新的なツールとして位置づけられています。
Google の DeepMind が 3D ゲーム世界向けの Genie 2 を発表
Genie 2 は、アニメーション、物理学、およびインタラクションをシミュレートすることにより、没入型の仮想世界を構築するように設計されています。このモデルは、単純なテキスト プロンプトから生成できる画像を利用することで、創造的な柔軟性を実現します。たとえば、ユーザーが「サイバーパンク西部劇」のリクエストを入力すると、Genie 2 が対応する環境を生成します。この革新的なアプローチは生成 AI を活用して、仮想空間で作成できるものの限界を拡張します。
このモデルは 2 段階のプロセスで動作します。まず参照画像が必要ですが、テキストから生成することもできます。視覚的な入力が提供されると、Genie 2 は外挿して完全なインタラクティブな世界を構築します。デモンストレーションでは、WASD レイアウトなどの従来のコントロールを使用したシームレスなプレーヤー インタラクションが明らかになり、直感的なナビゲーションが保証されました。
こうした進歩にもかかわらず、Genie 2 は顕著な課題に直面しています。具体的には、モデルの一貫性は約 20 秒後に低下し、最長のシミュレーションは 1 分間続きます。この矛盾は、AI が「反事実」を生成する能力に起因している可能性があります。つまり、AI はプレイヤーが実行するさまざまな潜在的な行動を考慮するため、一貫した物語を維持することが困難になります。
Genie 2 は、一人称視点や等角投影ビューなど、さまざまな視点に対応できる能力が優れています。また、リアルな水の効果や環境の相互作用などの要素も組み込まれており、その例としては、キャラクターが風船と相互作用するデモンストレーションがあり、物理学、重力、その他のダイナミクスが示されています。ただし、レンダリング解像度とポリゴン数に関する詳細は Google によって明らかにされていません。
Genie 2 の機能はユーザー制御のプレイを超えて拡張されます。このモデルは、生成された環境内で相互作用する AI キャラクターを効果的にシミュレートすることもできます。 Google は、生成された世界内のテキスト プロンプトに基づいてコマンドを実行する AI の機能を示すことで、これを説明しました。このような機能は、将来のゲーム アプリケーションで現実的な動作を示すことができる AI 駆動の NPC の可能性を示唆しています。
Genie 2 のトレーニング データに関しては、セキュリティと倫理上の考慮事項が生じます。モデルのトレーニング フレームワークには YouTube などのプラットフォームからソースされたゲームプレイ ビデオが含まれる可能性があることが示唆されており、著作権で保護された素材との類似性に関する知的財産上の懸念が生じています。これらの問題は、生成 AI による既存コンテンツの使用の法的影響に関する調査につながる可能性があります。
Genie 2 の現在の実装は一時的なものであるため、完全に一貫したゲーム エクスペリエンスを提供できない可能性がありますが、DeepMind はこのモデルを本格的なゲーム製品ではなく研究開発のリソースとして想定しています。インタラクティブなエクスペリエンスのプロトタイピングと、シミュレートされた環境での AI エージェントの評価に重点が置かれています。
Genie 2 の公開リリース、商用アプリケーション、および必要な技術リソースの詳細は、Google がこれらの領域をゆっくりと航行しているため、依然として不明瞭です。
注目の画像とビデオのクレジット: Google DeepMind
Google の DeepMind が 3D ゲーム世界向けの Genie 2 を発表 最初に TechBriefly に掲載されました。
Source: Google の DeepMind が 3D ゲーム世界向けの Genie 2 を発表