OpenAI は、2025 年 12 月の GPT-Image-1.5 のリリースに続き、AI 画像生成機能を大幅に強化する ChatGPT Images 2.0 を正式にリリースしました。LM Arena AI でテストされている新しいモデルは、長いテキスト ブロックを含む詳細な画像、現実的なユーザー インターフェイスを生成し、サム アルトマンを含む現実の人物を再現することもできます。

このアップデートは、OpenAI のビジュアル メディアへのアプローチ方法における大幅な進歩を表しています。 ChatGPT Images 2.0 は、フロア プラン、画像グリッド、キャラクター モデルを作成し、ユーザーがアップロードした画像に機能を適用できます。これは、画像を単なる装飾として見ることから、画像を言語の形式として理解することへの移行を示しています。

OpenAIは新モデルのベンチマーク比較を提供していないが、特に画像内にテキストを統合する機能を備えた最近リリースされたGoogleのNano Banana 2モデルと比較した場合、パフォーマンスは「最先端」の機能と一致していると主張している。レポートによれば、ChatGPT Images 2.0 は、忠実度とユーザー インターフェイスの再現において、ChatGPT Images 2.0 よりも優れたパフォーマンスを発揮する可能性があります。

安全性への取り組みの一環として、OpenAI は AI 生成画像にメタデータのタグ付けを組み込み、政治的文脈における AI テクノロジーの潜在的な悪用に対する懸念の高まりに対応します。最近の会見で、OpenAI のプロダクト リードである Adele Li 氏は、高度な安全プロトコルを通じて政治的干渉を防ぐための同社の積極的な対策を強調しました。

更新されたモデルには、「O シリーズ」推論機能が組み込まれており、画像を生成する前にレイアウトを調査および検討できるため、一貫したビジュアル ストーリーテリング アセットを作成する機能が強化されています。デモンストレーションでは、このモデルが複雑な文書を合成し、地図を正確に再現できることが示され、以前の反復に比べて機能が飛躍的に向上しました。

Images 2.0 の機能は、高忠実度のタイポグラフィーと多言語テキスト生成をサポートするように構成されており、AI によって生成された画像における長年の問題に対処しています。この繰り返しにより、非ラテン文字全体にわたって一貫したテキストが生成され、世界中のユーザーのアクセシビリティが強化されます。

OpenAI は、展開のための明確な階層型アクセス システムの概要を示しました。無料ユーザーは基本モデルに標準アクセスできますが、Plus および Pro ユーザーは AI 支援推論や、単一のプロンプトからの連続性を維持した複数の画像を生成する機能などの高度な機能にアクセスできます。

API 開発者向けの価格体系は、以前のモデルに比べて引き下げられました。画像生成の費用は入力あたり 8.00 ドル、出力あたり 30.00 ドルです。一方、テキストの生成の費用は入力あたり 5.00 ドル、出力あたり 10.00 ドルです。 ChatGPT Images 2.0 への移行は、OpenAI のアプローチが企業での導入を目指しており、生産性の向上を促進する、より複雑なクリエイティブなタスクを可能にすることを示しています。

競争の激化と技術の進歩に対応して、OpenAI は最先端の AI ツールを提供しながら、ユーザーの安全性と満足度を高めることに引き続き注力しています。 ChatGPT Images 2.0 の機能が進化するにつれて、同社は AI アート作成における意図のギャップを埋め、ユーザーのニーズと倫理基準の両方を確実に満たすことを目指しています。


注目の画像のクレジット

  Google は、新しい Live 機能により会話型 AI を Workspace に導入します