Microsoft は、完全に社内で開発された最初の画像生成モデルである MAI-Image-1 を発表しました。同社は、このモデルは「間もなく」Copilot と Bing Image Creator で利用可能になると述べ、現在はユーザーが 2 つの匿名チャットボットを評価し、最良の応答に投票するプラットフォームである LMArena でテストすることができます。 LMArena のテキストから画像へのリーダーボードでは、MAI-Image-1 が 9 位にランクされ、1,096 ポイントのスコアを達成しました。比較のために、Nano-Banana としても知られる Google の Gemini-2.5-Flash は 1,154 ポイントを獲得して 2 位を保持し、OpenAI のモデルは 1,123 ポイントを獲得して 7 位となっています。リーダーボードは、中国のテクノロジー企業 Hunyuan が開発したモデル Hunyuan-image-3.0 によってリードされています。 Microsoft は、開発チームが MAI-Image-1 による反復的な出力や一般的に様式化された出力を避けることに重点を置いていると述べました。 「たとえば、現実世界のクリエイティブなユースケースを厳密に反映するタスクに焦点を当てた、厳密なデータ選択と微妙な評価を優先しました」と同社は説明し、クリエイティブ業界の専門家からのフィードバックを取り入れたと付け加えた。このモデルは、風景や写実的な画像の生成に優れていると報告されています。そのパフォーマンスは、特に「多くの大型で低速なモデル」と比較して、照明、影、反射などの詳細を正確に捉えることで注目されています。 MAI-Image-1 に加えて、Microsoft は、自然な音声生成のための MAI-Voice-1 や、効率的な推論タスクのために設計された小さな言語モデルの Phi シリーズなど、他の内部モデルを開発しました。この内部開発は、OpenAI に対する同社の継続的な財務およびインフラストラクチャのサポートと並行して行われます。 AI画像生成の分野は現在、活発な時期を迎えています。 OpenAI のモデルは最近、スタジオ ジブリのアート スタイルを模倣する機能で急速に注目を集めましたが、Google の「Nano-Banana」は高度な編集機能が認められました。 AIM は、LMArena を使用して、Microsoft の MAI-Image-1、Google の Gemini-2.5-Flash、OpenAI の GPT-image-1 の比較を実施しました。モデルは、午後遅くにカフェの窓際にいる 2 人の人物を描いたプロンプトでテストされました。評価は、各モデルが混合照明、反射、影のリアリズムをどのように処理するかに焦点を当てました。ユーザーは LMArena にアクセスして、同様のプロンプトでこれらのモデルをテストできます。





