Microsoft は、広く話されている 25 の言語にわたって音声からテキストへの正確さを実現する AI 文字起こしモデル「MAI-Transcribe-1」を発表しました。このモデルは、会議、クローズドキャプション、ディクテーションなどのアプリケーションに対応することを目的としています。
MAI-Transcribe-1 は、他のモデル MAI-Voice-1 および MAI-Image-2 とともに Microsoft Foundry で利用可能になります。 Microsoft は、今回の発表により「MAI モデルが初めて商用目的で広く利用可能になり」、顧客は文字起こし、音声、画像の生成において AI を活用したアプリケーションを評価および構築できるようになると述べています。
MAI-Voice-1 は、拡張コンテンツ全体にわたって話者のアイデンティティと感情的なニュアンスを維持する非常にリアルな音声生成を特徴としています。わずか 1 分の録音音声からカスタム ブランドの音声を開発できる音声プロンプト機能が含まれています。
一方、MAI-Image-2 は、自然光、正確な肌の色合い、画像内の明確なテキストのレンダリングに優れた新しいテキストから画像への生成モデルです。このモデルは、Arena.ai のテキストから画像へのリーダーボードでトップ 3 にランクされています。
Microsoft は、OpenAI テクノロジーへの依存を減らし続けています。同社はGPT-4のコストが高く、応答時間が遅いと批判してきた。そのため、Microsoft は独自の社内 AI モデルの開発を開始し、Copilot 機能用のサードパーティ モデルを評価しています。
MicrosoftのAI CEOであるムスタファ・スレイマン氏は、「オフフロンティア」AIモデルの開発に焦点を当てていることを確認し、それらのモデルはOpenAIの提供する洗練されたものには達しないと指摘した。 Microsoft の Copilot リーダーシップの最近の再編により、Copilot エクスペリエンス、Copilot プラットフォーム、Microsoft 365 アプリ、AI モデルの 4 つの部門が形成されました。元Snap幹部のJacob Andreou氏はCopilotエクスペリエンス部門を率い、Microsoft CEOのSatya Nadella氏の直属となる。
Salesforceの最高経営責任者(CEO)マーク・ベニオフ氏は以前、MicrosoftがOpenAIテクノロジーの使用を中止する可能性が高いと述べ、全米にデータセンターを構築することを目的とした5000億ドルのStargateプロジェクトの中止など、OpenAIが直面する課題を指摘した。








