ミストラルは、イレブンラボとOpenAIに挑戦するためにVoxtral TTSを発表

ミストラルは、音声 AI アシスタントおよびエンタープライズアプリケーション向けに設計された Voxtral TTS と呼ばれるオープンソースのテキスト読み上げモデルをリリースし、顧客の機能を強化しました。

Aytun Çelebi · March 30, 2026, 15:03 ·1 min read

フランスの AI 企業 Mistral は、音声 AI アシスタントやカスタマーサポートなどのエンタープライズアプリケーション向けに設計された、Voxtral TTS というオープンソースのテキスト読み上げモデルを発表しました。この開発により、Mistral は Celebrities、Deepgram、OpenAI などの競合他社と直接対決することになります。

Voxtral TTS は、英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語の 9 つの言語をサポートしています。このモデルは、さまざまなエッジデバイスに適した柔軟な音声モデルに対する顧客の要求に応え、高いパフォーマンスを維持するコスト効率の高いソリューションを提供することを目的としています。

Mistral AI のサイエンスオペレーション担当副社長であるピエールストック氏は、「当社の顧客は音声モデルを求めてきました。そこで、スマートウォッチ、スマートフォン、ラップトップ、その他のエッジデバイスに適合する小型の音声モデルを構築しました。」と述べました。同氏は、このモデルは競争力のある価格でありながら、最先端のパフォーマンスを実現していると強調した。

このモデルでは、5 秒未満のサンプルでカスタム音声を適応させることができます。アクセントや音声の不規則性などの微妙な特徴を捉えます。さらに、Ministral 3B に基づく Voxtral TTS は、音声品質を損なうことなく言語を切り替えることができるため、リアルタイム翻訳や吹き替えに適しています。

このモデルのパフォーマンス指標は注目に値します。 500 文字の 10 秒サンプルの最初のオーディオまでの時間 (TTFA) が 90 ミリ秒、リアルタイム係数 (RTF) が 6 倍であるため、クリップを約 1.6 秒でレンダリングできます。

このリリースは、大規模なバッチ処理と低レイテンシーのリアルタイムのユースケースを目的とした、2023 年初めの Mistral の 2 つの転写モデルの導入に続くものです。 Voxtral TTS は、企業に音声製品の包括的なスイートを提供するという Mistral の戦略の一環です。

ストック氏は将来の計画について概説し、「音声、テキスト、画像などのマルチモーダルな入力ストリームを処理できるエンドツーエンドのプラットフォームを用意する予定だ」と述べた。このプラットフォームは、統合されるシステムによって処理される情報を強化することを目的としています。

注目の画像クレジット

Deezer は、新しいアップロードの 44% が AI によって生成された音楽であると報告しています