フランスの AI 企業 Mistral は、音声 AI アシスタントやカスタマー サポートなどのエンタープライズ アプリケーション向けに設計された、Voxtral TTS というオープンソースのテキスト読み上げモデルを発表しました。この開発により、Mistral は Celebrities、Deepgram、OpenAI などの競合他社と直接対決することになります。

Voxtral TTS は、英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語の 9 つの言語をサポートしています。このモデルは、さまざまなエッジ デバイスに適した柔軟な音声モデルに対する顧客の要求に応え、高いパフォーマンスを維持するコスト効率の高いソリューションを提供することを目的としています。

Mistral AI のサイエンス オペレーション担当副社長であるピエール ストック氏は、「当社の顧客は音声モデルを求めてきました。そこで、スマートウォッチ、スマートフォン、ラップトップ、その他のエッジ デバイスに適合する小型の音声モデルを構築しました。」と述べました。同氏は、このモデルは競争力のある価格でありながら、最先端のパフォーマンスを実現していると強調した。

このモデルでは、5 秒未満のサンプルでカスタム音声を適応させることができます。アクセントや音声の不規則性などの微妙な特徴を捉えます。さらに、Ministral 3B に基づく Voxtral TTS は、音声品質を損なうことなく言語を切り替えることができるため、リアルタイム翻訳や吹き替えに適しています。

このモデルのパフォーマンス指標は注目に値します。 500 文字の 10 秒サンプルの最初のオーディオまでの時間 (TTFA) が 90 ミリ秒、リアルタイム係数 (RTF) が 6 倍であるため、クリップを約 1.6 秒でレンダリングできます。

このリリースは、大規模なバッチ処理と低レイテンシーのリアルタイムのユースケースを目的とした、2023 年初めの Mistral の 2 つの転写モデルの導入に続くものです。 Voxtral TTS は、企業に音声製品の包括的なスイートを提供するという Mistral の戦略の一環です。

ストック氏は将来の計画について概説し、「音声、テキスト、画像などのマルチモーダルな入力ストリームを処理できるエンドツーエンドのプラットフォームを用意する予定だ」と述べた。このプラットフォームは、統合されるシステムによって処理される情報を強化することを目的としています。


注目の画像クレジット

  Anthropic の Project Glasswing が 10,000 件の重大なソフトウェア欠陥を報告