Voxtralは、音声インターフェイスをより信頼性とアクセスしやすくすることにより、人間のコンピューターの相互作用に革命をもたらすことを目的とした、新しいオープンソースの音声理解モデルを開始しました。これらの最先端のモデルは、Apache 2.0ライセンスの下で24Bおよび3Bのバリエーションで利用可能であり、現在の独自およびオープンソースシステムの制限に対処するための優れた転写と深い理解機能を提供します。

Voxtralは、高コストの閉じたAPIとより正確ではないオープンソースの代替品との間のギャップを橋渡しします。同等のAPIの半分以下の価格で、最先端の精度とネイティブのセマンティック理解を提供します。このモデルは、32Kトークンのコンテキストの長さを特徴とする、転写のために最大30分、理解のために40分間の長型オーディオをサポートしています。また、組み込みのQ&Aと、広く使用されている言語(英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語)の要約、音声コマンドからの直接的な機能を含む。

Mistral-Launches-Voxtral-Open-Source-Speech-Understanding-Models
画像:ミストラル

ベンチマークでは、Voxtralは、Whisper Large-V3などの主要なオープンソースモデルを大幅に上回り、GPT-4O Mini TranscribeとGemini 2.5 Flash flash flash flashと強く競合します。たとえば、Voxtral Mini転写はOpenai Whisperよりも費用対効果が高いですが、Voxtral SmallはElevenLabs Scribeの低価格でのパフォーマンスを試します。モデルはまた、ミストラルスモール3.1バックボーンから強力なテキスト理解機能を保持しています。

Voxtralモデルは、ハグの顔やAPI経由でローカルダウンロードに利用でき、価格は毎分0.001ドルからです。エンタープライズ機能には、プライベート展開、ドメイン固有の微調整、スピーカーの識別や感情検出などの高度なコンテキスト機能が含まれます。将来の更新には、スピーカーのセグメンテーション、オーディオマークアップ、単語レベルのタイムスタンプが含まれ、ユーティリティをさらに強化します。

Source: MistralはVoxtral:オープンソースの音声理解モデルを起動します

  AppleTV用のAppleの新しいリモコンはサードパーティのデバイスであることが判明