ElevenLabsは、AI Text-topeech(TTS)モデルの言語機能を大幅に拡大し、現在70の言語をサポートしています。ニューヨーク市に拠点を置くAIスタートアップは先週、41の新しい言語を追加すると、世界人口の約90%がモデルにアクセスできるようになると発表しました。
拡張は、11月8日に11のV3(Alpha)モデルに実装され、6月8日に開始され、「最も表現力豊かなTTSモデル」と宣伝されています。同社は、以前はTwitterとして知られていた公式Xアカウントを介して発表を行いました。
新たにサポートされている言語には、アラビア語、アッサム語、ベンガル語、ブルガリア語、カタロニア語、グジャラート語、ラトビア語、マレー、マラヤーラム語、マラティ、ネパール語、スワヒリ語、タミル語、テルグ語など、多様な範囲が含まれます。これにより、より多くの視聴者にリーチすることを目的としたコンテンツクリエイターと企業のモデルのユーティリティが広がります。
ElevenLabsは、新しい言語のいずれかでテキストを生成したいユーザーに、目的の言語を選択しながらインスタントボイスクローン(IVC)を記録するようアドバイスします。さらに、同社は今後数週間で新たにサポートされている言語の音声ライブラリボイスを追加する予定です。
Eleven V3は、多言語V2およびV2.5 TTSモデルの基礎の上に構築されています。 11 V3の重要な機能は、「ささやき」、「興奮」、「ため息」などのインラインオーディオタグのサポートです。これらのタグにより、ユーザーは感情的なニュアンスと非言語的手がかりを生成されたオーディオに注入することで、より劇的で魅力的な配信が得られます。
さらに、このモデルは、中断、自然なペーシング、重複する対話を備えたマルチスピーカーの相互作用をサポートし、より現実的な会話エクスペリエンスを作成します。 ElevenLabsは、Eleven V3がストレス、ケイデンス、文脈的認識などの要素の取り扱いの改善を実証することを強調しています。
現在、Eleven V3モデルには、会社のWebサイトおよびモバイルアプリからアクセスできます。ただし、アプリケーションプログラミングインターフェイス(API)としてまだ利用できません。
この言語拡張の前に、4月に、ElevenLabsは、会話型AI向けに設計された新しいエンタープライズ中心のエージェント機能であるエージェント転送を導入しました。この機能により、2つのAIエージェントが互いに通信し、関連する会話データとともに会話をより専門的なエージェントにシームレスに配置できます。








