Microsoft のテキスト読み上げ合成である Microsoft VALL-E は、同社が発行した論文で発表されました。 オーディオ モデルは、指定された入力を処理するために 3 秒のオーディオ ファイルのみを必要とします。
Microsoft VALL-E は、オーディオ コーデック コードを中間表現として利用するテキスト読み上げ合成 (TTS) の新しい言語モデル アプローチであり、Microsoft によって発表されたばかりです。 60,000 時間の英語の音声データで事前トレーニングされた後、ゼロショット環境でコンテキスト内学習能力が表示されました。
Microsoft VALL-E は、音響刺激として機能する斜めの話者のわずか 3 秒間の登録録音で、高品質のパーソナライズされた音声を生成できます。 これは、追加の構造エンジニアリング、事前に設計された音響機能、または微調整を必要とせずに実現します。 コンテキスト学習とプロンプトベースのゼロショット TTS アプローチをサポートしています。 TTS の半教師ありデータのスケールアップは十分に活用されていないようです。これは、Microsoft がかなりの量の半教師ありデータを使用して、スピーカーの次元で一般化された TTS システムを構築したためです。
Microsoft VALL-E でできること
研究者によると、Microsoft VALL-E は「既存のニューラル オーディオ コーデック モデルから派生した」離散コードを使用してトレーニングされた「ニューラル コーデック言語モデル」です。 声明によると、それは「既存のシステムの数百倍」である60,000時間の発話で訓練されました。 これらの例は、人間の会話を現実的に模倣できる AI がしばらく前から存在していたにもかかわらず、非常に明らかにロボットである以前の試みとは対照的に説得力があります。
Microsoft VALL-E は、研究者によると、プロンプトの「話者の感情と聴覚環境を維持する」ことができます。 印象的ではありますが、パフォーマンス中に適切なトーンと感情を見つけることは異なるため、テクノロジーが声優に取って代わるにはまだ長い道のりです. Microsoft VALL-E の高度なバージョンでさえ、熟練した専門家ほどのパフォーマンスを発揮することはできませんが、企業はしばしば品質よりも費用対効果を優先します。
Microsoft の GitHub デモでは、いくつかのサンプルを聞くことができます。
Microsoft VALL-E の機能
Microsoft VALL-E は非常に新しいものですが、すでに多くの機能を備えています。
多様性の総合: Microsoft VALL-E は、サンプリング ベースの手法を使用して個別のトークンを生成するため、同じ入力テキストに対して出力が異なります。 したがって、さまざまなランダムシードを使用して、さまざまなパーソナライズされた音声サンプルを合成できます。
音響環境整備: Microsoft VALL-E は、スピーカー プロンプトの音響環境を維持しながら、カスタマイズされた音声を提供できます。 ベースラインと比較して、VALL-E はより多くの音響変数を含む大きなデータセットでトレーニングされています。 オーディオと書き起こしは、Fisher データセットのサンプルを使用して作成されました。
話者の感情維持: Emotional Voices Database をオーディオ プロンプトなどのリソースとして使用すると、Microsoft VALL-E は、スピーカー プロンプトの感情的な趣旨を維持しながら、カスタマイズされたスピーチを作成できます。 従来のアプローチでは、教師付きの感情 TTS データセットで音声を文字起こしと感情ラベルに関連付けることでモデルをトレーニングします。 VALL-Eは、ゼロショットの状況でもプロンプトで感情を維持できます。
Microsoft VALL-E には、モデル構造、データ カバレッジ、および合成の堅牢性に関する問題がまだ残っています。
Microsoft WALL-E はどのように機能しますか?
Microsoft は、Meta によってまとめられたオーディオ ライブラリである LibriLight を使用して、VALL-voice E の合成スキルをトレーニングしました。 60,000 時間に及ぶ英語のスピーチの大部分は、LibriVox のパブリック ドメインのオーディオブックから取得され、7,000 人以上の異なる人々によって話されています。 VALL-E が満足のいく結果を得るには、3 秒間のサンプルの声がトレーニング データの声によく似ている必要があります。
Microsoft は、VALL-E のサンプル ページで、動作中の AI モデルの音声サンプルを多数提供しています。 サンプルの 1 つである「スピーカー プロンプト」は、VALL-E が模倣するように指示された 3 秒間の音声です。 「Ground Truth」は、ベンチマークとして使用されるそのスピーカーからの以前に録音された抜粋です (実験の「コントロール」のようなものです)。 「VALL-E」サンプルは VALL-E モデルからの出力であり、「ベースライン」サンプルは従来のテキスト読み上げ合成アプローチによって生成された合成の例です。
Microsoft VALL-E は 2023 年の最初の主要な AI プロジェクトとして歴史を作りましたが、確かに最後ではありませんでしたが、テクノロジの巨人は、2022 年の最後の数週間に公開された OpenAI Point-E を財政的に支援しました。
Source: Microsoft VALL-E の説明: A Voice DALL-E