上に構築 ウィスパー、オックスフォードの研究者は、効果的な単語レベルのタイムスタンプのためにWhisperXを開発しています 長い形式の音声文字起こし.
大規模なオンライン データセットが利用できるため、教師ありおよび教師なしのトレーニング アプローチは、さまざまなオーディオ処理タスクで優れたパフォーマンスを示しています。 声認識、 スピーカー認識、 スピーチ分離、 と キーワードスポッティング.

Whisper と WhisperX はどのように機能しますか?
ウィスパー、によって作成された音声認識システム オックスフォードの研究者、この実質的な情報をより大きなスケールで利用します。 彼らは、基本的なエンコーダー デコーダー トランスフォーマーの教師ありの弱い事前トレーニングが、認識されているベンチマークでゼロ ショットの多言語音声の書き起こしをどのように達成できるかを示しています。 125,000時間分の英訳データ と 680,000 時間の雑音のある音声トレーニング データ 96 の追加言語で。
学術的なベンチマークの大部分は短いステートメントで構成されていますが、会議、ポッドキャスト、ビデオなどの現実世界のコンテキストでは、数時間または数分続く長い音声の書き起こしが頻繁に必要になります。
で採用されているトランス設計 自動音声認識 (ASR) モデルでは、メモリの制約により、任意の長さの入力オーディオ (ウィスパーの場合は最大 30 秒) の書き起こしは許可されません。

最近の研究ではヒューリスティックなスライディング ウィンドウ法が採用されていますが、これはエラーが発生しやすいためです。 不完全な音声、入力セグメントの最初または最後にある場合、一部の単語が欠落したり、誤って転記されたりする可能性があります。 と オーディオのオーバーラップ、モデルが同じ音声を 2 回処理すると、一貫性のない書き起こしが発生する可能性があります。
Whisper は、バッファリングされた転写技術を提供します。 入力ウィンドウをどれだけシフトするか に基づく 正確なタイムスタンプ予測. このような方法は、1 つのウィンドウでのタイムスタンプの不正確さが後続のウィンドウで問題に発展する可能性があるため、重大なドリフトの影響を受けやすくなります。
彼らは多くの自家製ヒューリスティックを使用して、これらのエラーを根絶しようとしますが、そうすることに失敗することがよくあります. 単一のエンコーダー/デコーダーを使用してタイムスタンプとトランスクリプションをデコードするウィスパーのリンクされたデコード 自動回帰言語生成に関する通常の問題が発生しやすい、特に幻覚と反復。

長い形式のアクティビティやその他のタイムスタンプに依存するアクティビティ 話者ダイアライゼーション、 読唇術、 と 視聴覚学習 これは、バッファリングされた転写と同様に悪影響を受けます。
Whisper の論文は、トレーニング コーパスのかなりの部分が次のもので構成されていると主張しています。 不完全なデータ (タイムスタンプ情報を欠く音声文字起こしのペアリング)、トークン |nottimestamps|> で示されます。 音声の書き起こしのパフォーマンスは意図せず犠牲になります。 タイムスタンプの精度が低い 不完全でノイズの多い転写素材をスケーリングするときの予測。
その結果、追加のモジュールを使用する場合、スピーチとトランスクリプトは適切に整列する必要があります。 の “強制整列「音声の書き起こしとオーディオ波形は、単語レベルまたは音素レベルで同期されます。 の 隠れマルコフ モデル (HMM) フレームワークと可能な状態アライメントの副産物は、音響電話モデルのトレーニングで頻繁に使用されます。
外部境界修正モデルは、これらの単語または電話番号のタイムスタンプを修正するために頻繁に使用されます。 急速な拡大により、 深層学習ベースの方法論、いくつかの最近の研究では、エンドツーエンドのトレーニング済みモデルを使用して双方向のアテンション マトリックスや CTC セグメンテーションを適用するなど、強制的なアライメントにディープ ラーニング技術を使用しています。

最先端の ASR モデルと単純な音素認識モデルを組み合わせることで、さらなる改善を達成できます。どちらも、大規模なデータセットを使用して構築されています。
WhisperX が登場するとき
彼らは提案します ささやきX、これらの問題の解決策として、正確な単語レベルのタイムスタンプを使用して、長い録音の正確な音声転写を行う技術。 に加えて ささやきの転写、次の 3 つの手順も含まれます。
- 外部音声アクティビティ検出 (VAD) モデルを使用して、着信オーディオを事前にセグメント化します。
- 結果として得られる VAD セグメントは分割され、アクティビティの量が最も少ない音声領域に制限された約 30 秒の入力チャンクにマージされます。
- 正確な単語レベルのタイムスタンプを提供するには、外部の音素モデルとの整合が必要です。
AI およびテキストベースの AI チャットボットの台頭により、テキスト読み上げおよび音声認識プログラムの需要が高まっています。 ちょうど今週、この需要の高まりを利用する試みとして、ChatGPT ビデオ チャット アプリ Call Annie AI がリリースされました。 WhisperX の将来は、その可能性に関してまだ完全には明らかではありませんが、その進歩を追跡することは間違いなく価値があると言えます.








