AIは人間よりも会話をよく認識します

人工知能（AI）は初めて、日常会話の認識において人間よりも高い精度を達成することができました。将来的には、このテクノロジーは自動翻訳の基盤として機能する可能性があります。

Alexa、Cortana、Siriなどのデジタルアシスタントを使用すると、音声テキストと翻訳の自動文字起こしが可能になります。この目的のために、音声認識システムは、ライブラリを使用して個々の音節と単語に音響信号を割り当てる人工ニューラルネットワークを使用します。アシスタントに直接話しかけたり、テキストを読み上げたりすると、結果は非常に良好になります。しかし、日常生活では、ルール大学ボーフム（RUB）が最近実施した調査が示しているように、誤解された合図の言葉によって意図せずに音声アシスタントがアクティブになる可能性がある問題が依然として頻繁に発生します。

何人かの人々の間の会話もまた、現在でも頻繁に問題を引き起こしています。カールスルーエ工科大学（KIT）のAlex Waibel氏によると、「中断、スタッター、「ああ」や「うーん」のような音の充満、そして人々が互いに話すときの笑い声や咳もあります。さらに、ワイベルが説明するように、「言葉はしばしば不明瞭な方法で発音されます。その結果、人間でさえ、そのような非公式の対話の正確な転写を作成するのに問題があります。ただし、人工知能（AI）によってさらに大きな問題が発生します。

AIにとって問題となる日常会話

arXivが発行したプレプリントによると、ワイベル周辺の科学者は、日常会話を人間よりも速く、より良く転写するAIの開発に成功しました。新しいシステムは、ドイツ語と英語からの大学の講義をリアルタイムで翻訳する技術に基づいています。いわゆるエンコーダ-デコーダネットワークは、音響信号を分析し、それらに単語を割り当てるために使用されます。ワイベル氏によると、「エラーや遅延により翻訳がすぐに理解できなくなるため、自発的な音声の認識はこのシステムで最も重要なコンポーネントです。

精度の向上と遅延の削減

現在、KITの科学者はシステムを大幅に強化し、特にレイテンシーを大幅に削減しました。ワイベルと彼のチームは、特定の単語の組み合わせの確率に基づくアプローチを使用し、それを他の2つの認識モジュールとリンクさせました。

標準化されたテストでは、新しい音声認識システムは、システムが自動的に転記することになっていた約2,000時間の電話での会話のコレクションからの抜粋を聞きました。ワイベルによれば、「ここでの人的エラー率は約5.5パーセントです。一方、AIは5.0％のエラー率しか達成せず、日常会話の認識において初めて人間を上回りました。待ち時間、つまり信号の到着から結果までの遅延も平均1.63秒と非常に高速ですが、人間の平均待ち時間1秒にはまだ完全には近づいていません。

将来的には、新しいシステムは、たとえば、自動翻訳の基礎として、またはコンピューターが自然言語を処理する他のシナリオの基礎として使用される可能性があります。

Strayで帽子を手に入れる方法の説明