AIは音声サンプルから歌うことができるようになりました

科学者たちは、AIを使用して音声サンプルから歌うことができる新しいニューラルネットワークを作成しました。中国の開発者のアルゴリズムは、人の通常のスピーチの録音に基づいて人の歌の録音を合成するか、またはその逆を実行して、歌に基づいてスピーチを合成することができます。アルゴリズムの開発、トレーニング、テストについて説明している記事は公開 arXiv.orgで。

近年、音声合成のためのニューラルネットワークアルゴリズムの開発、 WaveNet 、実在の人物と区別するのが難しいシステムの作成を可能にしました。たとえば、2018年にはGoogle を示したリアルに話すだけでなく、「ええと」など、音声を検証できる人間の音を挿入できる座席を予約するための音声アシスタント。その結果、会社は会話の始めにそれが人ではないことを警告するアルゴリズムも教えなければなりませんでした。

他のニューラルネットワークアルゴリズムの場合と同様に、音声合成システムの成功は、主にそれらのアーキテクチャに関係していませんが、主にトレーニングに利用できる大量のデータに関係しています。歌を合成するためのシステムを作成することは、一見似たような作業ですが、実際には、利用可能なデータの量が大幅に少ないため、はるかに複雑です。

歌唱生成システムに取り組んでいる多くの開発者は、最近、アルゴリズムを教えるために歌唱サンプルの量を減らす道を歩みました。現在、TencentのDong Yuが率いる中国の研究者グループは、音声からリアルな歌唱オーディオ録音を作成できるシステムを作成しました。サンプル。

https://www.youtube.com/watch?v=AnazWGADtnk

このアルゴリズムは、Tencentの以前の開発であるDurIANニューラルネットワークに基づいており、現実的な合成を行うように設計されています。ビデオテキストに基づいて話すプレゼンターと。現在、彼らはDuarIANの前に新しい音声認識ユニットを配置しました。これは、音声サンプルに基づいて音素を作成します。

著者は、1時間半の歌と28時間のスピーチからなる2つの独自のデータセットでアルゴリズムをトレーニングしました。トレーニング後、彼らは合成された歌のリアリズムと類似性を評価した14人のボランティアでアルゴリズムをテストしました。その結果、テストの1つは、リアリズムで3.8ポイント、類似性で3.65ポイントを獲得しました。作家たち公開ニューラルネットワークの作業のサンプル。

Razer Hammerhead True Wireless Pro：仕様、価格、リリース日

AIは音声サンプルから歌うことができるようになりました

© 2021 TechBriefly is a Linkmedya brand.

Follow Us