Meta の MusicGen は、テキスト プロンプトに基づいて、オプションで既存の曲に合わせた短い新しい音楽作品を作成できます。
MusicGen は、現在使用されている言語モデルの大部分と同様に、Transformer モデルに基づいて構築されています。 MusicGen は、言語モデルがフレーズ内の後続の文字を予測する方法と同様の方法で、音楽の次のセグメントを予測します。 研究者が使用しているのは、 メタのエンコーデック オーディオ トークナイザーを使用して、オーディオ データをより小さな部分に分割します。 MusicGen は、トークン処理を並行して実行する、迅速かつ効果的な 1 段階のアプローチです。
乗組員が訓練に使用したのは、 20,000時間 許可された音楽の。 彼らは使った 10,000高音質 特に、内部データセット、Shutterstock および Pond5 の音楽データからの録音。

ミュージックジェン:それは何ですか?
現在使用されている大部分の言語モデルと同様に、MusicGen は Transformer モデルを使用して構築されています。 言語モデルが文内の後続の文字を予測する方法と同様に、MusicGen は音楽の次のセクションを予測します。
研究者らは、Meta の EnCodec オーディオ トークナイザーを使用して、オーディオ データをより小さなビットに分割します。 MusicGen は、トークンを迅速かつ効果的に並行して処理する単一ステージのメソッドです。
MusicGen は、デザインの有効性と制作速度に加えて、テキストと音楽キューの両方を管理する能力でも優れています。 オーディオ ファイル内の音楽は、テキストで確立された基本スタイルに従っています。
たとえば他の音楽ジャンルでは、メロディーの方向を正確に変えて聞くことはできません。 これは生成の大まかなガイドとしてのみ機能し、出力では正確に複製されません。
他の多くのモデルがテキスト生成、音声合成、生成されたビジュアル、さらには小さなフィルムを実行しているという事実にもかかわらず、一般に公開されている高品質の音楽制作の例はあまりありません。

MusicGen: 使い方は?
ユーザーは、以下を使用して MusicGen をテストできます。 ハグフェイスAPI、 ただし、同時に使用するユーザーの数によっては、音楽を作成するのに時間がかかる場合があります。 Hugging Face Web サイトを使用してモデルの独自のインスタンスを作成すると、より迅速な結果が得られます。 必要な知識とツールがある場合は、コードをダウンロードして自分で実行できます。
大多数の人と同じように、次のことを希望する場合は、オンライン バージョンを試す方法を次に示します。
- 発売 ウェブブラウザ。
- ハグフェイスのウェブページにアクセスしてください。
- 右上で、を選択します スペース。
- 検索する 「ミュージックジェン」 箱の中。
- 該当するものを見つけます フェイスブック 出版されました。
- 左側のボックスにプロンプトを入力します。
- 選ぶ “生成”。
知っておくべきことはこれだけです!
MusicGen が MusicLM を僅差で破る
3 つの異なるサイズ モデル – 3 億 (300M)、15 億 (1.5B)、 と 33億 (3.3B) パラメータ – 研究著者によってテストされました。 の 15億 パラメータモデルは人間によって最高であると判断されましたが、より大きなモデルの方がより高品質なサウンドを生成することがわかりました。 一方、 33億 パラメータ モデルは、テキスト入力とオーディオ出力を一致させるときに、より正確に実行されます。

MusicGen は、Riffusion、Mousai、MusicLM、Noise2Music などの他の音楽モデルと比較して、音楽が歌詞とどの程度一致しているか、また構成がどれほど信頼できるかを測定する客観的および主観的な尺度の両方で優れたスコアを獲得しています。 一般に、モデルは Google の MusicLM よりわずかに優れています。
コードとモデルは Meta によって Github 上でオープンソースとして公開されており、商用利用が許可されています。 Huggingface にデモがあります。
ChatGPT 共有リンクとは何かご存知ですか?








