言語モデルには、 革命を起こした さまざまな分野で高度な機能を備えているため、多くの人が Google MusicLM や OpenAI の GPT モデルの使用方法などの疑問を抱えています。 チャットGPT と コーデックス、 この混乱において重要な役割を果たしました。 これらのモデルには、指定されたプロンプトに基づいてテキストとコードを効率的に生成する機能があります。 トレーニングを受けた 膨大なデータセットなど、数多くの自然言語処理 (NLP) タスクに適用できます。 感情分析、チャットボット システム、要約、機械翻訳、 と 文書の分類。
これらのモデルには制限がありますが、 言語モデルの可能性を垣間見る 言語を理解し、人間の生活を向上させるアプリケーションを開発すること。 懸念が存在する一方で、 人間に取って代わる可能性 さまざまな分野において、基本的な考え方は、生産性を向上させ、言語全体を探索し理解するための新しい方法を提供することです。

与えられた 言語が人類文明において果たす基本的な役割、テキストの説明をデコードし、テキスト、画像、オーディオ、さらには音楽の生成などのタスクを実行できる言語モデルを構築することが不可欠になります。 この記事では主に次の点に焦点を当てます。 音楽言語モデルのようなモデルに似ています。 チャットGPT と ダルイー、 ただし、テキストや画像を生成する代わりに、 彼らは音楽を作成するように設計されています。
音楽は複雑かつダイナミックな芸術形式です。 複数の楽器をオーケストレーションしてハーモニーを作り、 状況に応じたエクスペリエンス。 個々の音や和音から、音素や音節などの音声要素に至るまで、音楽には幅広い構成要素が含まれています。 現像 数学的モデル ~から情報を抽出できる このような多様なデータセット 大変な仕事です。 ただし、そのようなモデルが確立されると、人間が生成できるものと同様のリアルなオーディオを生成できます。

これらすべてを念頭に置いて、音楽言語モデルの中核概念を掘り下げ、それがどのようにして音楽の生成を可能にするのかを探ってみましょう。 一方、音楽ゲームのレベルアップに興味がある場合は、Discord サウンドボードを使用してそこに新しいサウンドを追加する方法を確認することもできます。
音楽言語モデルと Google MusicLM の使用方法を理解する
MusicLM は、ディープラーニングや自然言語処理などのさまざまな機械学習技術を利用して、データを分析し、音楽の生成を容易にする隠れた表現を明らかにします。 これらのモデルは、音楽固有のデータセットを活用して情報を抽出し、パターンを識別し、幅広い音楽スタイルとジャンルを学習します。
MusicLM には、次のようなさまざまなタスクを自動化できる可能性があります。 楽譜を書くこと 既存の音楽を分析することで、 新しいコード進行を勧める、 また 斬新な音も生み出す。 最終的には、新しい形式のミュージカルを導入することができます。 表現 と 創造性、 音楽家のスキルを向上させ、音楽教育を促進するための貴重なツールとして機能します。
Google MusicLM の紹介
Google MusicLM は、テキストの説明に基づいて音楽を生成するために特別に設計された専用の言語モデルです。 たとえば、「6/8 拍子リフの穏やかなギターのメロディー」のようなプロンプトを提供すると、モデルは対応する音楽を生成できます。

MusicLM は以下に基づいて構築されています オーディオLM、 別の言語モデル Googleによって開発された。 AudioLM は生成に重点を置いています 高品質 と わかりやすい スピーチとピアノ音楽の続き。 これを実現します 入力音声を一連の離散トークンに変換することによって 長期的な一貫性を備えたオーディオ シーケンスを生成します。 AudioLM は 2 つのトークナイザーを使用します。 SoundStreamトークナイザー、 音響トークンを生成し、 w2v-BERT トークナイザー、セマンティック トークンを生成します。 これらのトークナイザーは、情報抽出において重要な役割を果たします。

AudioLM は 3 つの階層ステージで構成されます。
- セマンティックモデリング: この段階では、長期的な構造的一貫性を確保することに焦点を当てます。 入力信号の高レベル構造を抽出します。
- 大まかな音響モデリング: ここで、モデルは音響トークンを生成し、その後、セマンティック トークンに基づいて連結または条件付けされます。
- 緻密な音響モデリング: この段階では、粗い音響トークンを細かい音響トークンで処理することにより、最終的なオーディオにさらに深みが与えられます。 SoundStream デコーダは、これらの音響トークンを利用して波形を再作成します。

MusicLM は AudioLM を活用します 多段階自己回帰モデリング を生成コンポーネントとして組み込みながら、 テキストコンディショニング。 オーディオ ファイルは 3 つのコンポーネントを介して渡されます。 サウンドストリーム、w2v-BERT、 と ムーラン。 SoundStream と w2v-BERT は入力オーディオ信号を処理してトークン化するのに対し、MuLan は音楽とテキストの共同埋め込みモデルを表します。 ムーランの構成 2つの埋め込みタワー、モダリティごとに 1 つ (テキストと音声)。

オーディオが 3 つのコンポーネントすべてに供給される間、 テキストの説明は MuLan にのみ入力されます。 MuLan 埋め込みは量子化されて、 標準化された表現 調整信号とオーディオの両方の個別のトークンに基づいています。 MuLan からの出力は次に、 セマンティックモデリング段階ここで、モデルはオーディオ トークンからセマンティック トークンへのマッピングを学習します。 その後のプロセスは AudioLM のプロセスと似ています。
MusicLM は、AudioLM と MuLan に基づいて構築されており、次の 3 つの重要な利点を提供します。
- に基づく音楽生成 テキストの説明。
- 入力メロディーの組み込み 機能を拡張するため。 たとえば、鼻歌のようなメロディーを提供し、それをギター リフに変換するように MusicLM に指示することで、モデルは目的の出力を生成できます。
- 長いシーケンスの生成 あらゆる楽器に。
データセット
MusicLM のトレーニングに使用されるデータセットは次のとおりです。 5.5kの音楽とテキストのペア。 このデータセットには以上が含まれます 200,000 時間の音楽、 を伴う リッチテキストの説明 人間の専門家によって提供されます。 Google は、MusicCaps という名前のこのデータセットを Kaggle でリリースしており、現在一般の人がアクセスできます。

MusicLM で音楽を生成する
不幸にも、 Google は現在、MusicLM に関連するモデルを配布する予定はありません。追加作業の必要性を挙げた。 ただし、Google がリリースしたホワイトペーパーには、テキストの説明を使用して音楽を生成する方法を示す多数の例が記載されています。
MusicLM を使用して音楽を生成するためのいくつかのアプローチを次に示します。
- 豊富なキャプション: 提供することで 詳細な説明 「アーケードゲームのメインサウンドトラック。 キャッチーなエレキギターのリフがあり、ペースが速くて明るい曲です。 音楽は繰り返しが多く覚えやすいですが、シンバルのクラッシュやドラムロールなどの予期しないサウンドが含まれており、MusicLM は特定のコンテキストや要件に合わせた音楽を作成できます。
- 長い世代: このアプローチには、5 分間などの長時間にわたって継続的に高忠実度のオーディオを生成することが含まれます。 「ヘヴィメタル」や「心地よいレゲエ」などのプロンプトを使用することで、ユーザーは希望のジャンルやスタイルの音楽を入手できます。
- ストーリーモード: MusicLM の注目すべき機能は、一連のテキスト プロンプトに基づいて音楽シーケンスを生成する機能です。 たとえば、次のように指定すると、 異なる時間間隔 「」のような対応する活動瞑想の時間 (0:00-0:15)「、」起床時間 (0:15-0:30)」など、ユーザーは音楽の旅をオーケストレーションできます。
- テキストとメロディーの調整: このアプローチにより、ユーザーは提供されたメロディーに準拠した音楽を作成できます。 ハミングまたは口笛のシーケンス 指定されたテキスト プロンプトを尊重しながら。 基本的に、1 つのオーディオ シーケンスを目的の出力に変換します。
- 絵画キャプションのコンディショニング: MusicLM は絵画の説明に基づいて音楽を生成できます。 たとえば、サルバドール ダリの有名な芸術作品の説明を提供することで、「記憶の持続」では、モデルは絵画のコンセプトやイメージからインスピレーションを得た音楽を作成できます。
- 場所: 特定の場所や環境の説明は、音楽を生成するためのプロンプトとして機能します。 たとえば、「」のような説明を使用します。ビーチでの晴れた穏やかな時間MusicLM は、その設定のエッセンスを凝縮した音楽を生成できます。
追加の例には、ミュージシャンの経験レベル、時代、さらにはアコーディオンのソロを考慮した、テキストからの 10 秒のオーディオ生成が含まれます。 MusicLM は、さまざまなドメインやシナリオにわたって音楽を生成するための多彩な機能セットを提供します。
MusicLM の優れた生成機能 ハイファイ音楽 AI アルゴリズムのみに依存するのではなく、人間の創造性の驚くべき可能性を示します。 ただし、この進歩により、 倫理的懸念 と 音楽コミュニティからの抵抗に直面するかもしれない、Dalle や ChatGPT などの画像生成モデルに似ています。

Googleの研究者も認めている 倫理的な問題 MusicLM のようなシステムに関連しており、 著作権で保護されたコンテンツをトレーニング データから組み込む 生成された曲に組み込まれます。 実験中に彼らは次のことを発見しました 1% システムによって生成された音楽のうち、トレーニング データから曲を直接複製したものです。 このパーセンテージは 高すぎる MusicLM を現在の形式でリリースします。
MusicLM が近い将来に一般公開されるアプリケーションになる可能性は低いですが、独立した開発者によってリバース エンジニアリングされる可能性のあるオープンソースの音楽モデルの出現が予想されます。 未来は続く 刺激的な可能性 言語モデルを活用して音楽の創造性と表現を強化しながら、これらのテクノロジーの責任ある倫理的な使用を保証します。
Source: Google MusicLM の使用方法: 包括的なガイド








