高度な言語モデルである GPT-4 を開発するために、OpenAI は大量の YouTube ビデオ データを利用したと報告されています。
同社は100万時間以上のビデオコンテンツを書き起こしたと言われている。
このニュースは、人工知能 (AI) 業界の広範なトレンドとともに伝えられました。この業界では、ハイテク大手が、AI モデルが求める燃料であるデータを収集するための、ますます創造的な (そして時には物議を醸す) 方法を見つけています。
YouTube のささやきが AI にとって重要な理由
の ニューヨーク・タイムズ 数日前に YouTube が自社のプラットフォーム上の動画を SORA のトレーニング データ ソースとして使用するかどうか尋ねたため、この開発に関するこの点が最近明らかになりました。
では、なぜトレーニング データを YouTube に頼るのでしょうか? 実にシンプルです。 YouTube には、事実上無限の話し言葉の宝庫があります。 すべての vlog、開封ビデオ、とりとめのないチュートリアルには、多様で乱雑な栄光のすべての人間の音声が含まれています。 GPT-4 のような大規模な言語モデルは、膨大な量のテキストを「取り込んで」分析することで学習するため、ビデオから書き起こされた音声は貴重な素材になります。
ただし、YouTube の音声を使用可能なトレーニング データに変換するには、複雑な問題が生じます。 OpenAIの音声認識ツール「Whisper」は、膨大なビデオ素材の文字起こしに重要な役割を果たした。 この転写プロセスは必要ではありますが、著作権とフェアユースの考慮事項に焦点を当てます。
データ、どこにでもデータ…しかし、OpenAI が罠にかかっても大丈夫でしょうか?
AI を強化するための堅牢なデータセットの探求は、決して OpenAI に限ったことではありません。 ハイテク大手は軒並み同じ課題に取り組んでいます。 結局のところ、AI モデルはデータを大量に消費することで有名です。 入力データが多様で高品質であればあるほど、現実世界の複雑さを処理するためのモデルがより適切に装備されます。
創造的なデータソースを見つけなければならないというプレッシャーは当然です。 OpenAIの場合、同社は2021年に従来型のトレーニング教材の不足に直面したため、ポッドキャストやオーディオブックなどの選択肢を検討したと伝えられている。しかし、このデータ探索には潜在的なマイナス面があり、法的および倫理的に許容されると考えられるものの境界を押し広げることになる。

AIデータと著作権が衝突するグレーゾーン
YouTube には独自の明確な利用規約があり、通常、コンテンツの使用方法が制限されています。 著作権法の「フェアユース」規定は存在しますが(解釈は国によって異なります)、大規模なデータスクレイピングの正当化としてこれに依存することは、法的な賭けとなる可能性があります。
この問題は単純ではありません。 テクノロジー企業が既存のコンテンツを使用して AI システムをトレーニングする場合、次のような疑問が生じます。
- これにより、オリジナルのコンテンツ作成者がその作品から利益を得る能力が制限される可能性がありますか?
- クリエイターの素材が商用 AI ツールの開発を促進する場合、クリエイターには十分な報酬が支払われますか?
- 大規模なトレーニング データの収集については、より明確なガイドラインや規制が必要でしょうか?
AI の旺盛な食欲はさらに大きな疑問を引き起こす
OpenAI の事例は、現代の AI 業界におけるデータに対する飽くなきニーズという、より広範な傾向を浮き彫りにしています。 AI テクノロジーがより洗練されるにつれて、トレーニング データの調達方法に関する倫理的および法的懸念が注目を集めるようになります。
YouTube ビデオ、コード リポジトリ、その他の種類のユーザー生成コンテンツのいずれであっても、データの公正かつ責任ある使用を保証することは、この急速に進化するテクノロジーに対する社会の信頼を維持するために重要になります。
注目の画像クレジット:ザック・ウルフ/アンスプラッシュ








