OpenAIはGPT-4の開発にYouTubeデータを使用したと伝えられている

高度な言語モデルである GPT-4 を開発するために、OpenAI は大量の YouTube ビデオデータを利用したと報告されています。

同社は100万時間以上のビデオコンテンツを書き起こしたと言われている。

このニュースは、人工知能 (AI) 業界の広範なトレンドとともに伝えられました。この業界では、ハイテク大手が、AI モデルが求める燃料であるデータを収集するための、ますます創造的な (そして時には物議を醸す) 方法を見つけています。

YouTube のささやきが AI にとって重要な理由

の ニューヨーク・タイムズ 数日前に YouTube が自社のプラットフォーム上の動画を SORA のトレーニングデータソースとして使用するかどうか尋ねたため、この開発に関するこの点が最近明らかになりました。

では、なぜトレーニングデータを YouTube に頼るのでしょうか? 実にシンプルです。 YouTube には、事実上無限の話し言葉の宝庫があります。すべての vlog、開封ビデオ、とりとめのないチュートリアルには、多様で乱雑な栄光のすべての人間の音声が含まれています。 GPT-4 のような大規模な言語モデルは、膨大な量のテキストを「取り込んで」分析することで学習するため、ビデオから書き起こされた音声は貴重な素材になります。

ただし、YouTube の音声を使用可能なトレーニングデータに変換するには、複雑な問題が生じます。 OpenAIの音声認識ツール「Whisper」は、膨大なビデオ素材の文字起こしに重要な役割を果たした。この転写プロセスは必要ではありますが、著作権とフェアユースの考慮事項に焦点を当てます。

データ、どこにでもデータ…しかし、OpenAI が罠にかかっても大丈夫でしょうか?

AI を強化するための堅牢なデータセットの探求は、決して OpenAI に限ったことではありません。ハイテク大手は軒並み同じ課題に取り組んでいます。結局のところ、AI モデルはデータを大量に消費することで有名です。入力データが多様で高品質であればあるほど、現実世界の複雑さを処理するためのモデルがより適切に装備されます。

創造的なデータソースを見つけなければならないというプレッシャーは当然です。 OpenAIの場合、同社は2021年に従来型のトレーニング教材の不足に直面したため、ポッドキャストやオーディオブックなどの選択肢を検討したと伝えられている。しかし、このデータ探索には潜在的なマイナス面があり、法的および倫理的に許容されると考えられるものの境界を押し広げることになる。