GeminiとVeo AIモデルを組み合わせたGoogle

Google Deepmind CEOのDemis Hassabisは、最近のポッドキャストインタビューで明らかにされたように、Gemini AiモデルをVEOビデオ生成AIモデルとVEOビデオ生成AIモデルと統合する計画を明らかにしました。

ハッサビスによると、ジェミニは、実際のシナリオでユーザーを支援できる「ユニバーサルデジタルアシスタント」を作成することを目的として、その創業以来マルチモーダルになるように設計されました。「私たちは、私たちの基礎モデルであるジェミニを最初からマルチモーダルにするために常に構築してきました」とハッサビスは説明しました。 [is because] 私たちは、ユニバーサルデジタルアシスタント、アシスタントのこのアイデアについてビジョンを持っています […] 実際、現実の世界であなたを助けてくれます。」

AI業界は、オーディオ、画像、テキストなどの複数の形式のメディアを処理および生成できる「Omni」モデルへの移行を目撃しています。 Googleの最新のGeminiモデルはオーディオ、画像、テキストを作成できますが、OpenaiのChatGPTはスタジオジブリスタイルのアートを含む画像を作成できます。 Amazonはまた、今年後半に「Any-to-to」モデルを開始する計画を発表し、この傾向をさらに説明しています。

これらのOMNIモデルには、画像、ビデオ、オーディオ、テキストなど、膨大な量のトレーニングデータが必要です。 Hassabisは、VEOのビデオデータは、Googleが所有するプラットフォームであるYouTubeから主に供給されていることを示しました。「基本的に、YouTubeのビデオを見ることで、YouTubeのビデオをたくさん – [Veo 2] Hassabis氏は、Googleは以前にTechCrunchに、YouTubeのクリエイターとの合意に従って「一部」のYouTubeコンテンツについて「モデル」を「」訓練していることをTechCrunchに以前に通知していたと述べました。

Googleは昨年、利用規約を拡大し、AIモデルをトレーニングするためにYouTubeコンテンツを含むより多くのデータにアクセスすることも注目に値します。この動きは、オンラインデータの膨大なリポジトリを活用することにより、AI機能を強化するための戦略的な努力と見なされています。

GeminiとVeo AIモデルを組み合わせたGoogleの投稿は、TechBrieflyで最初に登場しました。

Source: GeminiとVeo AIモデルを組み合わせたGoogle

Micosoftは、大幅な再設計と新機能を備えたWindows11を発表しました