Googleの新しいAI「Gemini 1.5」は1時間のビデオを一度に処理できる

Google Gemini 1.5 Pro は、テクノロジー大手によって発表されました。テクノロジー大手の 1 つである Google は、開発者および企業ユーザー向けに、大規模言語モデル Gemini の新バージョンである Gemini 1.5 を発表しました。

同社は、新バージョンでは、Gemini が多くの点で大幅な改善を行い、大きな進歩を遂げたと述べています。

Google Gemini 1.5 Pro とは何ですか?

Google は、Gemini 1.5 で大幅な改善が達成されたことを指摘しています。 Pro バージョンは、最近導入されたハイエンドの Gemini Ultra モデルの機能と一致しています。また、ベンチマーク評価では、以前の Gemini 1.0 Pro リリースを 87% も上回っています。

このパフォーマンスの向上は、「Mixture of Experts」（MoE）技術の使用によるところが大きいです。 MoE を使用すると、モデル全体を一度にアクティブにするのではなく、クエリ処理中に特定のセクションを選択的にアクティブにすることができます。この戦略により、Google インフラストラクチャのユーザーエクスペリエンスの高速化と効率の向上が促進されます。

状況に応じた理解の拡大

Gemini 1.5 の大幅なアップグレードは、単一のクエリに対する大幅に大規模なデータセットの処理に関連しています。 100 万トークンのコンテキストウィンドウが特徴で、OpenAI の GPT-4 の 128,000 から、以前の Gemini Pro では 32,000 に増加しました。このコンテキストウィンドウにより、Gemini 1.5 は 700,000 を超える単語、1 時間のビデオ、11 時間の音声録音、または 30,000 以上のコードスニペットを同時に処理できるようになります。 Google の研究者は、100 万トークンを超える潜在的なユースケースをさらに調査しています。

ビジネスアプリケーション

Google の幹部らは、広大なコンテキストウィンドウがさまざまなビジネス環境にとって特に価値があると考えています。これにより、クエリ中に広範な個人データや情報を分析できるアプリケーションが開かれます。仮説的な例では、映画製作者が映画全体を提出する可能性を強調し、予想される批判的な評価について Gemini 1.5 に問い合わせます。金融部門も、Gemini 1.5 の強化された能力を活用して、膨大な記録やデータセットを精査する可能性があります。

可用性とアクセシビリティ

Gemini 1.5 への初期アクセスは、Google の Vertex AI や AI Studio などのプラットフォームを介した開発者および商用ユーザーを対象としています。その後、この新しいイテレーションが Gemini 1.0 に置き換わります。 Gemini.google.com および複数のアプリケーションで公開されている Gemini Pro バージョンは Gemini 1.5 Pro になりますが、コンテキストウィンドウは 128,000 トークンに制限されています。開発者とユーザーが最大 100 万トークンのコンテキストウィンドウを希望する場合は、追加コストが発生します。 Googleは、モデルのセキュリティと倫理的境界、特に強化されたコンテキスト機能を巡るテストを継続的に行っていることを強調している。

Gemini Live はさらに 5 か国語を話します

注目の画像クレジット: Google

Source: Googleの新しいAI「Gemini 1.5」は1時間のビデオを一度に処理できる