人工知能 (AI) の覇権をめぐる競争は、Gemini と ChatGPT の間で激化しており、ハイテク大手が最も強力で汎用性の高い AI モデルの開発を目指して競い合っています。

OpenAI の印象的な GPT-4o の発表に続き、Google は、非常に人気のあるチャットボットである Gemini の独自のプロトタイプの魅力的なデモンストレーションを行い、AI レースに参入しました。

によるビデオ GoogleのXアカウント は、Gemini を実行している Pixel スマートフォンが、おそらく今後開催される Google I/O 開発者カンファレンスの準備中に撮影されたライブ映像を分析している様子を紹介しました。

デモでジェミニの会話力が明らかに

紹介されたビデオでは、ユーザーは音声プロンプトを通じて、画面上のアクティビティについて AI に質問します。 ジェミニの自然な声での応答は、視覚的な背景を理解していることを示しています。 ステージ建設を大規模なイベントの準備として正しく認識しています。 画面に表示される文字についてプロンプトが表示されると、Gemini はそれが Google I/O の標識であると認識し、イベントの簡単な説明を提供します。

OpenAI の最近の ChatGPT デモと同様に、Google の Gemini ビデオは会話の自然な流れで注目に値します。 ユーザーの対話はほとんど人間のように感じられ、Gemini の応答は友好的な対話のリズムを反映しています。

この会話型アプローチは、以前の AI モデルで経験されていた堅苦しい対話とは大きく異なります。 やり取りを行って情報を明確にし、ユーザーのクエリに基づいて応答を調整する機能により、より直観的でユーザー フレンドリーな AI エクスペリエンスへの道が開かれます。

そして、ジェミニ対ChatGPTという競争から再びイノベーションが生まれようとしているようです。

ここではコンテキスト認識が宝の山です

デモは気楽なシナリオに焦点を当てていましたが、Gemini の潜在的なアプリケーションはエンターテイメントの目的をはるかに超えています。 視覚情報をリアルタイムで分析できる機能は、さまざまな分野で変革をもたらす可能性があります。

医師が患者の診察中に Gemini を使用しているところを想像してください。AI が医療画像を即座に分析し、洞察や潜在的な診断を提供できます。 教育の分野では、学生は Gemini を利用して、AI に物体、実験、歴史的遺物をリアルタイムで分析させることで学習体験を強化し、主題についてのより深い理解を促進することができます。

プロトタイプはまだ建設中であり、その全機能はまだ完全に明らかにされていません。 ただし、このデモは、AI インタラクションの将来についての有望な一端を提供します。 Gemini は、OpenAI の GPT-4o と同様に、自然言語処理とリアルタイム ビデオ分析を組み合わせることで、私たちが情報や周囲の世界と対話する方法を変化させ、改善する可能性を秘めています。

それで、詳細はいつわかりますか? Google I/O イベントが始まります 今晩、太平洋時間午前 10 時 / 東部時間午後 1 時 テクノロジーの未来を目撃するために、今後も注目して読み続けてください。


注目の画像クレジット: ソーレン・フェイッサ/アンスプラッシュ

Source: Google Gemini は GPT-4o との競争に向けて準備を進めている

  ElevenLabs AI Text-to-Speechは、70の言語をサポートするようになりました