Googleは、カメラフィードのオブジェクトを強調する視覚的なオーバーレイと、より表現力豊かな会話のための新しいオーディオモデルでGeminiライブを強化しています。視覚的なオーバーレイ機能は、カメラのビューにオブジェクトの周りに白い境界のある長方形を配置することで、アイテムを識別したり、アドバイスを受けたりするのに役立ちます。新しいネイティブオーディオモデルは、より応答性の高い表現力豊かな会話のために設計されています。
Googleイベントが昨年作成したとき、GoogleはGemini Liveを発表しました。これは、AIチャットボットとのより自然でハンズフリーの会話のために設計された機能です。デビュー以来、GoogleはGemini Live、特にカメラフィードと画面を共有する機能に多数のアップグレードを導入してきました。
Googleは、Gemini Liveのカメラ共有機能と、インタラクションをさらに自然にするための新しいオーディオモデルの大幅な強化を発表しました。
新しいGoogle Pixel 10シリーズでのプレゼンテーション中に、GoogleはAndroidでGemini Liveにいくつかの改善を詳述しました。まず、カメラフィードを共有すると、Gemini Liveは視覚的なオーバーレイを表示して特定のオブジェクトを強調することができます。これらのハイライトは、オブジェクトの周りに白い境界のある長方形として表示されますが、残りのビューはわずかに暗くなり、目立つようになります。
この「視覚的なガイダンス」機能は、カメラのビューでアイテムをすばやく見つけて識別するのに役立つように設計されています。たとえば、それを使用して、マシンの正しいボタンを強調したり、群れの特定の鳥を指摘したり、プロジェクトに適したツールを特定したりできます。また、Geminiに適切な靴をお勧めするように依頼するなど、アドバイスに使用することもできます。
この機能は、より複雑なシナリオを処理することもできます。ブリーフィングで、Googleのプロダクトマネージャーは、最近の国際旅行の個人的な例を共有しました。彼は、外国語の兆候、道路標識、地元の規制を理解することができず、特定の場所に駐車できるかどうかを理解するのに苦労していました。彼の携帯電話を引き出してジェミニをライブで開いた後、彼はカメラを現場に向け、駐車が許可されているかどうか尋ねました。ジェミニは地元のルールを調べ、標識を翻訳し、次の2時間無料で駐車できる路上での場所を強調しました。
Gemini Liveのビジュアルガイダンスは、Google Pixel 10シリーズの箱から出して利用でき、来週他のAndroidデバイスに展開されます。この機能は、今後数週間でiOSデバイスに拡張されます。 Google AI ProまたはUltraサブスクリプションは必要ありません。
視覚的なオーバーレイに加えて、GoogleはGemini Liveをアップグレードし、より応答性の高い表現力豊かな会話のために設計された新しいネイティブオーディオモデルを使用しています。
まず、この新しいモデルは、あなたの言うことにより適切に対応します。たとえば、ストレスの多いトピックについてチャットしている場合、より穏やかで「測定された」音声で応答します。
Googleは、新しいオーディオモデルがあなたにどのように話すかを制御することもできると言います。たとえば、ジェミニが言っていることに追いつくのに苦労している場合は、よりゆっくりと話すように頼むことができます。または、急いでいる場合は、物事をスピードアップするように頼むことができます。
最後に、歴史上の人物の観点から劇的な物語を伝えることさえできます。 「ジェミニに、ジュリアス・シーザー自身の観点からローマ帝国について話すように頼み、キャラクターのアクセントを備えた豊かで魅力的な物語を手に入れてください」とGoogleはブログ投稿で述べています。
Gemini Liveの新しいVisual Overlays機能は、Android XR Glassesに適していますが、メガネに手を伸ばすことからかなり離れているため、モバイルで利用できるようにするのはいいことです。
この記事は午後7時50分に更新され、Natural Audio Modelのセクションを修正し、Googleのブログ投稿からデモアセットを追加しました。








