GoogleのGemini AIアシスタントは、オーディオファイルのアップロードをサポートし、ユーザーが録音から重要な情報を転写、要約、抽出できるようにするようになりました。この新機能は、最大10分間の音声メモ、会議、講義、インタビューを検索可能なドキュメントに変換します。オーディオアップロード機能は、Webとモバイルアプリの両方で利用でき、標準のファイルアプロードインターフェイスからアクセスできます。 GeminiのGoogleのVP、Josh Woodwardによると、オーディオファイルのアップロード機能はユーザーが最も要求していました。この機能は、リアルタイムの音声コマンドに焦点を当てたGemini Liveとは異なりますが、新機能はアップロードされたオーディオファイルからデータを処理するように設計されています。テスト中、Geminiはコメディアルバムや電話での会話からスケッチを正確に転写しました。名前の認識に関連するわずかなエラーのみがあります。また、AIは、To Doリストの作成に適した重要な要素とアイテムを効果的に特定しました。オーディオ処理の追加は、アプリの統合、カードベースの視覚インターフェイス、拡張されたパーソナライズオプションなど、最近のGeminiの改善と一致しています。この機能により、ユーザーは保存されたオーディオログとメモを検索可能なコンテンツに変換し、以前は外部転写ソフトウェアを必要としていたプロセスを合理化できます。 ChatGPT(Whisperを使用)、AnthropicのClaude、Prplexityなどの他のAIアシスタントもオーディオ処理機能を提供しますが、Geminiの実装は日常のユースケースに向けられています。ユーザーは、ジェミニを活用して、言語を簡素化し、スピーカー固有のコメントを分離し、質問を生成し、オーディオコンテンツから学習ガイドを作成できます。ただし、フリー層ユーザーの10分間のオーディオ制限と毎日の使用キャップは、使用頻度を制限する場合があります。 Googleは現在、通常のGeminiクォータに該当するため、大量のオーディオ処理の正式な価格設定をまだリリースしていません。広範なオーディオコンテンツの処理を計画しているユーザーは、それに応じて使用を管理する必要があります。本質的に、Geminiの新しいオーディオ機能は、オーディオファイルから貴重な情報を処理および抽出するための合理化された方法を提供し、さまざまな個人的および専門的なアプリケーションに役立つツールになります。

Source: Google Geminiは、オーディオファイルのアップロードをサポートするようになりました

  Microsoft Edgeは、すでにPCで3番目に使用されているブラウザーです。