OpenAI は、開発者がリアルタイムで会話、文字起こし、翻訳できる対話型アプリケーションを作成できるように設計された API の新しい音声インテリジェンス機能を発表しました。新たに発表された GPT-Realtime-2 モデルは、GPT-5 クラス推論に基づいて構築されており、以前の GPT-Realtime-1.5 と比較してより複雑なユーザー リクエストを処理することを目的としています。

さらに、OpenAI は、70 を超える入力言語と 13 の出力言語にリアルタイム翻訳サービスを提供する GPT‑Realtime‑Translate を導入しました。この機能は、会話中にユーザーのペースを保つように設計されています。

もう 1 つの主要なアップデートは GPT-Realtime-Whisper 機能で、リアルタイム インタラクションのためのライブ音声からテキストへの文字起こしを提供します。 OpenAIは、「われわれが立ち上げようとしているモデルは、リアルタイムオーディオを単純なコールアンドレスポンスから、実際に機能する音声インターフェースへと移行させ、会話の展開に応じて聞き、推論し、翻訳し、文字起こしし、アクションを起こすことができる」と述べた。

OpenAIによると、これらのアップデートは顧客サービス、教育、メディア、イベントなど複数の業界を対象としているという。同社は、新機能はスパムや詐欺の作成などの悪用のリスクももたらす可能性があると指摘した。これを軽減するために、OpenAI は、有害なコンテンツのガイドラインに違反する会話を停止するように設計されたガードレールを実装しました。

新しい音声モデルはすべて OpenAI の Realtime API の一部です。料金体系はさまざまで、GPT-Realtime-Translate と GPT-Realtime-Whisper は分単位で課金されますが、GPT-Realtime-2 はトークンの消費量に基づいて課金されます。


注目の画像クレジット

  AI の概要にオンライン コミュニティからのアドバイスが表示されるようになりました