OpenAI が高度なリアルタイム音声 AI モデルを発表

OpenAI は、開発者がリアルタイムで会話、文字起こし、翻訳できる対話型アプリケーションを作成できるように設計された API の新しい音声インテリジェンス機能を発表しました。新たに発表された GPT-Realtime-2 モデルは、GPT-5 クラス推論に基づいて構築されており、以前の GPT-Realtime-1.5 と比較してより複雑なユーザーリクエストを処理することを目的としています。

さらに、OpenAI は、70 を超える入力言語と 13 の出力言語にリアルタイム翻訳サービスを提供する GPT‑Realtime‑Translate を導入しました。この機能は、会話中にユーザーのペースを保つように設計されています。

もう 1 つの主要なアップデートは GPT-Realtime-Whisper 機能で、リアルタイムインタラクションのためのライブ音声からテキストへの文字起こしを提供します。 OpenAIは、「われわれが立ち上げようとしているモデルは、リアルタイムオーディオを単純なコールアンドレスポンスから、実際に機能する音声インターフェースへと移行させ、会話の展開に応じて聞き、推論し、翻訳し、文字起こしし、アクションを起こすことができる」と述べた。

OpenAIによると、これらのアップデートは顧客サービス、教育、メディア、イベントなど複数の業界を対象としているという。同社は、新機能はスパムや詐欺の作成などの悪用のリスクももたらす可能性があると指摘した。これを軽減するために、OpenAI は、有害なコンテンツのガイドラインに違反する会話を停止するように設計されたガードレールを実装しました。

新しい音声モデルはすべて OpenAI の Realtime API の一部です。料金体系はさまざまで、GPT-Realtime-Translate と GPT-Realtime-Whisper は分単位で課金されますが、GPT-Realtime-2 はトークンの消費量に基づいて課金されます。

注目の画像クレジット

米国、Anthropic の Mythos 5 および Fable 5 AI モデルの輸出禁止を解除

OpenAI が高度なリアルタイム音声 AI モデルを発表

Related Stories

OpenAIは7月9日にGPT-5.6モデルを一般公開することを承認した

Meta、AI が生成した目に見えない透かしのある画像を検出するツールを発表

クロード・コワークは携帯電話からタスクを実行できるようになりました

Apple、より個人的な Siri 音声コントロールをベータ 3 に導入