Appleの新しい特許は、Siriに唇を読み取らせることを目的としている

Appleの仮想アシスタント「Siri」は、 iOS エコシステムの不可欠な部分、 しかし、その音声認識機能は、騒がしい環境や歪んだ音声では課題に直面していました。これらの制限に対処しようとして、Apple からの最近の特許出願は、テクノロジー巨人が Siri への読唇能力。

この画期的な機能は、次のようなモーションセンシングテクノロジーを活用できる可能性があります。 加速度計 また ジャイロスコープ、 検出する 微妙な顔の動きを実現し、音声コマンドの精度を向上させます。 この特許は刺激的な可能性を示唆していますが、依然として不確実です Apple がこの新機能をいつ、どのように実装する予定であるか。

Apple リップリーディング特許_02 — Apple の Siri に対する読唇術の特許は、音声認識技術における革命の試みと見なすことができる (画像クレジット)

Apple の Siri に対する読唇術特許の背後にある論理

特許出願は、 1月、 モーションデータを使用して判断するシステムの概要を説明します。 ユーザーの口の動きが話し言葉やフレーズと一致しているかどうか。 従来のものだけに頼るのではなく、 音声認識システム、 影響を受ける可能性のあるもの バックグラウンドノイズとデバイスリソースの消耗、 Apple が提案する方法では次のことが観察されます。 顔の筋肉の振動、頭の動き、その他の口の部分の動き。 この革新的なアプローチは、加速度計やジャイロスコープなどのモーションセンサーを利用することで、問題を克服できる可能性があります。 既存の音声認識テクノロジーが直面する多くの課題。

スマートフォン以外への影響

特許がありながら、 主にiPhoneについて言及していますが、 それは示唆する 実装範囲が広がります。 Apple は、この技術を AirPods やさらには他のデバイスに拡張することを構想しています。 「スマートグラス」 膨大な数の潜在的な用途を示唆しています。しかし、Appleがスマートグラスプロジェクトを中止したことを考えると、焦点は謎に包まれたままのVision Proヘッドセットにあるようだ。

Apple の Siri に対する読唇術の特許 — モーションセンシング技術の新特許が実現すれば、さまざまな製品に応用される可能性がある（画像クレジット）

データの探求

この読唇機能を開発するには、Apple は次のことを必要とします。 人間の口の動きに関する大量のデータ。 の作成 「音声プロフィール」 ユーザーがこのニーズに対応できる可能性があるからです。 iOS の Live Speech などの Apple の最近のアクセシビリティ機能により、ユーザーの音声プロファイルの収集が可能になります。これらのプロファイルは、 言語モデルをトレーニングする 広範なデータセットから顔の動きを認識します。 AI を自社の機能に微妙に統合するという同社の傾向は、 「トランスフォーマー言語モデル」 読唇機能のため。

前方の道路

特許出願は重要な進歩を意味しますが、 音声認識技術では、 実際に Apple 製品に統合されるかどうかはまだ不透明です。 Appleの著名なサプライチェーンアナリスト、 ミンチー・クオ それを指摘した 同社の生成 AI の進歩は競合他社に遅れをとっており、 そして、そのような深層学習モデルが近いうちにハードウェア製品に統合されるという兆候はありません。ただし、Apple がコードネームで開発した社内チャットボットは、 「アップルGPT」 Siri の AI 関連の機能強化の可能性を示唆する可能性があります。

Appleの特許出願で明らかになった計画 読唇術Siri 音声認識テクノロジーの新時代の到来を告げます。改善する手段としてモーションセンシング技術を探求することにより、 音声コマンドの精度、 Apple は、次のことへの取り組みを示しています。 ユーザーエクスペリエンスを磨き、AI統合の最前線に留まります。

実装のタイムラインは不明のままだが、コンセプトは維持される 音声支援インタラクションに革命をもたらす大きな可能性 さまざまな Apple デバイス間で。未来が展開するにつれ、Apple ユーザーは、仮想アシスタントがユーザーの唇を簡単に読み取って、あらゆるコマンドに応えることができる日を心待ちにしています。

注目の画像クレジット: オミッドアルミン / アンスプラッシュ

Source: Appleの新しい特許は、Siriに唇を読み取らせることを目的としている

ディズニーのレイオフ2023は、ボブ・アイガーの復帰とともにここにあります