写真に命を吹き込む Microsoft の VASA-1: 知っておくべきことすべて

AI テクノロジーが急速に進化し限界を押し上げる中、Microsoft の新しいプロジェクト VASA-1 は写真をビデオに変換し、それにリアルなサウンドを追加することができます。はい、そうですよね。

このエキサイティングなテクノロジーは、ポートレート写真と音声ファイルを使用して、リアルな口唇同期、顔の表情、頭の動きを備えた話し顔ビデオを作成します。

VASA-1 の約束された強力さはいくつかの懸念を引き起こし、Microsoft はそれをリリースすることをためらっていました。私たちが知っていることは次のとおりです…

VASA-1の能力と影響

VASA-1 の最も顕著な特徴は、本物のような顔のアニメーションを生成できることです。 VASA-1はこれまでのAIモデルとは異なり、口周りの誤差を最小限に抑えることでより自然な見た目を実現します。これにより、よりリアルなディープフェイク動画がオンラインでさらに広く拡散する可能性がある。

Microsoft の新しいテクノロジを使用すると、高品質でリアルな結果が可能になります。同社のデモビデオは、現実と AI が生成したコンテンツの間の境界線を曖昧にする印象的な例を提供しています。

OpenAI の Sora と Microsoft の VASA-1 が今後数年間に私たちに何をもたらすのかを見るのは興味深いでしょう…

同社はブログ投稿で次のように説明した。

注: このページのすべてのポートレート画像は、StyleGAN2 または DALL·E-3 によって生成された仮想的な、存在しないアイデンティティです (モナリザを除く)。私たちは、現実世界の人物を模倣しない仮想のインタラクティブなキャラクターのための視覚的感情スキルの生成を模索しています。これは単なる研究デモンストレーションであり、製品や API をリリースする予定はありません。

VASA-1の使用分野

VASA-1 の用途は多岐にわたり、創造性の限界を押し広げることができます。たとえば、強化されたゲーム体験を提供するために使用できます。唇の動きと表情豊かな表情を同期させて、ゲーム内のキャラクターをよりリアルにすれば、ゲームの世界が変わる可能性があります。今でもゲームのキャラクターは信じられないほど最適化されています。しかし、このテクノロジーにより、さらに改善される可能性があります。

一方で、パーソナライズされた仮想アバターを作成することもできます。ユーザーは、自分自身の外見を反映したリアルなアバターを作成することで、ソーシャルメディアに変化をもたらすことができます。映画業界にも驚くべき変化が見られるかもしれない。 VASA-1 は、リアルなクローズアップ、顔の表情、自然な会話シーケンスを作成することで、映画製作の限界を押し広げる可能性があります。

テクノロジーの仕組みと未来

Microsoftによれば、VASA-1はリアルな話し顔を作成し、仮想キャラクターをアニメーション化するための新しいフレームワークを提供するという。このテクノロジーは、ポートレート写真と音声ファイルのみを使用して印象的な結果を達成することを目的としています。ただし、このテクノロジーが広く使用されると、いくつかの懸念が生じます。特に、ディープフェイクなどのテクノロジーが悪用される可能性があるため、Microsoft は注意を払う必要があります。

Microsoft が直面している課題の 1 つは、イノベーションと責任のバランスを取ることです。テクノロジーがもたらす潜在的な利点を認識した同社は、開発に対して責任あるアプローチをとり、潜在的な危険性をユーザーに知らせるよう努めています。このようにして、VASA-1 のような強力なテクノロジーの拡散を抑制し、社会全体の安全を確保することを目指しています。

注目の画像クレジット: Microsoft

Source: 写真に命を吹き込む Microsoft の VASA-1: 知っておくべきことすべて

AirPods の吃音: どうすれば修正できますか?