Meta ImageBind AI モデルが生成 AI の新境地を開拓

テキスト、オーディオ、ビジュアルデータ、温度測定値、動き測定値などの多くのデータストリームを結び付ける、新しいオープンソースの Meta ImageBind AI モデルが Meta によって公開されました。

このモデルは現在、研究活動にすぎず、すぐに消費者や実用的な用途に応用されることはありませんが、生成的な未来を示唆しています。 AIシステム 没入型の多感覚体験を生み出すことができます。それはまた、いかにオープンであるかを示していますメタなどの競合他社とは対照的に、同社は依然として AI 研究を共有しています。 OpenAI と グーグル、どちらもより隠遁的になりました。

研究の中核となるアイデアは、複数の種類のデータを単一の多次元インデックス (または「埋め込み空」を使用します。 AI の専門用語）。この時点では少し抽象的に聞こえるかもしれませんが、最近の生成 AI の台頭の背後にある基本的な概念は同じです。

メタイメージバインドAI — Meta ImageBind AI: また、OpenAI や Google などのライバルと比較して、Meta がいかに透明性を持って AI 研究を共有し続けているかも示しています。どちらもますます秘密主義になっています。

Meta ImageBind AI とは何ですか?

たとえば、トレーニング段階では、次のような多数の AI 画像ジェネレーターが使用されます。ダル–E、安定拡散、と 旅の途中、これらのシステムに依存します。そのデータを写真の説明に関連付けながら、視覚データ内のパターンを検索します。したがって、これらのシステムは、ユーザーからのテキスト入力に対応する画像を生成することが可能になります。多くの AI テクノロジーも同様の方法でビデオやオーディオを生成します。

Meta ImageBind によると、AI は統合された最初のモデルです 6つの異なるフォーム のデータを 1 つの埋め込みスペースにまとめます。組み込まれているデータの 6 つのカテゴリは、視覚 (写真とビデオの形式)、熱 (赤外線画像)、テキスト、音声、深度情報、そして最も興味深いことに、慣性測定装置 (IMU) によって生成される運動測定です。モデルで。

IMU は、電話機の横向きモードから縦向きモードへの切り替えや、さまざまな形式の識別など、さまざまな機能のために電話機やスマートウォッチで使用されています。 物理的アクティビティ。

現在の AI システムがテキスト入力で行うように、将来の AI システムはこのデータを相互参照できるようになるという概念です。たとえば、オーディオとビジュアルの入力だけでなく、ユーザーの環境と動き本物のステージで。

長時間にわたる海上クルーズをシミュレートするよう依頼すると、遠くの波の音に加えて、足元の甲板の揺れと冷たい海風が響き渡る船に乗るでしょう。

Meta ImageBind AI はどのように機能しますか?

ブログ投稿では、Meta ImageBind AI 言及将来のモデルには「触覚、音声、嗅覚、脳のfMRI信号」が組み込まれる可能性があるという。声明によれば、この発見により、「機械は、さまざまな形の情報から同時に、総合的に、直接学習する人間の能力に一歩近づくことができる」という。どちらでも大丈夫です。なんでもいい。これらの段階がどれだけ細かいかによって決まります。)

当然のことながら、これはすべてまったくの仮説であり、この種の研究の当面の使用はかなり制限される可能性があります。たとえば、メタ 示した 昨年、テキストの説明から短くぼやけたフィルムを作成する AI モデルを発表しました。システムの将来の反復では、たとえば、ImageBind などの研究で実証されているように、追加のデータストリームを組み合わせて、ビデオ出力を補完するオーディオを生成する可能性があります。

ただし、業界に興味がある人にとって、この研究は特に興味深いものです。なぜなら、Meta ImageBind AI は基盤となるモデルをオープンソース化しており、AI の分野でこの傾向が注目されているからです。

Meta ImageBind AI オープンソースアプローチ: なぜ機能するのか?

オープンソースに反対する人たち OpenAI、競合他社が自分の作品を複製する可能性があるため、このアプローチはクリエイターにとって好ましくなく、極悪な行為者が最先端の AI モデルを悪用できる可能性があるため危険ですらあると主張しています。

これは、IntelCore第10世代プロセッサを搭載したミニPCです。

これに対し、支持者らは、オープンソース化により第三者がシステムの欠陥を検査し、欠点の一部を修正できると主張する。彼らは、企業が仕事を強化するために外部のプログラマーを無給の従業員として効果的に雇うことができるため、経済的な利点さえある可能性があると指摘しています。

課題はありましたが、Meta ImageBind AI はこれまでのところ、オープンソース陣営にしっかりと留まっています。 (たとえば、最新の言語モデル、ラマは、今年初めにオンラインでリリースされました。）多くの点で、同社は商用 AI での成功に欠けています（競合するチャットボットを持っていません）。 ビング、 吟遊詩人、また チャットGPT）がこの戦略を可能にしました。この戦術は当面、ImageBind で引き続き使用されます。

テクノロジーの最新の進歩、特に AI に関連する最新情報を入手するには、以下の記事をチェックしてください。