テクノロジー大手の Apple は、人工知能に関する沈黙を破り、MM1 と呼ばれる次世代のマルチモーダル大規模言語モデル (LLM) を導入しました。
MM1 は、画像のキャプション付け、視覚的な質問への回答、自然言語推論などの複雑なタスクを首尾よく実行するため、人工知能の世界で重要な発展とみなされています。
MM1って何ですか?
上で述べたように、MM1 は、画像にキャプションを付け、視覚的な質問に答え、自然言語推論を実行するように設計されたマルチモーダルな大きな言語モデルです。 テキストとビジュアルデータを組み合わせて複雑なタスクを実行することを目的としています。 Apple の研究者は、MM1 は他の事前トレーニング結果と比較して大幅に改善された結果を提供すると報告しています。

MM1の技術仕様
最大 300 億のパラメータをサポートする MM1 は、画像データとテキスト データを一緒に処理できるモデル ファミリとして際立っています。 MM1 は、画像サブヘッダー、散在する画像テキスト、テキストのみなどのさまざまなデータ タイプでトレーニングされており、より包括的な情報処理機能を備えています。
一方で、MM1の開発は、Appleが人工知能を重要視していることも示している。 Apple、開発コード名「LLM フレームワーク」に取り組んでいるアヤックス」や DarwinAI などの取り組みを含め、人工知能と機械学習をコア テクノロジーとみなしています。 同社は、2024 年にこの分野での取り組みの詳細を共有し、6 月の WWDC 開発者カンファレンスで AI に焦点を当てたプレゼンテーションを行う予定です。

Apple の MM1 は、マルチモード LLM の分野における重要な前進であると考えられています。 これは、近い将来重要な役割を果たす可能性があるAIに関してAppleが沈黙を破りつつあることを示している。 MM1の開発は、視覚データ処理や自然言語理解などの分野における人工知能のさらなる発展に貢献します。
注目の画像クレジット: Sumudu Mohottige / Unsplash
Source: Apple がマルチモーダル LLM: MM1 を発表








