Apple は、ユーザーが自然言語命令を通じて画像を編集できるようにする革新的なオープンソース AI モデルである Apple MGIE の導入により、人工知能の分野で大きな進歩を遂げました。 MGIE は MLLM-Guided Image Editing の略で、マルチモーダル大規模言語モデル (MLLM) の機能を利用してユーザー コマンドを解釈し、ピクセル レベルの操作を驚くべき精度で実行します。

このモデルは、Photoshop スタイルの変更、グローバルな写真の最適化、ローカル編集など、幅広い編集機能を備えています。 これは、ユーザーが簡単なテキスト コマンドで画像を簡単に強化できることを意味し、写真編集に関する広範な知識がなくてもプロ品質の編集を作成できるようになります。

MGIE の開発は、Apple とカリフォルニア大学サンタバーバラ校の研究者チームとの画期的なコラボレーションの成果です。 このモデルは、AI 研究の最高のプラットフォームである権威ある学習表現国際会議 (ICLR) 2024 で採択された研究論文で発表されました。 この論文では、競争力のある推論効率を維持しながら、自動メトリクスと人間による評価を改善する上での MGIE の驚くべき効果を紹介しています。

アップルMGIE
Apple MGIE は、機械学習を活用し、ユーザーが自然言語命令を使用して画像を編集できるようにする革新的な画像編集システムです。 (画像クレジット)

Apple MGIEとは何ですか?

Apple MGIE は、機械学習を利用してユーザーが自然言語命令を使用して画像を編集できるようにする革新的な画像編集システムです。 この革新的なテクノロジーにより、ユーザーは画像に必要な変更を記述するだけで、MGIE が自動的に変更を適用するため、複雑な編集ツールやメニューが必要なくなります。

Midjourney、StableDiffusion、DALL-E などの他の最先端の AI 画像ツールと同様に、Apple MGIE は人間の意図と画像操作の間のギャップを埋めます。 マルチモーダル学習の力を活用することで、MGIE は視覚情報 (画像自体) とテキスト情報 (ユーザーの指示) の両方を理解できるため、ピクセル レベルの操作を驚くべき精度で実行できます。

Apple MGIE は画像編集における革新的なツールであり、画像を強化および操作するためのユーザーフレンドリーで効率的な方法を提供します。 プロの写真家、グラフィック デザイナー、ソーシャル メディア インフルエンサーのいずれであっても、MGIE は視聴者に永続的な印象を残す素晴らしい画像を作成するのに役立ちます。

アップルMGIE
Apple MGIE は、マルチモーダル大規模言語モデル (MLLM) の力を活用して、ユーザー コマンドを解釈し、驚くべき精度でピクセル レベルの操作を実行します。 (画像クレジット)

Apple MGIE はどのように機能しますか?

Apple MGIE は自然言語処理と機械学習を利用して、ユーザーがシンプルで説明的なコマンドを使用して画像を編集できるようにします。 このシステムは、ユーザーの意図を理解して画像を操作して、必要な変更を正確に反映することで機能します。

MGIE ワークフローの内訳は次のとおりです。

  • コマンドの入力: ユーザーは、「この画像の空をもっと青くしてください」または「この写真から赤い車を削除してください」など、希望する編集内容をわかりやすい英語で説明します。
  • 意図を理解する: MGIE の高度な言語モデルはユーザーの指示を解読し、特定のオブジェクト、属性、および必要な変更を識別します。
  • 視覚的な理解: 同時に、MGIE が画像を分析し、主要な要素とその関係を特定します。
  • ガイド付き編集: 言語的理解と視覚的理解を組み合わせて、MGIE は画像をインテリジェントに操作してユーザーのコマンドを正確に反映します。 指示に盲目的に従うのではなく、コンテキストを解釈して賢明な調整を行うことができます。

MGIE の背後にある中心的なコンセプトは、人間の意図と画像操作の間のギャップを埋めて、誰にとっても画像編集をよりアクセスしやすく効率的にすることです。 MGIE を使用すると、ユーザーはシンプルな自然言語コマンドを使用して画像を簡単に強化および操作できるため、創造的な表現とコミュニケーションの新たな可能性が広がります。

Apple MGIEの使い方

MGIE を使用するには、ユーザーは GitHub 上のオープンソース プロジェクトにアクセスし、そのソース コード、トレーニング データ、および事前トレーニングされたモデルに完全にアクセスできます。 これにより、開発者や研究者は内部の仕組みを理解し、改善に貢献できる可能性があります。 さらに、自然言語命令を使用してさまざまな編集タスクをユーザーにガイドするデモ ノートブックが GitHub で入手できます。 これは、MGIE の機能の実践的な入門として機能します。

MGIE を試すための迅速かつ便利な方法として、ユーザーは Hugging Face Spaces でホストされている Web デモを通じてシステムを実験することもできます。 このオンライン プラットフォームを使用すると、ユーザーはローカルでのセットアップを必要とせずにシステムを体験できます。

アップルMGIE
MGIE はユーザーからのフィードバックを歓迎し、編集を改良したり、さまざまな変更をリクエストしたりすることができます。 (画像クレジット)

MGIE はユーザーからのフィードバックを歓迎し、編集を改良したり、さまざまな変更をリクエストしたりすることができます。 この反復的なアプローチにより、生成された編集がユーザーの芸術的ビジョンと一致することが保証されます。

MGIE はまだ開発中ですが、プロジェクトをオープンソース化することで、幅広いユーザーや貢献者がアクセスできるようになります。 進行中の研究とユーザーの貢献により、その将来の機能と潜在的なアプリケーションが形成され、画像編集の分野でエキサイティングで急速に進化するテクノロジーになります。


注目の画像クレジット: pvproductions/Freepik。

  裁判官はTikTokダウンロードのトランプ管理禁止を一時的にブロックします

Source: Apple MGIEは、テクノロジー巨人のAI分野への静かな参入を示す