Appleは、FastVLM(Visual Language Model)をWebブラウザーで直接テストできるようにし、Appleシリコンを搭載したMacを使用しているユーザーが、インターティントに近い高解像度の画像処理機能を体験できるようにしました。数か月前に最初にリリースされたこのモデルは、Appleシリコン向けに最適化されたAppleのオープンマシン学習フレームワークであるMLXをレバレッジして、カウンターパートと比較して大幅に高速なビデオキャプションとモデルサイズが大幅に速くなりました。

FASTVLMは、ビデオキャプションで最大85倍高速であり、同等のモデルの3倍以上小さいと報告されています。 Appleはプロジェクトの可用性を拡大し、GitHubに加えて顔を抱きしめることでアクセスできるようにしました。ユーザーは、パフォーマンスを評価するために、軽量FastVLM-0.5Bモデルをブラウザに直接ロードできるようになりました。

テストによると、16GB M2 Pro MacBook Proでモデルのロードには数分かかります。モデルはロードされたら、ユーザーの外観、周囲の環境、表現、および視界のオブジェクトを正確に説明します。ユーザーは、プロンプトを調整したり、「1つの文で表示されているものを説明してください」、「シャツの色とは何ですか?」、「テキストまたは書かれたコンテンツを表示する」、「どのような感情またはアクションが描かれているのか」などのプリセットオプションから選択することで、モデルと対話できます。 「手に持っているオブジェクトに名前を付けてください。」これにより、カスタマイズされたインタラクティブなエクスペリエンスが可能になります。

さらに、ユーザーは仮想カメラアプリを使用してライブビデオをツールにフィードし、複数のシーンを詳細に即座に説明できるようにすることができます。これは、モデルの速度と精度を強調します。この実装の重要な機能は、ブラウザでローカルに実行され、データがデバイスを離れるためのデータプライバシーを確​​保することです。このモデルはオフラインで動作することもできます。これは、低レイテンシと効率が非常に重要なウェアラブルや支援技術のアプリケーションに適しています。

ブラウザベースのデモは、FASTVLMの0.5億パラメーターバージョンを利用しています。 FastVLMファミリーには、15億と70億のパラメーターを持つより大きなバリアントが含まれています。これらの大規模なモデルはパフォーマンスと速度を向上させる可能性がありますが、リソースの制約により、ブラウザで直接実行することはありそうにありません。 Appleは、ユーザーがモデルをテストし、フィードバックを共有することを奨励しています。

Source: Apple FastVLMデモは、Appleシリコンのブラウザで実行されるようになりました

  一人の人がすべてのドージコインの28.69%を持っています、それは今日21億ドルの財産です