Appleは、FastVLM(Visual Language Model)をWebブラウザーで直接テストできるようにし、Appleシリコンを搭載したMacを使用しているユーザーが、インターティントに近い高解像度の画像処理機能を体験できるようにしました。数か月前に最初にリリースされたこのモデルは、Appleシリコン向けに最適化されたAppleのオープンマシン学習フレームワークであるMLXをレバレッジして、カウンターパートと比較して大幅に高速なビデオキャプションとモデルサイズが大幅に速くなりました。 FASTVLMは、ビデオキャプションで最大85倍高速であり、同等のモデルの3倍以上小さいと報告されています。 Appleはプロジェクトの可用性を拡大し、GitHubに加えて顔を抱きしめることでアクセスできるようにしました。ユーザーは、パフォーマンスを評価するために、軽量FastVLM-0.5Bモデルをブラウザに直接ロードできるようになりました。テストによると、16GB M2 Pro MacBook Proでモデルのロードには数分かかります。モデルはロードされたら、ユーザーの外観、周囲の環境、表現、および視界のオブジェクトを正確に説明します。ユーザーは、プロンプトを調整したり、「1つの文で表示されているものを説明してください」、「シャツの色とは何ですか?」、「テキストまたは書かれたコンテンツを表示する」、「感情やアクションが描かれている」などのプリセットオプションから選択することでモデルと対話できます。 「手に持っているオブジェクトに名前を付けます。」これにより、カスタマイズされたインタラクティブなエクスペリエンスが可能になります。さらに、ユーザーは仮想カメラアプリを使用してライブビデオをツールにフィードし、複数のシーンを詳細に即座に説明できるようにすることができます。これは、モデルの速度と精度を強調します。この実装の重要な機能は、ブラウザでローカルに実行され、データがデバイスを離れるためのデータプライバシーを確保することです。このモデルはオフラインで動作することもできます。これは、低レイテンシと効率が非常に重要なウェアラブルや支援技術のアプリケーションに適しています。ブラウザベースのデモは、FASTVLMの0.5億パラメーターバージョンを利用しています。 FastVLMファミリーには、15億と70億のパラメーターを持つより大きなバリアントが含まれています。これらの大規模なモデルはパフォーマンスと速度を向上させる可能性がありますが、リソースの制約により、ブラウザで直接実行することはありそうにありません。 Appleは、ユーザーがモデルをテストし、フィードバックを共有することを奨励しています。

Apple FastVLMデモは、Appleシリコンのブラウザで実行されるようになりました
Written by
Starting with coding on Commodore 64 in elementary school moving to web programming in his teenage years, Aytun has been around technology for over 30 years, and he has been a tech journalist for over 20 years now. He worked in many major Turkish outlets (newspapers, magazines, TV channels and websites) and managed some. Besides journalism, he worked as a copywriter and PR manager (for Lenovo, HP and many international brands ) in agencies. He founded his agency, Linkmedya in 2019 to execute his way of producing content. He is recently interested in AI, automation and MarTech.
View all posts →Related Stories
Microsoft、高度な AI ワークロード向けの Surface RTX Spark Dev Box を発表
Microsoft の Surface RTX Spark Dev Box は、NVIDIA の RTX Spark チップと最大 128 GB のメモリを組み合わせて、高度な AI ワークロードと開発を強化します。
X が iOS ユーザー向けに「React with Video」機能を開始
X は iOS 向けの「React with Video」機能を開始し、ユーザーが元の投稿と一緒に TikTok スタイルのリアクション ビデオを直接投稿できるようにします。
Microsoft、次世代エージェントファーストデバイスを強化する Project Solara を発表
Project Solara は、ソフトウェアとハードウェアを融合して、特化したパーソナライズされた適応性のある AI エクスペリエンスを作成するエージェント ファースト コンピューティングを導入します。
Google、新しい安全機能と共有機能を備えた Android アップデートを 6 月に公開
6 月の Android Drop では、新しいパーソナライゼーション ツール、スタイリッシュなアップデート、強化された安全機能が導入され、ユーザーが安全でクリエイティブな状態を維持できるようになります。




