Nvidia は、ビジョン、オーディオ、言語機能を統合アーキテクチャに統合するオープン マルチモーダル AI モデルである Nemotron 3 Nano Omni を発表しました。

このモデルは、断片化されたパイプラインに依存することが多い現在のエンタープライズ AI システムの非効率性に対処することを目的としています。テキスト出力を生成しながら、テキスト、画像、オーディオ、ビデオ、ドキュメント、チャート、グラフィカル インターフェイスなどのさまざまな入力を処理します。

Nemotron 3 Nano Omni は、専門家が混合した 300 億パラメータのハイブリッド アーキテクチャに基づいて構築されており、推論ごとに約 30 億のパラメータを有効にします。 Nvidia は、コンピューティング コストを大幅に削減しながら、より大規模なモデルの知識容量を提供すると主張しています。

Nvidia は、Nemotron 3 Nano Omni は、同等のオープン オムニ モデルよりも最大 9 倍高いスループットを達成すると述べました。ビデオ推論タスクの場合、256K トークンのコンテキスト ウィンドウを利用して、約 3 倍高いスループットと 2.75 分の 1 低いコンピューティング要件を提供します。このモデルは、複雑なドキュメント インテリジェンスとビデオとオーディオの理解に関する 6 つのベンチマークをリードしていると報告されています。

このモデルの著名な採用者には、Foxconn、Palantir、H Company などがあります。 H Company の CEO、Gautier Cloix 氏は次のように述べています。「Nemotron 3 Nano Omni を利用することで、エージェントはフル HD 画面録画を迅速に分析できます。これは以前は不可能でした。」と述べています。

Dell、Oracle、Infosys は現在、このモデルの採用の可能性を評価しています。 Nemotron 3 Nano Omni は、Hugging Face、OpenRouter、Amazon SageMaker JumpStart、Vultr などのプラットフォーム、および 25 を超えるパートナー プラットフォームでアクセスできます。さまざまな環境に展開できるオープン ウェイト、データセット、トレーニング レシピが装備されています。

このモデルは、より集中的な推論タスク向けに設計された Super モデルと Ultra モデルを含む、Nvidia の広範な Nemotron 3 ファミリの一部です。 Nemotron 3 シリーズは、過去 1 年間で 5,000 万ダウンロードを超えました。


注目の画像のクレジット

  人間学者は、クロードには行動に影響を与える状態のような感情があると言う