Nemotron 3 Nano Omni により、エージェントはリアルタイムで「見て、聞く」ことができます

Nvidia は、ビジョン、オーディオ、言語機能を統合アーキテクチャに統合するオープンマルチモーダル AI モデルである Nemotron 3 Nano Omni を発表しました。

このモデルは、断片化されたパイプラインに依存することが多い現在のエンタープライズ AI システムの非効率性に対処することを目的としています。テキスト出力を生成しながら、テキスト、画像、オーディオ、ビデオ、ドキュメント、チャート、グラフィカルインターフェイスなどのさまざまな入力を処理します。

Nemotron 3 Nano Omni は、専門家が混合した 300 億パラメータのハイブリッドアーキテクチャに基づいて構築されており、推論ごとに約 30 億のパラメータを有効にします。 Nvidia は、コンピューティングコストを大幅に削減しながら、より大規模なモデルの知識容量を提供すると主張しています。

Nvidia は、Nemotron 3 Nano Omni は、同等のオープンオムニモデルよりも最大 9 倍高いスループットを達成すると述べました。ビデオ推論タスクの場合、256K トークンのコンテキストウィンドウを利用して、約 3 倍高いスループットと 2.75 分の 1 低いコンピューティング要件を提供します。このモデルは、複雑なドキュメントインテリジェンスとビデオとオーディオの理解に関する 6 つのベンチマークをリードしていると報告されています。

このモデルの著名な採用者には、Foxconn、Palantir、H Company などがあります。 H Company の CEO、Gautier Cloix 氏は次のように述べています。「Nemotron 3 Nano Omni を利用することで、エージェントはフル HD 画面録画を迅速に分析できます。これは以前は不可能でした。」と述べています。

Dell、Oracle、Infosys は現在、このモデルの採用の可能性を評価しています。 Nemotron 3 Nano Omni は、Hugging Face、OpenRouter、Amazon SageMaker JumpStart、Vultr などのプラットフォーム、および 25 を超えるパートナープラットフォームでアクセスできます。さまざまな環境に展開できるオープンウェイト、データセット、トレーニングレシピが装備されています。

このモデルは、より集中的な推論タスク向けに設計された Super モデルと Ultra モデルを含む、Nvidia の広範な Nemotron 3 ファミリの一部です。 Nemotron 3 シリーズは、過去 1 年間で 5,000 万ダウンロードを超えました。

注目の画像のクレジット

MiniMax M2.7 はテストで最高のコーディングベンチマークと一致

Nemotron 3 Nano Omni により、エージェントはリアルタイムで「見て、聞く」ことができます

Related Stories

OpenAI が GPT-5.6 を搭載した ChatGPT Work 生産性向上アプリを発表

OpenAI、Sol、Terra、Luna を搭載した GPT-5.6 を発表

Google、検索、YouTube、Discover の広告に AI 開示ラベルを追加

Anthropic がユーザーによるクロードの使用管理を支援する Reflect ダッシュボードを開始