Nvidiaに支援されたスタートアップであるEnfabricaは、AI推論ワークロードを要求するためにサーバーメモリ容量を増強するように設計されたEMFASYSシステムを導入しました。 EMFASYSシステムは、最大18TBの追加DDR5メモリをイーサネットを介してサーバーに提供し、大規模なAIアプリケーションでしばしば遭遇するメモリボトルネックに対処します。

ラック互換のEMFASYSシステムは、3.2 Tb/s(400 Gb/s)のスループットを備えたEnfabricaのACF-S SuperNicを利用しています。このシステムは、DDR5メモリをCXL機能に接続し、4ウェイおよび8ウェイGPUサーバーを標準400Gまたは800gのイーサネットポートを介してメモリプールにアクセスできるようにします。接続は、イーサネットを介したリモートダイレクトメモリアクセス(RDMA)に依存しており、既存のAIサーバーインフラストラクチャとのシームレスな統合を促進します。

GPUサーバーとEMFASYSメモリプールの間のデータ転送はRDMAをレバレッジし、CXL.MEMプロトコルを利用して、CPU介入なしでゼロコピー、低遅延メモリアクセス(マイクロ秒で測定)を可能にします。 EMFASYSメモリプールへのアクセスには、転送の遅延やその他の関連する問題を管理するEnfabricaが提供するメモリ層ソフトウェアが必要です。このソフトウェアは、既存のハードウェア環境とOS環境内で機能するように設計されており、確立されたRDMAインターフェイスに基づいて構築して、主要なアーキテクチャの変更を必要とせずに展開を簡素化します。

EnfabricaのEmfasysは、特に最新のAIアプリケーション、特に長いプロンプト、大きなコンテキストウィンドウ、または複数のエージェントを含むメモリ要求の増加に対処するために特別に調整されています。これらのアプリケーションは、容量が制限されており、高価なGPUに接触したHBMに大きな負担をかけます。外部メモリプールを採用することにより、データセンターのオペレーターは、個々のAIサーバーのメモリ容量を拡大する柔軟性を獲得し、これらの挑戦的なシナリオに適したソリューションになります。

EMFASYSメモリプールを採用することにより、AIサーバーオペレーターは、計算リソースの利用の改善、高価なGPUメモリの浪費の削減、およびインフラストラクチャコストの全体的な削減により、効率を向上させることができます。 Enfabricaは、この構成により、高ターンおよびロングコンテキストシナリオでAIが生成されたトークンあたりのコストを最大50%削減できると主張しています。さらに、トークンの生成タスクは、サーバー全体により均等に分布し、潜在的なボトルネックを軽減できます。

「AIの推論には、メモリ帯域幅のスケーリングの問題とメモリマージンスタッキングの問題があります」とEnfabricaのCEO、Rochan Sankarは述べています。 「推論がよりエージェントと会話、より保持、忘れられないものを得るにつれて、メモリアクセスのスケーリングの現在の方法は保持されません。私たちはEmfasysを構築して、弾力性のあるラックスケールのAIメモリファブリックを作成し、以前に行われていない方法でこれらの課題を解決します。

EMFASYS AIメモリファブリックシステムと3.2 TB/S ACF SuperNicチップは、現在、一部の顧客が評価とテストを受けています。一般的な可用性のタイムラインは不明のままです。

Enfabricaは、Ultra Ethernet Consortium(UEC)のアドバイザリーメンバーであり、Ultra Accelerator Link(Ualink)コンソーシアムに貢献しています。

Source: Nvidiaが支援するEnfabricaは、AIサーバー用のイーサネットを介して18TBを追加します

  Microsoft は ChatGPT を Office プログラムに統合します