中国の AI スタートアップ企業 DeepSeek は、GitHub 上の FlashMLA コード リポジトリに新しいモデル「MODEL1」を公開しました。これは 114 個のファイルにわたって 28 回出現しました。この啓示は、DeepSeek の R1 リリース 1 周年と同時に行われました。 MODEL1 は、内部コード名「V32」である DeepSeek-V3.2 とは異なるアーキテクチャを表します。開発者によるコード分析では、キーと値のキャッシュ レイアウト、スパース処理、および FP8 データ形式のデコードに変更があることが示されています。これらの変更は、メモリの最適化と計算効率を目的としたターゲットを絞った再構築を示唆しています。この開示は、DeepSeek の FlashMLA リポジトリを介して行われました。このリポジトリには、Nvidia Hopper GPU 用の同社のマルチヘッド レイテント アテンション デコード カーネルが含まれています。 Reddit の LocalLLaMA コミュニティへの投稿によると、FlashMLA ソース コードの更新により、Nvidia の次期 Blackwell アーキテクチャ (SM100) との互換性を含む MODEL1 のサポートが追加されました。コードの変更は、MODEL1 が統一された 512 標準ディメンションに戻り、「値ベクトル位置認識」と呼ばれる機能と、DeepSeek の「エングラム」条件付きメモリ システムの実装の可能性を組み込んでいることを示しています。 DeepSeek は、2 月 17 日の旧正月に合わせて、2026 年 2 月中旬頃に次世代 V4 モデルをリリースする予定であるとのことです。 情報で引用されているように、 ロイター。 DeepSeek 従業員による内部テストでは、V4 がコーディング ベンチマーク、特に長いコード プロンプトで Anthropic および OpenAI の競合モデルよりも優れたパフォーマンスを発揮する可能性があることが示唆されています。 V4 モデルには、DeepSeek の Engram アーキテクチャが統合される予定です。これにより、基本的な事実の検索システムを使用して、100 万トークンを超えるコンテキストから効率的に検索できるようになります。 MODEL1 の暴露は、2025 年 1 月の DeepSeek の R1 デビューから 1 年後に行われました。ベンチャーキャピタリストのマーク・アンドリーセン氏が「AI スプートニクの瞬間」と呼んだこの出来事は、NVIDIA の市場価値を 1 日で 5,930 億ドル削減する結果となりました。 ITプロ 報告した。 DeepSeek の R1 モデルのトレーニング費用は 600 万ドル未満であると報告されていますが、数学およびコーディングのベンチマークでは OpenAI の o1 モデルと同等かそれを上回っています。同社はその後、8月にV3.1、12月にV3.2をリリースし、V3.2はOpenAIのGPT-5と同等のパフォーマンスを提供すると説明されている。
注目の画像クレジット




