DeepSeek が V4 の発売に先立って MODEL1 の識別子を明らかに

中国の AI スタートアップ企業 DeepSeek は、GitHub 上の FlashMLA コードリポジトリに新しいモデル「MODEL1」を公開しました。これは 114 個のファイルにわたって 28 回出現しました。この啓示は、DeepSeek の R1 リリース 1 周年と同時に行われました。 MODEL1 は、内部コード名「V32」である DeepSeek-V3.2 とは異なるアーキテクチャを表します。開発者によるコード分析では、キーと値のキャッシュレイアウト、スパース処理、および FP8 データ形式のデコードに変更があることが示されています。これらの変更は、メモリの最適化と計算効率を目的としたターゲットを絞った再構築を示唆しています。この開示は、DeepSeek の FlashMLA リポジトリを介して行われました。このリポジトリには、Nvidia Hopper GPU 用の同社のマルチヘッドレイテントアテンションデコードカーネルが含まれています。 Reddit の LocalLLaMA コミュニティへの投稿によると、FlashMLA ソースコードの更新により、Nvidia の次期 Blackwell アーキテクチャ (SM100) との互換性を含む MODEL1 のサポートが追加されました。コードの変更は、MODEL1 が統一された 512 標準ディメンションに戻り、「値ベクトル位置認識」と呼ばれる機能と、DeepSeek の「エングラム」条件付きメモリシステムの実装の可能性を組み込んでいることを示しています。 DeepSeek は、2 月 17 日の旧正月に合わせて、2026 年 2 月中旬頃に次世代 V4 モデルをリリースする予定であるとのことです。情報で引用されているように、 ロイター。 DeepSeek 従業員による内部テストでは、V4 がコーディングベンチマーク、特に長いコードプロンプトで Anthropic および OpenAI の競合モデルよりも優れたパフォーマンスを発揮する可能性があることが示唆されています。 V4 モデルには、DeepSeek の Engram アーキテクチャが統合される予定です。これにより、基本的な事実の検索システムを使用して、100 万トークンを超えるコンテキストから効率的に検索できるようになります。 MODEL1 の暴露は、2025 年 1 月の DeepSeek の R1 デビューから 1 年後に行われました。ベンチャーキャピタリストのマーク・アンドリーセン氏が「AI スプートニクの瞬間」と呼んだこの出来事は、NVIDIA の市場価値を 1 日で 5,930 億ドル削減する結果となりました。 ITプロ 報告した。 DeepSeek の R1 モデルのトレーニング費用は 600 万ドル未満であると報告されていますが、数学およびコーディングのベンチマークでは OpenAI の o1 モデルと同等かそれを上回っています。同社はその後、8月にV3.1、12月にV3.2をリリースし、V3.2はOpenAIのGPT-5と同等のパフォーマンスを提供すると説明されている。

注目の画像クレジット

Source: DeepSeek が V4 の発売に先立って MODEL1 の識別子を明らかに

Razer、合計バッテリー寿命が 40 時間の Hammerhead V3 シリーズを発表

DeepSeek が V4 の発売に先立って MODEL1 の識別子を明らかに

Related Stories

メタは、プライバシー LED が改ざんされた場合にカメラを無効にする AI メガネを更新します

サムスン、7月22日にロンドンで開催されるGalaxy Unpackedで新しい折りたたみ式製品を発表

Discord、画像の不具合で数千人のユーザーを誤って禁止したバグを修正

Google、8月12日の夜のイベントで新しいPixelラインナップを発表