AMDは、AMD Instinct™MI300X GPUでゼロから訓練された30億パラメーターを特徴とする完全にオープンソース言語モデルのファミリーであるInstellaを導入しました。このモデルは、既存の完全にオープンなモデルよりも大幅な改善を示し、最先端のオープンウェイトモデルと競争することを目指しています。
AMDはInstella:30億パラメーターのオープンソース言語モデルを紹介します
Instellaは、36個のデコーダー層と32個の注意ヘッドで構成される自己回帰トランスモデルの上に構築されています。このアーキテクチャは、最大4,096トークンのシーケンス長をサポートしており、モデルが広範なテキストコンテキストを処理できるようにします。語彙サイズは約50,000トークンで、Olmoトークン剤によって管理されています。
このトレーニングでは、AMDの本能MI300X GPUを使用して、AMDのハードウェアソフトウェア統合を強調しました。 Instellaは、以前の10億パラメーターAMD OLMOモデルからの努力を拡大し、1.3兆トークンを使用して64 MI250 GPUから128 MI300X GPUと4.15兆トークンに移行します。
AMDのInstellaトレーニングパイプラインは4つの段階で構成され、一般的な自然言語の理解から人間の好みに向けた指導と調整まで、モデルの能力を徐々に強化しました。最初の段階では、DCLMベースラインやドルマ1.7を含む多様なデータセットからの4.065兆トークンのトレーニングを含み、第2段階では、Dolmino-Mix-1124やSmollm-Corpusなどの高品質のデータセットからさらに57.5750億トークンが組み込まれました。
モデルバージョンとトレーニングの詳細
リリースされたInstellaモデルには以下が含まれます。
- Instella-3b-stage1:基本的な自然言語能力のための4.065兆トークンのトレーニング前のステージ1。
- Instella-3b:問題解決機能を強化するために、追加の57575億トークンを備えたトレーニング前のステージ2。
- Instella-3b-sft:指導能力を向上させるために、3つのエポックにわたって802億トークンを使用して、監視付きの微調整(SFT)。
- Instella-3b-instruct:直接優先最適化(DPO)を備えた7億6,000万トークンを使用した人間の好みの調整。
トレーニング方法論では、Flashattention-2、Torchコンパイル、およびBFLOAT16混合精度トレーニングを採用し、効率を高めるためのトレーニングと、ハイブリッドシェルディングと完全にシャードされたデータ並列性とともに、大きなクラスター全体のリソース利用を最適化しました。
パフォーマンスベンチマーク
Instellaモデルは、同様のサイズの既存の完全なオープンモデルを上回ります。最終的な訓練を受けたモデルであるInstella-3Bは、既存のトップパフォーマンスの完全なオープンな事前訓練モデルを平均8.08%リードし、ARCチャレンジ(+8.02%)、ARC Easy(+3.51%)、GSM8K(+48.98%)などのベンチマークの顕著な改善をリードしています。
Instella-3Bモデルは、MMLUやBBHを含むさまざまな標準ベンチマークで優れており、LLAMA-3.2-3BやGemma-2-2Bなどのモデルに対して大幅な競争パフォーマンスを示しています。命令の調整の観点から、Instella-3B-Instructは、次に最高のパフォーマンスを発揮する完全にオープンな命令チューニングモデルと比較して、14.37%の一貫したスコアリードを示しています。
モデルは、Olmes、FastChat MT-Bench、およびAlpacaの標準タスクを使用して評価され、既存の最先端のオープンウェイトモデルと比較して強力なパフォーマンスを示す結果が得られました。命令チューニングされたモデルは、驚くべきスコアを達成し、ギャップを狭め、言語モデルのランドスケープ内で競争力を示しました。
オープンソースの可用性
AMDは、モデルの重み、トレーニング構成、データセット、コードなど、Instellaモデルに関連するすべてのアーティファクトを完全にオープンソーシングし、AIコミュニティ内のコラボレーションとイノベーションを促進しています。リソースは、フェイスモデルカードとGitHubリポジトリを抱き締めることで利用できます。
特集画像クレジット:ティモシーダイクス/アンクラッシュ
Post AMDはInstella:Open-Source AIモデルを発表しました。MetaとGoogleがTechBrieflyに最初に登場したことを示しています。







