2025年9月12日、ソフトウェアエンジニアのAmer SとGoogle Researchの研究科学者であるRyan McKennaはVaultgemmaを発表し、プライバシー(DP)でゼロから訓練された最も有能な言語モデルとしてマークしました。この開発は、人工知能が日常生活にますます浸透し、プライバシー中心の設計に対する緊急の要求を高めるため、極めて重要な時期に来ます。差別的なプライバシーは、モデルが機密データを記憶するのを防ぐために、キャリブレーションされたノイズをトレーニングプロセスに組み込むことにより、これらの懸念に対処します。ただし、大規模な言語モデル(LLMS)にDPを実装することは、トレーニングの安定性の混乱、より大きなバッチサイズの必要性、計算コストのエスカレートなど、大きな課題をもたらします。これらのトレードオフは、AIのパフォーマンスを支配する従来のスケーリング法を変更し、効果的なプライベートAI開発のためのダイナミクスを理解することが不可欠です。この発表は、Google DeepMindとのパートナーシップで実施された「差別的にプライベートな言語モデルの拡大法」というタイトルの共同研究努力を強調しています。この研究では、計算リソース、プライバシー保証、モデルのユーティリティ間の複雑なトレードオフをモデル化する正確な方程式を確立します。プライバシー誘発ノイズをバッチサイズと比較する重要なメトリックであるノイズバッチ比に焦点を当てることにより、研究はこれらの要因の複雑な相互作用を簡素化します。中心的な洞察は、DPトレーニングでのモデルパフォーマンスがこの比率によって主に決定され、研究者が計算、プライバシー、およびデータ予算の制約を考慮してトレーニング損失を最小限に抑えるための最適な構成を予測できることです。これらのスケーリング法則を支える実験は、さまざまなモデルサイズとノイズバッチ比に及び、比率の中心的な役割を確認しました。結果として得られるフレームワークは、モデルサイズ、トレーニングの数の反復数、およびノイズバッチ比の関数としての損失をモデル化し、開業医に合理化されたツールを提供します。このアプローチは、決定論的な関係と経験的データを活用することにより、可能なすべての組み合わせをテストすることの指数関数的な複雑さを克服します。たとえば、法律では、固定計算予算、プライバシーレベル(Epsilon、εで測定)、およびデータボリュームに最適なセットアップを決定するなどのクエリを有効にして、最低の損失を達成します。研究からの傑出した発見は、予算間の相乗的な関係です。プライバシー予算だけを増やすと、コンピューティング(フローティングポイント操作、またはフロップで測定)またはデータ(トークン)の拡張を伴わない限り、ノイズバッチ比のリターンが減少します。この研究からの視覚化は、最適な構成がどのように変化するかを示しています。プライバシーの制約が厳しいため、リソースはより大きなモデルよりも大きなバッチサイズを支持する可能性がありますが、データ制限シナリオではより多くの反復が望ましい場合があります。特に、分析はセットアップの柔軟性を明らかにしています。さまざまなモデルサイズは、チューニングされたバッチサイズと反復とペアリングすると、同等のユーティリティを提供できます。実用的なガイダンスは明確に現れます。DPトレーニングでは、開業医は非DPベースラインと比較して、かなり大きなバッチサイズの小さなモデルを選択する必要があります。これは、ノイズ効果に対抗するために大きなバッチを強調するDPの専門知識と一致します。ただし、構成はプライバシーとデータの予算によって異なり、賢明なリソース割り当ての必要性を強調しています。これらの洞察は、完全な論文で詳述されており、開発者にプライバシーとパフォーマンスを効率的にバランスさせるように装備しています。このフレームワークを活用して、チームはGemma 2に基づいた1億パラメーターモデルであるVaultgemmaを構築しました。スケーリング法は、バッチサイズ、反復、およびシーケンスの長さにわたって計算要件と割り当てを導き、ユーティリティを最大化しました。重要なアルゴリズムの革新は、確率勾配降下(DP-SGD)における最適なDP保証に不可欠なポアソンサンプリングに対処しました。最初の均一なバッチは、ポアソンサンプリングに置き換えられ、ノイズを最小限に抑えながら、堅牢なプライバシーを確保しました。これにより、スケーラブルなDP-SGDを介して解決された、可変バッチサイズやランダム化データ順序などの課題が導入されました。この方法により、パディングやトリミングによる固定サイズのバッチが可能になり、効率を損なうことなくプライバシーを維持できます。 Vaultgemmaは、DPで完全に事前に訓練された最大のオープンソースLLMとして立っており、その重量は包括的な技術レポートを添えて、顔とKaggleを抱きしめています。スケーリング法の検証は非常に正確であることが判明しました。モデルの最終トレーニング損失は、予測と密接に一致し、将来の私的AIの努力に対するフレームワークの信頼性を確認しました。パフォーマンス評価は、Vaultgemmaを競争力のある位置に置いています。非プライベートGEMMA 3 1Bモデルおよび古いGPT-2 1.5Bベースラインに匹敵するユーティリティを実現します。これは、現代のDP技術が約5年前の非プライベートモデルの機能を再現し、リソースの用語でプライバシープレミアムを定量化できることを示しています。下流のベンチマークは、これをさらに実証します。Hellaswag、Boolq、Piqa、Socialiqa、Triviaqa、Arc-C、Arc-Eなどのタスクでは、Vaultgemmaは非Privateのカウンターパートと一致し、同様のスケールのGPT-2ベースラインを超えます。これらの結果は、課題が持続しますが、ユーティリティギャップを埋める進捗を強調しています。プライバシー保護は理論的に健全であり、経験的に検証されています。 VaultGemmaは、異種のデータソースからの1,024トークンシーケンスに対して、ε≤2.0およびΔ≤1.1×10°のシーケンスレベルDPを提供し、Gemma 2トレーニング混合物を反映しています。長いドキュメントはシーケンスに分割されますが、より短いドキュメントは詰め込まれており、さまざまなデータでプライバシーのための自然なユニットを提供します。実際には、個人的な事実が単一のシーケンスに表示される場合、モデルの出力は、そのシーケンス上で訓練されていないものと統計的に区別できないままであり、単一シーケンスの影響を効果的に消去します。複数のシーケンスにまたがる事実の場合、学習は可能ですが、ユーザーレベルのDPはユーザーマップのデータシナリオの保護を強化する可能性があります。経験的テストはこれらの保証を強化します。トレーニングドキュメントから50トークンのプレフィックスを使用してモデルを促すと、対応するサフィックスの検出可能な暗記がなく、データ保持の抑制におけるDPの有効性を強調しました。結論として、Vaultgemmaは、AIを設計する強力なプライバシーのビジョンを前進させます。ユーティリティギャップはDPモデルと非DPモデルの間に残っていますが、新しいスケーリング法とトレーニングの革新は、それを橋渡しするための体系的な道を提供します。このリリースにより、コミュニティは、さらなる利益を促進する態勢を整えたDPメカニズムに関する継続的な研究により、安全で責任あるAIを促進することができます。このプロジェクトは、発表に関するピーター・カイロウス、ブレンダン・マクマハン、ダン・ラマージュからのフィードバックを含む、ジェマとグーグルのプライバシーチームからの貢献を認めています。視覚化は、アルゴリズム、インフラストラクチャ、メンテナンスに関するGoogleチームのサポートを受けて、Mark SimborgとKimberly Schwedeによって支援されました。直接貢献者には、ボルヤ・バレ、ザカリー・チャールズ、クリストファー・A・チョケチョ、リン・チュア、プレム・エルベティン、バディー・ガジ、スティーブ・HE、ヤングシボ・フアン、アルマンド・ジュラン、ジョージ・カイシス、プリティッシュ・カマス、ラヴィ・クマール、ラビアウ、ラビアウ、ラビアウ・リウ、ラヴィーリウ、 Mesnard、Andreas Terzis、Tris Warkentin、Da Yu、およびChiyuan Zhang。このイニシアチブは、画期的なモデルをリリースするだけでなく、プライベートAIをスケーリングするための基礎ツールも提供します。組織がGDPRや新興AI倫理基準などのデータプライバシー規制に取り組んでいるため、Vaultgemmaは数学的な厳密さがイノベーションを保護と調和する方法を例示しています。オープン可用性は、グローバルなコラボレーションを招き、プライバシーが最重要であるヘルスケア、財務、パーソナライズされたサービスなどのセクターでの採用を潜在的に加速します。スケーリング法を深く掘り下げて、この研究では、プライバシーノイズの圧倒的な自然サンプリングの差異により、ノイズバッチ比が支配的であると想定しています。この単純化は、実験全体にわたって保持され、高い忠実度で損失予測を可能にします。たとえば、固定された10^18のフロップが予算を計算し、ε= 2プライバシーレベルでは、最適なセットアップには、4Kバッチサイズと1mの反復を備えた500mパラメーターモデルが含まれ、約2.5の損失が得られます。完全なトレーニングなしのプライバシー会計から派生した相乗分析は、重要なダイナミクスを明らかにしています。わずかな利益をプロットすると、(バッチサイズを介して)倍増するとノイズバッチ比が半分になり、プライバシー予算の四分位数と同等に有用性が向上することが示されています。これは、DPレジームでのコンピューティングのレバレッジを強調しており、ノイズは小さな非効率性を増幅します。 VaultGemmaのトレーニングでは、チームは1Bパラメーターの計算最適性をターゲットにし、約60%をバッチサイズの拡張(非DPの1Kから8Kに)、30%(合計2M)、10%を長いシーケンス(1024トケン)に割り当てました。スケーラブルなDP-SGDを介したポアソンサンプリング統合は、1Tトークンを処理する際に維持されています(ε、δ)。ベンチマークの詳細は、パフォーマンスを明らかにします。 Hellaswagでは、Vaultgemmaは72.1%の精度を獲得し、Gemma 3の72.3%とGPT-2の70.8%をエッジングします。ブールクは、それぞれ78.5%対78.7%と75.2%を見ています。 PIQA:74.2%対74.5%および71.9%。 Socialiqa:68.4%対68.6%および65.1%。 Triviaqa:52.3%対52.5%および48.7%。 ARC-C:45.6%対45.8%および42.1%。 ARC-E:82.1%対82.3%および79.5%。 QA、および推論タスク全体のこれらの近親者は、幅広いアプリケーションに対するDPの実行可能性を確認しています。シーケンスレベルの保証は、パックドキュメントの混合物に適していますが、レポートには高度な会計士を介してユーザーレベルへの拡張があります。経験的テストには、1,000のランダムプレフィックスが含まれていました。ゼロサフィックスは偶然に一致し(p <0.01)、5〜10%のリコールを示す非DPベースラインを対照的にします。より広い意味合いは、エンタープライズAIにまで及びます。 DPを使用すると、VaultGemmaのようなモデルが集中化なしで機密データのフェデレート学習を有効にし、表現力を維持しながら法律に準拠しています。 5年前の非DP技術と一致するユーティリティは、急速な成熟を信号します。予測は、洗練された法律を介して2〜3年以内に現在のベースラインとの平等性を示唆しています。長いコンテキスト学習やマルチモーダル拡張に対するノイズの影響など、課題は残っています。しかし、Vaultgemmaのリリースは民間のAIを民主化し、安全なチャットボット、匿名化分析、倫理研究ツールの革新を促進します。 AIの社会的フットプリントが成長するにつれて、このようなプライバシーファーストモデルは不可欠になります。





