言語モデリングが AI テクノロジでますます多くのスペースを占めるようになる一方で、貴重な読者にチンチラ AI とは何か、およびその使用方法を説明することが私たちの義務であると考えています。
DeepMind の研究者は、チンチラ モデルを作成しました。このモデルは、700 億のパラメーターと Gopher の 4 倍のデータを持ちますが、計算予算は同じです。 Chinchilla のパフォーマンスは、改善の大きさだけでなく、SOTA パフォーマンスを実証した過去 2 年間に作成された他のどの主要言語モデルよりも小さいという点でも注目に値します。

Chinchilla は、さまざまなダウンストリーム評価タスク (530B) で、Gopher (280B)、GPT-3 (175B)、Jurassic-1 (178B)、Megatron-Turing NLG を一貫して大幅に上回っています。 推論と微調整に使用するコンピューティングが大幅に少なくなるため、ダウンストリームでの使用が大幅に増加します。 チンチラAIって何? この記事で調べてみましょう。
チンチラAIとは?
チンチラAIの使い方を学ぶ前に、チンチラAIとは何かを理解することから始めましょう。 最近の言語モデリングの課題は、学習トークンの数 (トレーニング全体で約 3,000 億) を増やすことなく、モデルの複雑さを増す傾向にありました。 現時点で最大のトランスフォーマー モデルは Megatron-Turing NLG で、OpenAI の GPT-3 の 3 倍以上の大きさです。 DeepMind は、チンチラと呼ばれるまったく新しい言語モデルを発表しました。

Megatron-Turing NLG (530B パラメーター)、Jurassic-1 (178B パラメーター)、GPT-3 (175B パラメーター)、Gopher (280B パラメーター)、および GPT- 3: わずか 700 億のパラメーターと Gopher の 4 倍のデータで、MMLU ベンチマークで 67.5% の平均精度を達成し、Gopher より 7% 向上しています。
チンチラ AI の使い方
チンチラ AI とは何かを説明したので、チンチラ AI の使用方法に関する質問にお答えしますが、悪いニュースがあります。 残念ながら、現在一般の方はアクセスできません。 チンチラ AI は、今後数か月以内に最終的にアクセス可能になり、その時点でチャットボット、仮想アシスタント、予測モデル、およびその他の AI アプリケーションを開発するために使用できます。
Chinchilla は、MMLU ベンチマークで 67.5% という最先端の平均精度を達成し、Gopher を 7% 上回っています。 大きな言語モデルのトレーニングにおける一般的な戦略は、トレーニング トークンの供給を増やすことなくモデルを構築することです。 最大の高密度トランスである MT-NLG 530B は、GPT-3 の 1700 億の特性の 3 倍以上の大きさになりました。
チンチラ AI は、言語モデリングの支配的な力になるだろう
チンチラ AI とは何か、その使い方についての質問に答えたところで、AI テクノロジ全般について話しましょう。
トレーニング トークンの数を増やさずにモデルを成長させることは、大規模な言語モデルのトレーニングで一般的なアプローチです。 GPT-3 の 1700 億の特性と比較して、最大の高密度トランスである MT-NLG 530B は 3 倍以上の大きさになりました。

DeepMind の Chinchilla を含む、現在使用されている大規模なモデルの大部分は、すべて 3,000 億を超えるトークンに対してトレーニングされています。 ますます大規模なモデルを訓練するための競争は、研究者によると、同じコンピューティング予算で達成できるものと比較した場合、大幅に劣るモデルを生み出しています。 これらのメガモデルをトレーニングしたいという願望は、エンジニアリングを大幅に進歩させましたが、これは真実です.
計算予算を超えるチンチラ AI の機能
AI テクノロジの制限要因は通常、計算予算であり、これは独立しており、事前にわかっています。 企業がより優れたハードウェアに費やすことができる金額によって、最終的にモデルのサイズとトレーニング トークンの数が決まります。 この問題を解決するためのチンチラ AI 機能:
- 固定モデル サイズ: DeepMind プログラマーは、固定モデル サイズ (70M-16B) のファミリを作成し、モデルごとにトレーニング トークンの数を調整しました (4 つのバリエーション)。 次に、各コンピューティング バジェットの最適な組み合わせが特定されました。 この方法によると、Gopher と同じ量の計算能力でトレーニングされたモデルは、1.5T トークンと 67B パラメータを持つことになります。
- isoFLOP の曲線: DeepMind のエンジニアは、モデル サイズと固定計算予算を実験しました。 この方法により、630 億のパラメーターと 1.4 兆のトークンを備えたコンピューティングに最適なモデルが生成され、Gopher と同じ量のコンピューティングでトレーニングされます。
- パラメトリック損失関数の作成: DeepMind のエンジニアは、方法 1 と 2 からの調査結果を使用して、モデル サイズとトークン数のパラメトリック関数として損失をモデル化しました。この方法を使用してトレーニングされた計算最適化モデルには、40B のパラメーターと、Gopher と同じ計算量が含まれます。
興味のある方は、DeepMind が発行した論文から、このテーマに対する DeepMind のアプローチを調べることができます。
チンチラAIとは何か、そしてそれを最大限に活用する方法についての質問に答えた記事の終わりに近づいています. 言語モデリング技術は、2022 年に最も顕著な AI サブカテゴリになることができましたが、2023 年には何が待ち構えているのでしょうか。
Source: チンチラAIとは?








