Deepseekの画期的な大規模な言語モデルであるR1は、非常に低い予算で業界の巨人と競争する能力にAIコミュニティに長い間興味をそそられてきました。ジャーナルに新しく公開された論文 自然 DeepSeek AIチームは、詳細に光を当てます。512NVIDIAH800チップを使用して、モデルはわずか294,000ドルでトレーニングされました。この啓示は、Openaiのような競合他社のハイステークス支出に挑戦する費用対効果の高いアプローチを強調し、Deepseekが試行錯誤ベースの強化学習を革新的に使用して印象的な結果を達成することを強調しています。コアイノベーションは、高価な人間が発表したデータとデモンストレーションへの従来の依存をバイパスすることにあります。これは、複雑な推論タスクのために労働集約的であり、スケールが不十分です。代わりに、DeepSeekは、報酬ペナルティシステムを模倣する強化学習技術を採用しました。カーネギー・メロン大学のダフネ・イポリト教授と博士課程の学生イミング・チャン教授が添付の記事で説明したように、この方法はビデオゲームを通してアバターを学ぶ子供に似ています。 DeepSeek-R1は、質問に正しく答えたときにハイスコアを授与され、間違った答えを出したときに低いスコアを授与されました。」この強化戦略は、数学やプログラミングの問題など、検証可能な正解を備えたタスクに特に効果的であることが証明されました。モデルが精度の向上の段階的な説明を生成するように促した以前の方法とは異なり、DeepSeekはスコアを出力に直接割り当て、モデルが正しい結果を独立して達成するまで繰り返すように促しました。結果?人間が誘導する推論を必要とせずに精度を向上させ、その控えめなリソースにもかかわらず、DeepSeekが競争力を維持できるようにしました。ただし、アプローチには制限がないわけではありません。多くの場合、出力はより正確ですが、モデルの内部推論プロセスは人間の観察者に対する透明度が低くなります。たとえば、その思考プロセスを説明するよう促された場合、DeepSeek-R1は時々、10,000語を超える長い応答を生成し、英語と中国語の間で予測不可能に切り替えました。このテクニックは、バイナリの正しいまたは丸いシナリオで優れていますが、明確なスコアリングメトリックが存在しない微妙なクエリまたは主観的なクエリと揺れ動きます。 Deepseekの成果は、中国政府との関係に関するより広範な精査の中で、その技術の潜在的な偏見について疑問を提起しています。によって報告された最近のデモ ワシントンポスト 行動に関して明らかにされた:モデルは、中国当局によって敏感であると見なされるグループとの関与が示された場合、重要なセキュリティの脆弱性を持つコードを生成することを拒否しました。逆に、チベット、台湾、法輪功宗教運動、またはイスラム国家に関連するトピックの安全性の低いコードを作成し、世界の展開に影響を与える可能性のある地政学的な影響を埋め込んでいます。この論文は、Deepseekの効率的なトレーニングパラダイムを分裂させるだけでなく、AI開発の将来に関する議論を引き起こします。補強学習を活用することにより、DeepSeekのような小規模なプレーヤーは、リソースが多い現職者に対して競技場を平準化する可能性があります。しかし、国家の過敏症の注入は、AIイノベーションにおける透明性と倫理的監視の必要性を強調している警告メモとして機能します。業界が進化するにつれて、そのような啓示は、根本的なリスクに対処していれば、世界中のコストを節約する方法論を刺激する可能性があります。

Source: Deepseek Trains R1モデルは512 NVIDIA H800チップを使用して294,000ドル

  自宅でWiFi信号を改善する方法は?