シリコンバレーは、複雑なソフトウェアタスクを自律的に処理できるAIエージェントを前進させるための極めて重要なツールとして、Renforceed Learning(RL)環境に大きな賭けをしています。長年にわたり、主要なハイテク企業の幹部は、ユーザーに代わってアプリケーションと対話することにより、生産性に革命をもたらす可能性を宣伝してきました。ただし、OpenaiのChatGPTエージェントやPerplexityの彗星など、現在の消費者向けの例は、マルチステッププロセスを確実に実行する能力に大きな制限を明らかにしています。このギャップは、RL環境が有望な解決策として浮上しており、革新的な技術の急増に拍車をかけています。これらのシミュレートされたトレーニンググラウンドは、実際のソフトウェアの相互作用を模倣し、AIモデルが試行錯誤を通じて学習できるようにします。 RL環境は、AIエージェントが仮想設定でタスクを練習する制御シミュレーションとして機能し、パフォーマンスに基づいて報酬またはペナルティを受け取ります。エージェントが靴下を購入するためにAmazonをナビゲートすることを任されているChromeブラウザを複製するデジタルワークスペースを想像してください。成功には、アイテムを正しく選択し、チェックアウトを完了し、間違った数量を購入したり、メニューに巻き込まれたりするなどのエラーを避けることが含まれます。最近のインタビューで説明した創設者の1人が、これらの環境を構築することは、「非常に退屈なビデオゲームを作成する」ことに似ています。固定入力と出力を提供する静的データセットとは異なり、RL環境は予測不可能なエージェントアクションを予測および処理し、学習をガイドするための一貫したフィードバックを提供する必要があります。この複雑さには、エージェントが予想されるパスから逸脱している場合でも、シミュレーションが有用なままであることを保証するために、堅牢な設計が必要です。そのような環境の需要は、Openai、Google Deepmind、人類学、メタなど、主要なAIラボの間で急上昇しています。 Andreessen HorowitzのゼネラルパートナーであるJennifer Liは、TechCrunchとのインタビューで、「すべての大きなAIラボが社内でRL環境を構築している」と強調しました。しかし、開発の複雑な性質により、これらの組織は、高品質の環境と評価ツールのために、サードパーティベンダーとのパートナーシップを求めるようになりました。この傾向は、投資と起業家精神の波に火をつけ、スタートアップと確立された企業が数十億ドル規模の市場になる可能性のあるシェアを獲得するために競争しています。情報からの報告によると、Anthropicのリーダーシップは、来年に10億ドル以上のRL環境を割り当てることさえ議論し、この技術の戦略的優先事項を強調しています。歴史的な先例は、AI開発におけるRLの基本的な役割を示しています。 2016年、Openaiは、シミュレートされたシナリオでトレーニングエージェント向けの初期のフレームワーク「RLジム」を導入しました。同じ年、Google DeepmindのAlphagoは、GAGE Of GOの世界チャンピオンを破り、シミュレートされた環境内でRLを活用して戦略的な意思決定を習得することで画期的な勝利を達成しました。これらの努力は基礎を築きましたが、今日のアプリケーションは大きな進化を示しています。最新のRL環境は、アルファゴのような特殊な閉じた世界システムとは対照的に、多様なソフトウェアツール全体で汎用タスク用に設計された大規模な変圧器ベースのモデルをターゲットにしています。研究者は現在、より高度な基礎モデルから始めていますが、広く能力のあるエージェントを作成するという野心は、自由な相互作用の信頼性を確保するなど、新しい課題を導入しています。確立されたデータラベルの巨人は、この需要を満たすために積極的にピボットしており、既存のインフラストラクチャとクライアントの関係を活用しています。 CEOのEdwin Chenによると、Openai、Google、Anthropic、MetaなどのAIラボとのコラボレーションから昨年12億ドルの収益を生み出したと伝えられているSurgeは、RL環境の要求の「大幅な増加」を観察しています。これに対応して、同社は彼らの創造に集中するために専用の内部組織を設立しました。この動きは、従来のデータアノテーションから動的シミュレーションへの移行に急増し、フロンティアAIの研究をサポートする実績を活用しています。 100億ドルの価値があるメルコールは、コーディング、ヘルスケア、法律などのセクターに合わせたドメイン固有のRL環境を強調するもう1つの重要なプレーヤーです。このスタートアップは、Openai、Meta、およびAnthropicとのパートナーシップを確保し、CEOのBrendan FoodyはTechCrunchのインタビューで、「RL環境周辺の機会がどれほど大きいかを理解している人はほとんどいない」と強調しました。 Mercorのアプローチには、法的データベースのナビゲートや医療記録の分析など、ニッチな課題に対処する特殊なシミュレーションの作成が含まれ、規制された産業でのAIの採用が潜在的に加速されます。スケールAIは、かつて290億ドルの評価を伴うデータラベル付けの議論の余地のないリーダーであり、最近のset折に直面しています。メタの競合するベンチャーへの140億ドルの投資とスケールの元CEOの密猟により、メタ内の内部競争とともに、GoogleとOpenaiとの契約が失われました。それにもかかわらず、RL環境に拡大することにより、スケールが適応しています。エージェントとRL環境向けのスケールの製品ヘッド、チェタンレーンは、「これは単なるビジネスの性質です [Scale AI] スケールは、迅速に適応する能力を証明しています。私たちは、最初のビジネスユニットである自動運転車の初期にこれを行いました。 ChatGptが出てきたとき、それに適応したAIをスケールします。そして今、もう一度、私たちはエージェントや環境のような新しいフロンティアスペースに適応しています。」このピボットは、自動運転車からチャットボットブームまで、スケールの再発明の歴史を反映しています。 AIコーディングエージェントのRL環境を開始することにより、「すべてのジョブを自動化する」ことは、大規模な企業のボリュームベースのアプローチを優先していることを検討しました。 RLの開発との協力は、この初期の牽引力を拒否しました。スタートアップは、先月「RL環境の抱擁」としてモデル化されたRL環境ハブを立ち上げました。私たちがしていることの一部は、その周りに優れたオープンソースインフラストラクチャを構築しようとすることです。 GPUアクセスを促進することにより、主要な知性を促進することにより、コミュニティ主導の進歩を促進するだけでなく、AIトレーニングのスケーラブルなハードウェアソリューションの増大するニーズを利用するように促します。環境」 – 生成的AIの波をどのように拡大するかに似た支配的な力。資金の流入は、RL環境がエージェントAIの次の飛躍を解き放つことができる楽観主義を反映しており、ツールとシームレスに統合し、Webを閲覧し、エンタープライズワークフローを実行するシステムを可能にします。最近のポッドキャストでのRL環境のスタートアップは、AIの研究の急速な進化を強調しており、ペースを維持し、最近のAIのマイルストーンと補強学習を実現するために、最近のAIモデルと人類のマイルを実現することが実証されています。これらの進歩は、TechCrunchと以前に共有され、RL環境でのスケーラビリティに賭けたため、テスト時間のコンピューティングと組み合わされています。数十億ドルの努力 – これらのシミュレーションは、勢いにもかかわらず、RL環境を誇張することに焦点を当てています「人々は環境を拡大するのがどれほど難しいかを過小評価していると思います。公開されている最高のものでさえ [RL environments] スケーリングは、より多くの環境だけでなく、そのような問題を軽減するために改良を必要とし、シミュレーションが実際のアプリケーションに忠実であり続けることを保証する必要があります。パブリックベンチマークでさえ、広範な微調整を必要とし、プロトタイプと生産対応ツールのギャップを強調します。彼は、「私は環境とエージェントの相互作用について強気であるが、私は具体的に補強学習に弱まっている」と述べた。

Source: Scale AIは、AIエージェントのRL環境に拡大します

  Windows 11は、2023年以降、前面Webカメラを搭載したラップトップでのみ動作します。