AppleはRLCFを使用してLLM命令を改善します

Appleの研究者が共著した最近の研究は、大規模な言語モデル（LLM）が、単純な生産性技術を採用することでパフォーマンスを大幅に向上させることができることを示しています。

この研究では、トレーニング後のLLM品質を洗練させ、通常、人間のフィードバック（RLHF）からの補強学習を通じて達成されます。 RLHFには、モデル応答を評価する人間のラベル付け器が含まれ、肯定的な応答に「親指」と否定的な反応に「親指」を提供します。このフィードバックループは、モデルが肯定的なフィードバックを受け取る可能性が高い出力を生成することを学習し、全体的な有用性を高めるのに役立ちます。

このトレーニング後の段階は、LLMが役立つ安全で安全であることを保証する方法の開発に焦点を当てた「アライメント」のより広い分野に密接に関連しています。不整合されたモデルは、表面的に正しいが最終的には間違った出力を生成することにより、人間のフィードバックを操作することを学ぶかもしれません。

トレーニング前、トレーニング、およびトレーニング後のモデルの信頼性とアラインメントを改善するためのさまざまな方法が存在しますが、この研究はRLHFに集中しています。「チェックリストは言語モデルを調整するための報酬モデルよりも優れている」というタイトルのAppleの調査では、チェックリストベースの強化学習スキームをチェックリストフィードバック（RLCF）から補強学習と呼ばれる補強スキームを紹介します。

RLCFは、チェックリストの各アイテムをどの程度満たすかに基づいて、0〜100のスケールで応答を評価します。最初の結果は有望です。研究者によると、「RLCFを5つの広く研究されたベンチマークで強力な指示モデル（QWEN2.5-7B-instruct）に適用される他のアライメントメソッドと比較します。RLCFは、フォローベンチでの6ポイント増加と3ポイントの増加を含む4ポイント増加を含む、すべてのベンチマークのパフォーマンスを改善する唯一の方法です。言語モデルを改善するための重要なツールとしてのチェックリストフィードバックは、多数のニーズを表現するクエリのサポートをサポートしています。」

これは、AIを搭載したアシスタントに特に関連しており、これはデバイスと対話するユーザーにとって標準インターフェイスになりつつあります。研究者は、「言語モデルはユーザーの指示に従うために有用である必要があります。一般のパブリックは、言語モデルベースのアシスタントを毎日のタスクの完了に統合するため、言語モデルがユーザーの要求に忠実に従うことができるという期待があります。

この調査の重要な側面は、チェックリストを生成し、各アイテムに重要な重みを割り当てるプロセスです。これはLLMを使用して達成されます。以前の研究に基づいて、Appleの研究者は130,000の指示のチェックリストを生成し、WildCheckListsという新しいデータセットを作成しました。「当社の方法の候補応答を生成するには、QWEN2.5-0.5B、QWEN2.5-1.5B、QWEN2.5-3B、およびQWEN2.5-7B。QWEN2.5-72B-Instructはチェックリストジェネレーターモデル（…）を使用します。」

基本的に、各ユーザー命令は、具体的なYES/NO要件のチェックリストで自動的に補足されます（例：「これはスペイン語に翻訳されていますか？」）。より大きな教師モデルは、各チェックリスト項目に対して候補者の応答をスコアリングし、これらの加重スコアが生徒モデルを微調整するために使用される報酬信号になります。

研究者は、メソッドをテストするときにベンチマークの1つで最大8.2％の増加を観察しました。各プロンプトに可能な限り最高のチェックリストを作成するための適切なシステムが整っています。さらに、このソリューションは、他のいくつかのベンチマークで代替方法を上回りました。

研究者たちは、彼らの研究が「複雑な指示に続く」ことに焦点を合わせており、RLCFはすべてのユースケースの最適な強化学習技術ではない可能性があることを強調しています。彼らはまた、その方法がより強力なモデルに依存して、より小さなモデルを評価し、調整することを認めています。これは大きな制限を表しています。重要なことに、彼らは「RLCFは複雑な命令を改善するが、安全性のために設計されていない」と述べています。

これらの制限にもかかわらず、この研究では、人間との相互作用の信頼性を改善するための斬新で簡単なアプローチを提示します。これは、これらのアシスタントがエージェントの機能を獲得するにつれてますます重要になっています。

要約すると、Appleの研究では、タスクに続く複雑な指導のLLMパフォーマンスを大幅に改善するチェックリストベースの強化学習スキームであるRLCFを導入します。 LLMに事前定義されたチェックリストに対して自分の作業をチェックするように指示することにより、RLCFメソッドは、特にマルチステップ命令と多様なユーザーニーズを含むシナリオで、LLM応答の信頼性と精度を高めます。 RLCFは、安全のアライメントのために設計されていませんが、LLMベースのアシスタントの全体的な有用性と信頼性を改善するための貴重なツールを提供します。

Source: AppleはRLCFを使用してLLM命令を改善します

iPhone と iPad で連絡先のブロックを解除する簡単な方法

AppleはRLCFを使用してLLM命令を改善します

Related Stories

AMD、Newegg Q3独占でRyzen 7 7700X3Dを329ドルで発売

Google、米国のサードパーティ Android ストアに Play カタログを公開

Spotify、子供向け無料アカウントを 6 つの主要市場に拡大

OpenAI、230ドルのCodex Microキーボードを発表