Appleの研究者は、シンプルな生産性テクニックを採用することにより、オープンソースの大手言語モデル(LLM)の大幅なパフォーマンスの改善を実証する新しい研究を共同執筆しました。Checklistsを使用して独自の作業をチェックするようLLMに指示します。

この研究は、LLM洗練の領域を掘り下げます。これは、通常、人間のフィードバック(RLHF)からの補強学習として知られるトレーニング後のプロセスを伴います。 RLHFは、モデルの応答を評価するために、親指や親指などのフィードバックを提供する人間のラベル付け器に依存しています。このフィードバックは、LLMがどの答えがより望ましいと考えられているかを学ぶのに役立ち、それによって全体的な有用性を高めます。

「アライメント」のより広い分野は、このトレーニング後の段階で重要な役割を果たし、LLMが役立つ安全な方法で行動することを保証することに焦点を当てています。不整合されたモデルは、表面的に正しいように見えるが基礎となるタスクに効果的に対処できない出力を生成することにより、人間のフィードバックを操作することを潜在的に学ぶことができます。

トレーニング前、トレーニング、トレーニング後の段階を通してモデルの信頼性とアラインメントを改善するためのさまざまな方法が存在しますが、この研究はRLHFに特に集中しています。

「チェックリストは言語モデルを調整するための報酬モデルよりも優れています」というタイトルで、Appleの調査では、チェックリストベースの強化学習スキームがチェックリストフィードバック(RLCF)からの強化学習と呼ばれる強化学習スキームを紹介します。このアプローチは、チェックリストの各アイテムをどの程度満たすかに基づいて、0〜100のスケールで応答を評価します。最初の結果は、有望な結果を示しています。

研究者によると、「RLCFを5つの広く研究されたベンチマークで強力な指示モデル(QWEN2.5-7B-instruct)に適用される他のアライメントメソッドと比較します。RLCFは、フォローベンチでの6ポイント増加と3ポイントの増加を含む4ポイント増加を含む、すべてのベンチマークのパフォーマンスを改善する唯一の方法です。言語モデルを改善するための重要なツールとしてのチェックリストフィードバックは、多数のニーズを表現するクエリのサポートをサポートしています。」

この調査結果は、何百万人ものユーザーがデバイスとやり取りする主要なインターフェイスになる準備ができているAIを搭載したアシスタントにとって特に重要性を持っています。研究者は、「言語モデルはユーザーの指示に従う必要があるために有用である必要があります。一般のパブリックが言語モデルベースのアシスタントを毎日のタスクの完了に統合するにつれて、言語モデルがユーザーの要求に忠実に従うことができるという期待があります。

この研究の重要な側面は、チェックリストを生成し、各アイテムに重要な重みを割り当てるために使用される方法にあります。このプロセスはLLMによって促進されます。以前の研究に基づいて、Appleの研究者は「130,000の指示(…)のチェックリスト、新しいデータセット、WildCheckListsを作成しました。私たちの方法の候補応答を生成するには、QWEN2.5-0.5B、QWEN2.5-1.5B、QWEN2.5-3B、およびQWEN2.5-7B。 (…)。」

基本的に、研究者は、特定のYES/NO要件のチェックリストを使用して各ユーザー命令を増強します。たとえば、チェックリストアイテムは「これはスペイン語に翻訳されていますか?」と尋ねるかもしれません。より大きな教師モデルは、各チェックリスト項目に対する候補者の応答をスコアリングし、これらの加重スコアは生徒モデルを微調整するための報酬信号として機能します。

この研究の結果は、各プロンプトの最適化されたチェックリストを作成するための適切なシステムを使用すると、研究者はメソッドのテストに使用されるベンチマークの1つで最大8.2%のゲインを観察したことを示しています。さらに、ソリューションは、他のいくつかのベンチマークで代替方法を上回りました。

研究者は、彼らの研究が「複雑な指導に続く」ことに焦点を合わせており、RLCFはすべてのユースケースに最も適した強化学習技術ではない可能性があることを明確にしています。彼らはまた、彼らの方法がより強力なモデルを利用して、より小さなモデルを評価し、チューニングすることを認めています。これは大きな制限を表しています。最も重要なことは、「RLCFは複雑な命令を改善するが、安全性の向上のために設計されていない」と述べていることです。

これらの制限にもかかわらず、この研究は、人間とLLMベースのアシスタント間の相互作用の信頼性を高めるための斬新で簡単なアプローチを提示します。これは、これらのアシスタントがエージェントの機能をますます獲得するため、特に重要です。

この研究では、特に複雑な指導後のアシスタントのコンテキストで、LLMのパフォーマンスと信頼性を大幅に向上させるために、チェックリストなどの単純な生産性技術の可能性を強調しています。

Source: Appleは、チェックリストを使用してLLMパフォーマンスを改善します

  フラックスリアリズムLoRAはAIアートに新たな絵を描く