MIT CSAilの研究者は、大規模な言語モデル(LLM)のマルチステップ計画機能を改善するために設計された命令調整フレームワークであるPDDL-Instructを開発しました。この方法は、論理的なチェーンの推論と外部プランの検証装置を組み合わせて、もっともらしいが誤った出力よりも論理的に有効な計画の生成を増やします。フレームワークは、候補者計画が失敗した理由を認識して説明するためにモデルをトレーニングします。これらの障害には、不満のない前提条件、誤った効果、フレーム違反、または満たされていない目標が含まれます。このプロセスは、LLMが状態およびアクションの移行を段階的に推論するように導く論理的なチェーンプロンプトとペアになっています。これにより、状態→アクション→状態の追跡可能なシーケンスが生成されます。外部検証のために、PDDL-Instructは、生成されたプランの各ステップをチェックするVALプランバリデーターを統合します。バリデーターは、バイナリ(有効/無効)または詳細なフィードバックを提供し、詳細なフィードバックが優れたパフォーマンスをもたらします。システムは、2段階の最適化プロセスを使用します。第1段階は、推論チェーンのエラーをペナルティし、第2段階は最終的な計画の精度を最適化します。このシステムは、BlockSworld、Mystery BlockSworld、LogisticsなどのLLMに挑戦することが知られている計画ドメインを含むPlanbenchベンチマークを使用して評価されました。 BlockSWORLDドメインでは、調整されたLLAMA-3-8Bモデルが有効な計画を生成する94%のレートを達成しました。以前のモデルは、パターンマッチングを防ぐために述語名が難読化されるドメインであるミステリーブロックワールドに対してほぼゼロの妥当性を持っていました。 PDDL-Instructは、このドメインで最大64倍の改善を達成しました。ロジスティクスドメインにも大きなパフォーマンスの向上が記録されました。すべてのテストドメインにわたって、フレームワークは、先読みされたベースラインモデルと比較して、66%の絶対的な改善を提供しました。また、研究者は、フィードバックの予算が長くなり、バリデーターからのより詳細な出力により、パフォーマンスが向上したと述べました。 PDDL-Instructの現在の実装は、古典的なPDDLドメインに適用され、外部オラクルとしてVal Balidatorに依存します。結果は、計画中に検証剤を含めることができるエージェントシステムで使用するための正式なセマンティクスでLLM推論を接地する方法を示しています。長老、時間、数値、およびコストに敏感な計画タスクを処理するためのフレームワークを拡張することは、さらなる作業の領域のままです。

Source: MIT CSAilは、LLM計画のためにPDDL-Instructを発表します

  Microsoftは、Xbox GamePassサービスにUbisoftPlusを追加したいと考えています