- Google Research と Alphabet が所有する Everyday Robots は、彼らが「SayCan」(事前に訓練された能力に実世界の基礎を備えた言語モデル) と呼ぶものを、PaLM (Pathways Language Model) と組み合わせています。
- Google の研究者は、人間からの高レベルの指示に基づいてロボットの「スキル」の 1 つを選択するために、ロボットの計画機能をどのように構成するかを説明し、次に、考えられる各スキルが指示を完了する可能性を分析します。論文「Do As I Can」 、私が言うようではありません。
Google Research と Alphabet が所有する Everyday Robots は、SayCan (事前に訓練されたスキルの実際の基盤を持つ言語モデル) と、その最大の言語モデルである PaLM (Pathways Language Model) を統合しています。 Everyday Robots の研究者は、大規模な言語モデルを利用して、不適切または危険な行動につながる可能性のある人間のコミュニケーションの誤解をロボットが回避できるように支援しています。
この組み合わせは、PaLM-SayCan として知られ、人間とロボットのコミュニケーションを簡素化し、ロボットのタスク パフォーマンスを向上させる方法を示しています。
著名な科学者であり、Google Research のロボティクス責任者である Vincent Vanhoucke 氏は、次のように説明しています。
OpenAI の GPT-3 などの大規模な言語モデルは、人間がどのように言語を使用するかをシミュレートし、GitHub の Copilot のような自動コード補完の提案でプログラマーを支援することができますが、これらはロボットがいつか家庭環境で動作する可能性のある物理的な世界に変換されません.
ロボット工学の面では、現在、工場のロボットは厳密にプログラムされています。 Google の研究は、人間がいつの日か自然言語を使用してロボットに質問をする方法を示しています。この質問では、ロボットは質問のコンテキストを理解し、特定の環境で適切な行動を取る必要があります。
たとえば、「飲み物をこぼしてしまいました。助けていただけますか?」に対する現在の GPT-3 の応答です。 は「掃除機を使ってみてください」です。 それは潜在的に危険な行為です。 Google の会話型または対話ベースの AI である LaMDA が、「掃除機を探しますか?」と応答します。 FLANは、「ごめんなさい、こぼすつもりはありませんでした」と答えます。
Google Research と Everyday Robots のチームは、ロボットを使用してキッチン環境で PALM-SayCan メソッドをテストしました。
彼らの戦略には、人間から高レベルのコマンドを受け取るロボットのコンテキストでPaLMを「グラウンディング」することが含まれており、ロボットはその環境でどのようなアクションが有用で、何ができるかを判断する必要があります。
さて、Google の研究者が「飲み物をこぼしてしまいました。助けていただけますか?」と言うと、 ロボットはスポンジで応答し、空き缶を正しいごみ箱に入れようとします。 追加の訓練には、こぼれた油をきれいにする方法を学ぶことも含まれます。
Vanhoucke は、PaLM-SayCan で言語モデルをグラウンディングする操作について説明します。
「PaLM は言語理解に基づいてタスクへの可能なアプローチを提案し、ロボット モデルは技術的に実現可能なスキル セットに基づいて同じことを行います。 結合されたシステムは、2 つを相互参照して、より効果的で実現可能なロボット戦略を特定します。」
この戦略は、人間とロボットのコミュニケーションを促進するだけでなく、ロボットのパフォーマンスと、タスクを計画および実行する能力を強化します。
Google の研究者は、「Do As I Can, Not As I Say」というタイトルの論文で、人間からの高レベルの指示に基づいてロボットの「スキル」の 1 つを特定し、その可能性を評価するロボットの計画機能をどのように構築するかについて説明しています。指示を満たすために可能な各スキルの。
「実際には、計画をユーザーとロボットの間の対話として構成します。この対話では、ユーザーが高レベルの指示を提供します。たとえば、「コーラの缶をどうやって持ってきてくれますか?」などです。 そして、言語モデルは明示的なシーケンスで応答します。たとえば、「私は次のようにします。1. コーラの缶を見つけます。2. コーラの缶を手に取り、3. 持ってきて、4. 完了します」。
「SayCan は、高レベルの指示が与えられると、言語モデルからの確率 (スキルがその指示に役立つ確率を表す) と値関数からの確率 (そのスキルを正常に実行する確率を表す) を組み合わせて、実行するスキルを選択します。 )。 これは、実行可能で有用な能力を放出します。 選択したスキルをロボットの応答に追加し、出力ステップが終了するまでモデルにクエリを実行してプロセスを繰り返します。」
Source: グーグル、AI言語モデルを使ってホームヘルパーロボットを作る







