ICML 2022 · 具身智能 · LLM Planning

Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

无需训练,直接从大型语言模型中提取可执行的具身行动知识
Wenlong Huang · Pieter Abbeel · Deepak Pathak · Igor Mordatch  |  UC Berkeley · CMU · Google

大型语言模型(LLMs)在预训练阶段积累了丰富的世界知识。本文探究:这些知识能否直接用于将自然语言高层任务(如 "make breakfast")分解为可在仿真家庭环境中执行的动作序列,且无需任何额外训练?研究发现,足够大的 GPT-3 (175B) 和 Codex (12B) 可生成语义上堪比人类的计划,但计划的可执行率仅约 8–18%。通过三项推理时技术(语义动作翻译、自回归轨迹修正、动态示例选取),可执行率提升至约 73–79%,展示了从 LLMs 中萃取可操作知识的可行路径。

arXiv: 2022-01 VirtualHome 环境 GPT-3 175B · Codex 12B 📄 arXiv:2201.07207 Project Page
zero-shot planning large language models embodied agents action grounding semantic translation VirtualHome GPT-3 具身智能 任务规划 in-context learning

01 动机

LLMs 通过海量文本预训练,内化了大量关于人类日常活动的世界知识。然而,先前研究大多将 LLMs 局限于语言生成与理解任务。本文提出核心问题:LLMs 中隐含的行动知识能否在无额外训练的情况下,直接驱动具身智能体执行家庭任务?

"We ask whether we can use such knowledge contained in LLMs not just for linguistic tasks, but to make goal-driven decisions that can be enacted in interactive, embodied environments."

挑战在于双重困境:LLMs 生成的自然语言计划语义上合理,却难以直接映射到环境支持的原子动作(如 [WALK] <bedroom>);而严格约束输出格式又会丢失 LLMs 的世界知识。本文在 VirtualHome 仿真环境中评估,该环境支持 42 种原子动作,覆盖 292 类日常家庭活动。

teaser figure
Figure 1:左侧散点图对比不同模型的可执行率(Executability,x 轴)与语义正确性(Correctness,y 轴)。大型 LLMs(GPT-3 175B、Codex 12B)生成的计划正确性超越人类基准,但可执行率极低(约 8–18%)。经本文方法翻译后(Translated),可执行率大幅提升至约 73–79%,同时正确性小幅下降。右侧展示不同模型对同一任务生成计划的对比样本。
18% → 79%Codex 12B 可执行率提升(Translated vs. Vanilla)
7.79% → 73%GPT-3 175B 可执行率提升
77.86%Vanilla GPT-3 175B 人类评估正确性(超越人类基准 70.05%)
35.23%Translated Codex 12B 同时正确且可执行的比例

02 方法

本文提出一套推理时(inference-time)流程,将 Causal LM(Planning LM,如 GPT-3/Codex)与 Masked LM(Translation LM,如 Sentence-RoBERTa)配合使用,通过三个递进组件将自由文本计划翻译为环境可执行动作,全程不修改任何模型参数。

method overview
Figure 2:方法概览。左:用 Causal LM 进行零样本规划,给定一个示例任务-动作对作为 prompt,让模型自动补全当前任务的动作步骤。中:用 Translation LM(Sentence-RoBERTa)将自由文本步骤通过余弦相似度映射到最近的合法环境动作。右:自回归轨迹修正,每步生成后立即翻译并追加到 prompt,使后续步骤基于合法动作续写。所有模型保持冻结。

组件 1:通过语义翻译解析合法动作(Admissible Action Parsing by Semantic Translation)

VirtualHome 支持 47,522 种合法动作步骤的组合。Planning LM 直接输出的自然语言步骤(如 "microwave the chocolate milk")可能在词汇上与合法动作不匹配。本文预计算所有合法动作的 Sentence-RoBERTa 嵌入,在推理时将模型输出 â 通过余弦相似度映射到最近邻合法动作 aₑ:
C(f(â), f(aₑ)) = f(â)·f(aₑ) / (||f(â)|| · ||f(aₑ)||)

组件 2:自回归轨迹修正(Autoregressive Trajectory Correction)

若对整个计划序列一次性翻译,前步错误会累积到后步。本文改为逐步生成:每步先采样 k 个候选动作短语,为每对(候选短语,合法动作)计算综合打分:
argmax[aₑ] max[â] C(f(â), f(aₑ)) + β·P_θ(â)
其中 β 是平衡语义相似度与语言模型置信度的权重系数。选出最高分的合法动作后追加到 prompt,使后续步骤在合法动作基础上续写。若 50% 以上样本为空或打分低于阈值 ε,则提前终止程序。

组件 3:动态示例选取(Dynamic Example Selection)

固定 prompt 示例不能反映查询任务的具体环境约束。本文复用 Translation LM,从 204 个示例任务中选取与查询任务语义最相似的任务-计划对作为 prompt 示例:
(T*, E*) = argmax C(f(T), f(Q))
例如,查询任务 "Apply lotion" 会自动选取 "Shave" 作为最相似示例,因为两者共享刮胡/涂抹步骤的动作模式。

03 实验

实验在 VirtualHome 环境中的 88 个 held-out 任务、7 个家庭场景上进行,评估两个维度:Executability(可执行率,程序能否正确解析并满足环境前后条件)和 Correctness(正确性,由 10 位 Amazon Mechanical Turk 人类标注员判断动作序列是否完成任务)。还报告 LCS(最长公共子序列)作为代理指标。

results table and analysis
Table 1 & Figure 4(来自论文 p.9):主要结果。Vanilla LLMs(未经翻译)中,GPT-3 175B 正确性达 77.86%,超越人类基准(70.05%),但可执行率仅 7.79%。经三项技术翻译后,Translated Codex 12B 可执行率升至 78.57%,Translated GPT-3 175B 升至 73.05%。同时正确且可执行的比例:Translated Codex 35.23%,Translated GPT-3 27.27%(人类基准 65.91%,仍有较大差距)。
方法ExecutabilityLCSCorrectness(人类评估)
Vanilla GPT-2 117M18.66%3.19%15.81% (±4.90%)
Vanilla GPT-2 1.5B39.40%7.78%29.25% (±5.28%)
Vanilla Codex 12B18.07%16.97%64.87% (±5.41%)
Vanilla GPT-3 175B7.79%17.82%77.86% (±6.42%)
Human100.00%N/A70.05% (±5.44%)
Fine-tuned GPT-3 13B66.07%34.08%64.92% (±5.96%)
Translated Codex 12B(本文)78.57%24.72%54.88% (±5.90%)
Translated GPT-3 175B(本文)73.05%24.09%66.13% (±8.38%)
qualitative results
Figure 3:VirtualHome 中生成程序的可视化执行示例。上排为任务 "Complete Amazon Turk Surveys"(依次执行:走到家庭办公室 → 坐在椅子上 → 开电脑 → 看电脑屏幕);下排为任务 "Get Glass of Milk"(走到厨房 → 开冰箱 → 拿牛奶 → 关冰箱)。说明 LLMs 不仅能生成合理计划,其行动知识也可在具身环境中落地。

消融实验(Ablations)

对三个组件分别做消融(Table 2,论文 p.10):去掉任一组件均导致 Executability 和 LCS 下降。其中"去掉动作翻译"(w/o Action Translation)影响最大——Codex 12B 从 78.57% 降至 31.49%,GPT-3 175B 从 73.05% 降至 36.04%——证明语义翻译是提升可执行性的关键。"去掉轨迹修正"在 GPT-3 上出现 LCS 轻微提升(24.09% → 24.98%)但可执行率大幅下降(73.05% → 40.10%),表明轨迹修正在正确性和可执行性之间存在权衡。Translation LM 对比实验(Table 3)显示:使用预训练 Sentence-BERT 或 Sentence-RoBERTa 性能相近,而仅用 GloVe 均值向量性能显著下降(Executability: 46.92% vs. 78.57%)。

04 局限性

Note: 以下局限性均为论文作者在第 7 节(Conclusion, Limitations & Future Work)明确陈述。
正确性下降(Drop in Correctness)

本文方法可显著提升可执行率,但代价是正确性下降。动作翻译引入两类主要错误:(1)Translation LM 难以将复合指令(如 "brush teeth with toothbrush and toothpaste")准确映射到单一合法动作;(2)程序有时过早终止,因为部分必要动作或物体在 VirtualHome 中根本没有实现,Translation LM 无法找到足够相似的合法动作。这一问题也体现在人类编写程序仅有 70% 被认为完整。

仅到中层粒度的落地(Mid-Level Grounding)

本文聚焦于高层任务到中层动作(如 "grab cup")的落地,假设存在一个低层控制器来执行这些中层动作,不涉及导航路径规划、操作轨迹等低层感知运动行为。要实现低层感知运动落地,仍需领域特定数据和微调。

不感知环境上下文(Ignorant of Environment Context)

模型不接收环境观测或执行反馈,与 VirtualHome 人类标注者通过"想象"写程序的方式相同。因此,计划假设每类物体只有一个实例,无法处理需要区分多个物体的任务(如 "stack two plates on the right side of a cup")。

评估指标的局限性(Evaluation Protocol)

用单一指标衡量开放式任务的计划质量本身就困难——可执行性和正确性存在内在权衡,两者需联合考量。LCS 只是语义正确性的代理指标(由于一个任务往往有多种完成方式,不同人写出的计划 LCS 上限约为 0.489),存在不完美之处。