VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

01 动机

当前基于 LLM 的机器人系统绝大多数依赖预定义的 motion primitives（如 move_to_pose、close_gripper），这构成了系统泛化能力的根本瓶颈——每新增一个技能都需要人工设计与大量数据收集。

"Despite the progress, most still rely on pre-defined motion primitives to carry out the physical interactions with the environment, which remains a major bottleneck."

VoxPoser 提出的核心洞察是：LLM 擅长推理 affordances（目标区域）与 constraints（避障约束），且它的代码生成能力可以直接调用感知 API，在三维体素空间中构建稠密的 value map，将抽象的语言知识锚定在机器人可感知的观测空间中，从而完全绕过手工设计的 primitives。

VoxPoser teaser — paper Figure 1 — 图 1（论文 Figure 1）：VoxPoser 概览。LLM 从自然语言指令中提取 affordances 与 constraints，通过 VLM 将其落地为 3D value map，运动规划器以 value map 为目标函数直接合成机器人轨迹，覆盖"挂毛巾""关抽屉""分类垃圾"等多种日常操作任务，且无需针对特定任务或 LLM 进行额外训练。

88%真实机器人静态场景成功率（5 类任务）

70%动态扰动下真实机器人成功率

13仿真评估任务数（SAPIEN 环境）

2,766仿真评估中唯一指令数量

02 方法

VoxPoser 将语言指令映射为 3D value map，再由运动规划器合成轨迹。整个流程由 LLM 生成 Python 代码驱动，无需任何额外训练。

VoxPoser method pipeline — 方法流程图（来自项目主页）：(a) LLM 生成代码，调用 VLM 获取物体感知信息，组合多种类型的 3D value map；(b) 运动规划器以 value map 为目标函数，通过 greedy search 合成 6-DoF 轨迹，并以 5 Hz 频率闭环重规划。

Language Model Programs（LMP）与 3D Value Map 组合

VoxPoser 定义了多种类型的 value map，每种由一个专用 LMP 负责生成，每个 LMP 接收自然语言子任务描述，输出形状为 (100, 100, 100, k) 的体素 map：

Affordance map（k=1）：目标抓取/接触区域赋高值（如抽屉把手）。
Avoidance map（k=1）：危险区域赋低值（如花瓶周围）；对 avoidance map 施加 Gaussian filter。
End-effector rotation / velocity / gripper action map：分别编码末端姿态、速度和夹爪开合。
Planner LMP：将高层指令 L 分解为子任务序列 ℓ₁:N。
Composer LMP：接收子任务 ℓᵢ，按需调用上述各 map LMP 并传入细粒度语言参数化。

感知链路：LLM 代码调用 OWL-ViT（开放词汇检测）→ Segment Anything（分割）→ XMEM（视频跟踪）→ RGB-D 重建点云。

运动规划与闭环 MPC

规划器将 affordance map 权重设为 2、avoidance map 权重设为 1，对归一化后的加权和取负作为 cost map，用 greedy search 找到无碰撞的末端执行器位置序列 p₁:N ∈ ℝ³；rotation、velocity、gripper map 在各 waypoint 处单独施加约束。6-DoF 轨迹确定后执行第一个 waypoint，随即以 5 Hz 频率基于最新观测重规划，实现对动态扰动的鲁棒性。

接触丰富任务的在线 Dynamics 学习

对于推门、开冰箱等 contact-rich 任务，零样本轨迹作为探索先验，驱动对环境动力学模型（平面推动模型：接触点、推动方向与距离）的高效在线学习，并用 MPC + random shooting 优化动作参数。

VoxPoser detailed pipeline figure — 论文 Figure 2：详细流程示例——给定指令"Open the top drawer, and watch out for that vase"，LLM 生成 Python 代码依次调用感知 API，构建 affordance（抽屉把手区域）与 avoidance（花瓶周围）两类 map，最终由规划器合成规避花瓶同时操作抽屉的轨迹。

VoxPoser emergent capabilities — 论文 Emergent Capabilities 图：系统的三种涌现能力——(左) 行为常识推理（如理解"左撇子"语境）；(中) 基于用户反馈的细粒度语言纠错；(右) 多步视觉程序，适应物体几何信息不足的情况。

03 实验

评估在两个环境下进行：真实 Franka Emika Panda 机器人（双 Azure Kinect RGB-D 摄像头）完成 5 类日常操作任务；SAPIEN 仿真平台上评估 13 个高度随机化的任务，共 2,766 条唯一指令。基线：LLM + Primitives（Code as Policies 变体，使用 GPT-4 参数化预定义 primitives）；U-Net + Motion Planning（有监督学习 2D costmap）。

表 1：真实机器人实验（10 次/任务）

任务	LLM + Prim. 静态	LLM + Prim. 扰动	VoxPoser 静态	VoxPoser 扰动
Move & Avoid	0/10	0/10	9/10	8/10
Set Up Table	7/10	0/10	9/10	7/10
Close Drawer	0/10	0/10	10/10	7/10
Open Bottle	5/10	0/10	7/10	5/10
Sweep Trash	0/10	0/10	9/10	8/10
Total	24.0%	0.0%	88.0%	70.0%

表 2：SAPIEN 仿真泛化（20 次/任务，SI=Seen Instructions, SA=Seen Attributes, UA=Unseen Attributes）

任务类别	U-Net + MP (SI SA)	LLM + Prim. (SI SA)	VoxPoser (SI SA)	VoxPoser (SI UA)
Object Interactions（6 任务）	21.0%	41.0%	64.0%	—
Spatial Composition（7 任务）	53.8%	43.8%	77.5%	—

表 3：接触丰富任务的 Dynamics 学习效率

任务	零样本成功率	加入先验后成功率	学习时间	无先验时间
Door Opening	6.7%	88.3%	142.3 s	> 12 hr
Window Opening	3.3%	80.0%	137.0 s	> 12 hr
Fridge Opening	18.3%	91.7%	71.0 s	> 12 hr

VoxPoser experiment results page — 论文第 7 页：包含真实机器人实验（Table 1）与仿真泛化实验（Table 2）的完整结果，以及错误来源分析（Figure 4）——VoxPoser 显著降低了"specification error"，主要失败来自感知模块（OWL-ViT 对物体初始姿态敏感）。

消融与错误分析

错误分析（Figure 4）显示，VoxPoser 相比基线大幅减少了 specification error（即规划意图与实际执行不符的错误），真实机器人的大多数失败案例归因于感知模块对物体初始姿态的敏感性，而非方法本身的规划能力。仿真中对 seen 与 unseen 指令/属性的表现相近，表明泛化能力来自 LLM 的开放世界知识，而非对特定训练分布的记忆。

04 局限性

Note: 以下限制均为作者在论文"Conclusion, Limitations, & Future Works"一节中明确陈述。

依赖外部感知模块，难以处理精细几何

"It relies on external perception modules, which is limiting in tasks that require holistic visual reasoning or understanding of fine-grained object geometries."——当任务需要整体场景理解或精细物体几何时，基于 bounding box + 点云的感知链路存在明显短板。

Contact-rich 任务仍需通用 Dynamics 模型

"While applicable to efficient dynamics learning, a general-purpose dynamics model is still required to achieve contact-rich tasks with the same level of generalization."——论文中的 dynamics 学习仅针对平面推动模型，要实现与零样本任务同等泛化能力，仍需更通用的物理模型。

仅规划末端执行器轨迹，未考虑全臂规划

"Our motion planner considers only end-effector trajectories while whole-arm planning is also feasible and likely a better design choice."——当前规划器忽略机械臂本体碰撞，全臂规划将是更优但更复杂的选择。

需要手动 Prompt Engineering

"Manual prompt engineering is required for LLMs."——每个 LMP 需要 5–20 条精心设计的示例 query-response 对，在部署到新机器人平台或新任务领域时增加了适配成本。