机器人操作 · arXiv 2412.15109

Predictive Inverse Dynamics Models are Scalable Learners for Robotic Manipulation

Seer:用视觉预测驱动逆动力学,端到端可扩展的机器人操作学习框架
Yang Tian, Sizhe Yang, Jia Zeng, Ping Wang, Dahua Lin, Hao Dong, Jiangmiao Pang  ·  CUHK · PKU · Shanghai AI Lab

本文提出 PIDM(Predictive Inverse Dynamics Models),其实例 Seer 将视觉预测(conditional visual foresight)与逆动力学预测(inverse dynamics prediction)统一在一个端到端的 Transformer 框架中。在 DROID 数据集上预训练后,Seer 在 LIBERO-LONG 上取得 87.7% 成功率,在 CALVIN ABC-D 上以 4.28 的平均完成任务数刷新 SOTA,真实机器人任务成功率较从零训练提升 43%。

arXiv · December 2024 cs.RO 316M 参数(65M 可训练) 📄 arXiv:2412.15109 💻 GitHub
robotic manipulation inverse dynamics model visual foresight imitation learning pre-training CALVIN benchmark LIBERO benchmark transformer 视觉预测 可扩展学习

01 动机

机器人操作学习面临两条主流路线的天然裂痕:以动作为中心的行为克隆(behavior cloning)能直接产生动作,但难以利用丰富的视觉先验;以视觉为中心的世界模型或表征预训练能捕捉丰富的视觉语义,却与最终动作预测存在鸿沟。如何将两者无缝融合,是本文要回答的核心问题。

"We propose an end-to-end framework called Predictive Inverse Dynamics Models (PIDM), which integrates conditional visual foresight and inverse dynamics prediction to close the vision-action loop."
方法对比示意图
Figure 1:三种范式对比。(左)朴素端到端行为克隆直接从观测预测动作;(中)解耦式方法先单独预测视觉状态再接逆动力学,两个模块无法互相优化;(右)本文提出的 PIDM 将视觉预测与动作预测端到端联合训练,视觉-动作回路完整闭合。
87.7%LIBERO-LONG 成功率
(+9% vs. 最强基线 MPI 77.3%)
4.28CALVIN ABC-D 平均任务完成数
Seer-Large,SOTA
78.4%真实机器人平均成功率
(vs. 从零训练 60.0%)
187%仅用 10% 数据时
相对从零训练的 LIBERO 提升

02 方法

Seer 以一个统一的 Transformer 骨干处理多模态输入(RGB 图像、语言指令、机器人状态),通过两个特殊 token——[FRS][INV]——分别负责视觉预测和动作预测,并以单向注意力掩码让动作生成能同时看到历史帧和未来预测帧,从而实现视觉与动作的协同优化。

Seer 架构图
Figure 2:Seer 完整流水线。三大模块组成:(1)Multi-Modal Encoder——MAE 预训练的 ViT-B 编码 RGB 图像,CLIP 编码语言目标,Perceiver Resampler 压缩视觉 token;(2)Conditional Visual Foresight——[FRS] token 在 24 层 GPT-2 式 Transformer 中预测未来 RGB 图像,损失为像素级 MSE:fore = ‖ffore(g, ht) − ot+n‖²₂;(3)Inverse Dynamics Prediction——[INV] token 通过单向注意力掩码同时访问历史与预测的未来帧,输出手臂动作(Smooth-L1 损失)和夹爪状态(BCE 损失)。总损失 ℒ = αℒfore + ℒinv,α=0.5。

Conditional Visual Foresight

[FRS] token 在语言目标 g 和历史观测序列 ht 的条件下,预测 n 步后的未来 RGB 图像 ot+n。这一模块迫使模型学习场景的物理动态,而非仅记忆动作-观测对应关系。预训练时使用 DROID(76,000 条轨迹)进行大规模视觉动力学学习,历史帧长度为 7–10 帧。

Inverse Dynamics Prediction

[INV] token 通过单向注意力掩码同时"看到"过去帧和 [FRS] 预测的未来帧,从而以视觉语境为桥梁推断中间动作序列。动作预测步长(action horizon)为 3 步。标准 Seer 骨干含 24 层 GPT-2 block,hidden size 384,12 heads,可训练参数 65M;Seer-Large 可训练参数增至 315M。

预训练与微调策略

两阶段训练:首先在 DROID 上以 batch size 640–2048、学习率 1e-4 进行 20–30 epoch 预训练,让模型掌握通用的视觉动力学知识;随后在下游任务(每任务仅 100 条演示)上以学习率 1e-3 进行 20–40 epoch 微调。预训练阶段视觉编码器(ViT-B,251M 参数)保持冻结,仅更新 Transformer 骨干和解码器。

03 实验

在三个评测场景上验证 Seer:(1)模拟仿真——LIBERO-LONG(长时序操作)和 CALVIN ABC-D(跨场景泛化);(2)真实机器人——Franka Research 3,6 个任务(4 个泛化任务 + 2 个精度任务),共 900+ 次试验;(3)数据效率与规模扩展实验。

LIBERO-LONG 基准

方法平均成功率
MTACT41.0%
OpenVLA54.0%
MVP68.2%
MPI77.3%
Seer (scratch)78.7%
Seer(本文)87.7%

CALVIN ABC-D 基准(平均完成任务数)

方法平均任务数 (↑)
Roboflamingo2.47
Susie2.69
GR-13.06
3D Diffusor Actor3.27
CLOVER3.53
Seer (scratch)3.64
Seer(本文)3.98
Seer-Large(本文)4.28

真实机器人任务

方法平均成功率平均得分
OpenVLA16.7%11.0
MPI48.4%29.3
MVP55.0%29.8
Seer (scratch)60.0%32.8
Seer(本文)78.4%39.5
真实机器人实验
Figure 4:真实世界实验设置(Franka Research 3)与四类泛化测试任务:Flip White Bowl(翻转白碗)、Stack Cups(叠杯)、Wipe Board(擦黑板)、Pick Place Close(拾放并关闭)。Seer 在所有任务上均超越基线。

数据效率与鲁棒性

数据效率与规模扩展
Figure 3:(左)数据效率:仅用 10% 下游数据时,Seer 在 LIBERO-LONG 上相对从零训练取得 "187% relative improvement",在 CALVIN 上取得 "150% relative improvement"。(右)规模扩展:随模型参数增大,Seer 性能单调提升,展现良好的 scalability。
鲁棒性测试
Figure 5:四类干扰下的鲁棒性对比。多物体干扰:60% vs. 33.3%;新背景:33.3% vs. 6.67%;新颖物体:60% vs. 46.7%;光照变化:66.7% vs. 46.7%。预训练带来显著鲁棒性提升。

消融实验

在 CALVIN ABC-D 上进行消融,结论如下:单独引入视觉预测微调目标从 3.31 提升至 3.41;同时引入视觉预测与逆动力学两个目标达到 3.64。进一步加入预训练:仅预训练视觉预测目标达 3.73,两个目标均预训练达到最优 3.98。说明视觉预测与逆动力学两个模块在预训练和微调两个阶段均能协同互补,缺一不可。

04 局限性

说明:以下局限性由作者在论文中明确陈述(stated),并非推断(inferred)。
真实世界评测范围有限

论文作者明确指出:"We only evaluate six downstream tasks, lacking a broader assessment of high-precision and contact-rich manipulation scenarios."(仅评测了六个下游任务,缺乏对高精度和接触密集型操作场景的更全面评估。)精细装配、力控操作等任务尚未涵盖。

跨机器人(cross-embodiment)泛化能力未验证

作者明确表示:"Evaluating across different robots is also necessary to test Seer's cross-embodiment capability",但当前所有实验均在 Franka Research 3 上进行,跨机体迁移能力有待探索。

视觉预测的像素级 MSE 损失过于朴素(inferred)

视觉预测目标使用像素均方误差 ℒfore = ‖ffore(g, ht) − ot+n‖²₂,这在预测多步模糊未来时容易产生模糊(blurry)图像,可能限制对细粒度操作状态的预测质量。此条为作者未明确指出、从设计推断的局限性。