ICLR 2025 · 机器人 · Robotics

Solving New Tasks by Adapting Internet Video Knowledge

通过适配互联网视频知识解决新任务
Calvin Luo, Zilai Zeng, Yilun Du, Chen Sun  ·  Brown University & Harvard University

互联网预训练的视频生成模型具有强大的语言对齐能力,但缺乏对特定机器人环境的感知;而仅在少量机器人领域数据上训练的视频模型又难以泛化至新任务。 本文研究了多种将预训练视频模型与领域数据相结合的 adaptation 技术,提出了一种名为 Inverse Probabilistic Adaptation 的新方法, 即使只有次优演示数据(suboptimal demonstrations),也能在 MetaWorld 等机器人基准上成功泛化到新行为。

ICLR 2025 arXiv: 2504.15369 cs.LG / cs.AI / cs.RO 📄 arXiv:2504.15369 🌐 Project Page
video model adaptation 机器人操作 inverse probabilistic adaptation policy supervision visual planning text-conditioned generalization diffusion model MetaWorld 预训练视频模型 suboptimal demonstrations

01 动机 · Motivation

视频生成模型在机器人领域展现出两种应用路径:作为 visual planner(视觉规划器)或 policy supervisor(策略监督器)。 然而,互联网预训练视频模型与机器人领域数据之间存在根本矛盾:前者拥有强大的语言对齐能力,却缺乏对特定机器人环境的感知;后者则受限于数据规模,难以支持跨任务的自然语言泛化。

"Video generative models demonstrate great promise in robotics by serving as visual planners or as policy supervisors. When pretrained on internet-scale data, such video models intimately understand alignment with natural language, and can thus facilitate generalization to novel downstream behavior through text-conditioning. However, they may not be sensitive to the specificities of the particular environment the agent inhabits."
两种应用路径:视觉规划 vs 策略监督
视频模型在机器人中的两种应用路径。 左侧(Visual Planning):适配后的视频模型根据文字指令合成执行计划的视频帧,再通过逆动力学模型转化为机器人动作序列。 右侧(Policy Supervision):适配后的模型对机器人执行结果帧进行文字条件评分,作为 reward 信号训练策略网络。 两种路径均依赖 adaptation 技术将通用互联网视频知识迁移至特定机器人环境。
4种 adaptation 技术对比
9MetaWorld 机器人任务
2应用路径(Visual Planning / Policy Supervision)
次优数据下仍稳健泛化

02 方法 · Method

本文系统比较了四种将领域数据融入预训练视频模型的 adaptation 策略,并在此基础上提出 Inverse Probabilistic Adaptation。 所有方法均使用预训练于互联网数据的视频模型(AnimateDiff)为基础,融入少量机器人操作演示数据。

四种 adaptation 技术示意图
四种 adaptation 技术对比。 从左至右:(1) Direct Finetuning — 使用配对视频数据直接微调预训练模型的 motion module; (2) Subject Customization — 仅更新 image/text encoder,使用静态图像-文字对; (3) Probabilistic Adaptation — 冻结大模型,训练一个小的领域内模型并做 score composition; (4) Inverse Probabilistic Adaptation(本文方法)— 翻转分数合成方向,赋予领域模型更高权重,对次优数据表现更稳健。

Direct Finetuning

直接对预训练视频模型的 motion module 进行微调,使用配对的领域内视频数据。这是最直接的迁移方式,能够编码环境特有的动态信息,但需要高质量的配对视频数据,且可能导致灾难性遗忘(catastrophic forgetting),在次优数据下容易崩溃。

Subject Customization

仅修改 image encoder 和 text encoder,无需视频数据,只需少量静态图像-文字对。使用特殊标识符(special identifier token)标记特定机器人环境的外观,对数据要求最低,但在运动规划方面的泛化能力有限。实现上采用 DreamBooth,以 20 张静态图像训练,通过 AnimateDiff 完成定制化。

Probabilistic Adaptation

冻结大规模预训练模型,同时训练一个小型领域内视频模型,通过 score composition(分数合成)将两者结合:
ε_adapted(x, c, t) = ε_large(x, c, t) + γ · (ε_small(x, c, t) − ε_large(x, c, t))
其中 γ 是 guidance scale。此方法无需更新大模型参数,融合了大模型的语言对齐能力和小模型的环境特异性知识。

Inverse Probabilistic Adaptation(本文核心贡献)

翻转 score composition 中大模型与小模型的方向,以领域内小模型为"基础",利用大模型的分数引导其向更具语言对齐性的方向演变:
ε_inverse(x, c, t) = ε_small(x, c, t) + γ · (ε_large(x, c, t) − ε_small(x, c, t))
这一简单的方向翻转使得方法对次优演示数据更具鲁棒性——当领域数据质量低下时,大模型提供的先验知识可以纠偏,从而避免小模型过拟合到次优行为上。

03 实验 · Experiments

实验在 MetaWorld 基准的 9 个机器人操作任务上进行,分别评估两种应用路径:Policy Supervision 和 Visual Planning。 所有方法均以统一配置进行比较(context window size = 8,stride = 4,noise level = 100),基线为 Vanilla AnimateDiff(无 adaptation)。

Policy Supervision 结果

在 Policy Supervision 设置下,适配后的视频模型对机器人执行帧进行 text-conditioned 评分,作为奖励信号训练策略。 结果如下表(成功率,越高越好,所有 9 个任务的平均值及选取任务报告):

方法 Door Close Door Open Window Close Window Open Drawer Close Overall
Vanilla AnimateDiff 100±0.0 31.1±44.0 80.0±15.0 33.3±47.1 34.4±36.2 36.2
Direct Finetuning 100±0.0 0.0±0.0 0.0±0.0 47.8±41.4 95.6±7.7 37.9
Subject Customization 95.6±6.2 0.0±0.0 0.0±0.0 60.0±42.1 100±0.0 28.5
Prob. Adaptation 100±0.0 0.0±0.0 0.0±0.0 99.2±1.9 100±0.0 30.8
Inverse Prob. Adaptation 97.8±3.8 65.6±50.8 98.9±1.9 98.2±2.1 100±0.0 68.5

Visual Planning 结果

在 Visual Planning 设置下,适配后的模型合成执行计划的视频,通过逆动力学模型转化为动作。Inverse Probabilistic Adaptation 同样表现最优,在 9 个任务上取得最高平均成功率,并且在次优演示数据场景下成功率仍保持稳健(优于 Direct Finetuning 大幅下降的表现)。

Visual Planning 成功率对比
Visual Planning 任务平均成功率。 Inverse Probabilistic Adaptation(本文方法)在多数任务设置下显著优于 Vanilla AnimateDiff 基线及其他 adaptation 方法。

次优数据下的鲁棒性(Suboptimal Demonstrations)

额外实验评估了当只有次优演示数据(suboptimal demonstrations,即随机策略采集的)可用时各方法的表现。 Direct Finetuning 的整体成功率大幅下降,而 Inverse Probabilistic Adaptation 仍保持稳健,成功率接近使用最优演示数据的情况。 这说明大模型先验可以有效纠正次优领域数据带来的偏差。

次优数据下的 Visual Planning 成功率
次优演示数据下的 Visual Planning 成功率对比。 Inverse Probabilistic Adaptation 在次优数据场景下相比 Direct Finetuning 具有明显的鲁棒性优势, 而 Direct Finetuning 在次优数据下性能大幅衰退。

Ablation 研究

在策略监督(Policy Supervision)的 continuous control 设置(Dog 和 Humanoid 环境,来自 DeepMind Control Suite)上进行了消融实验,使用 Episode Return 作为评估指标(3 个 seed 取平均):

04 局限性 · Limitations

Note: 以下局限性部分为论文明确陈述(stated),部分为设计层面推断(inferred from design)。
数据规模与泛化范围的权衡(stated)

论文明确指出,in-domain 视频数据规模有限(仅选取少量任务演示),这限制了模型对完全未见任务的泛化能力。 实验范围局限于 MetaWorld(桌面操作)和 DeepMind Control Suite(连续控制)两个仿真环境,尚未在真实机器人硬件上验证。

视频质量评估的局限性(stated)

论文使用 Fréchet Video Distance (FVD) 衡量视频生成质量,但明确指出 FVD 得分与下游机器人任务成功率之间的相关性有限——高 FVD 的视频模型不一定对应高任务成功率,反之亦然。这说明视频生成质量与机器人执行效果之间存在 semantic gap。

Inverse Probabilistic Adaptation 的超参数敏感性(inferred from design)

Inverse Probabilistic Adaptation 依赖 guidance scale γ 来平衡大模型先验与领域小模型,不同任务、不同数据质量下最优 γ 可能存在差异。论文虽展示了默认参数下的稳健性,但未系统探究 γ 的敏感性。

从视频计划到机器人动作的 semantic gap(stated)

在 Visual Planning 路径中,视频帧需要通过逆动力学模型(inverse dynamics model)才能转化为动作。这一附加模块引入了额外的误差来源,且当生成的视频帧过于超出训练分布时,逆动力学模型可能无法有效预测合理的动作序列。论文指出,仅靠视频规划指标(如 FVD)不足以预测任务成功率,需要超越视频生成质量本身的评估。