Learning to Act from Actionless Videos through Dense Correspondences

01 动机 Motivation

机器人策略训练面临两大核心困难：其一，收集带动作标注的演示数据成本极高，且高度依赖特定平台；其二，仿真与真实环境的 sim-to-real gap 使得策略难以直接部署。互联网上已存在海量 RGB 视频，如果能直接从这些无动作标签的视频中学习策略，将大幅降低数据采集门槛并提升泛化能力。

"We present a method for training a robot policy capable of reliably executing diverse tasks across different robots and environments from RGB video demonstrations without any action annotation."

AVDC 多任务执行示例 — 图 1：AVDC 的多任务执行演示。系统仅凭合成视频（无动作标签）即可控制机器人完成 Assembly（装配）、Find toaster（寻找烤面包机）、Put the peach into the bowl（抓放桃子）等多种操控与导航任务，跨越不同机器人与环境。

165Meta-World 训练视频数（11 任务）

240iTHOR 训练视频数（12 类目标）

4训练所用 GPU 数量，1 天完成

10DDIM 推理步数（替代标准 100 步）

先前方法的局限性主要体现在两方面：
（1）基于逆动力学模型的方法（如 UniPi）需要知道精确步数，且通常以模态方式预测动作，训练开销大（需超过 256 TPU-pods）；
（2）行为克隆（BC）类方法依赖专家动作标注，无法直接利用互联网视频资源。
AVDC 的核心洞见是：图像本身即可同时编码状态与动作信息——相邻帧之间的稠密光流对应关系天然蕴含了物体运动轨迹，可以以闭合形式解算 SE(3) 变换，无需学习任何额外动作预测器。

02 方法 Method

AVDC 将策略执行解耦为三个阶段：（a）条件视频生成——用扩散模型合成从当前状态到目标的想象执行视频；（b）稠密光流估计——计算相邻帧的稠密对应关系；（c）动作回归——结合深度信息，以闭合形式将光流对应关系转化为 SE(3) 刚体变换，指导机器人执行。

AVDC 总体框架 — 图 2：AVDC 整体框架概览。输入为 RGBD 观测和文本目标描述；扩散模型生成未来帧序列；光流模块估计稠密对应关系；最终结合深度图计算 SE(3) 变换并驱动机器人执行，同时循环替换（replanning）以处理执行误差。

条件视频生成（Conditioned Video Generation）

本文使用以 U-Net（基于 Ho et al. 2019）为骨干的条件扩散模型，输入当前帧 f₀ 和文本目标描述，预测未来 F 帧序列。为提升时间一致性，在空间注意力中引入factorized spatial-temporal convolution（参考 Ho et al. 2022），使每帧在自身空间范围内同时与时间维度交互。推理时采用 DDIM 加速，仅需 10 步即可生成高保真视频（标准需 100 步）。

图 3：（左）以 U-Net 为基础的视频扩散模型网络架构，集成空间-时间卷积；（右）时空分离卷积（Factorized Spatial-Temporal ConvBlock）结构，两路卷积分别处理空间特征和时间序列特征后加权融合。

光流预测（Flow Prediction）

给定合成视频中相邻帧对 (img_t, img_t+1)，利用 off-the-shelf 光流估计器（如 RAFT）提取稠密对应关系。每个像素的光流向量编码了该点在下一时刻的位移，从而构成从当前帧到下一帧的稠密像素级映射。

动作回归：从光流到 SE(3)（Action Regression from Flows and Depths）

这是 AVDC 的核心创新。给定深度图和稠密光流，可以将每个 3D 点的对应关系 (x_t, x̂_t+1) 提取出来，从而以闭合形式（closed-form）求解刚体变换 T = (R, t) ∈ SE(3)，最小化如下目标：

min_{R∈SO(3), t∈ℝ³} Σ_i ‖R·x_t,i + t − x̂_t+1,i‖²

对于操控任务（manipulation），系统先识别目标对象掩码，再仅在对象区域内计算变换，得到末端执行器的 pick-and-place 轨迹。对于导航任务（navigation），全帧光流被用来估计相机（即机器人底盘）的运动。整个动作推导无需学习任何参数，完全依赖几何约束，因此具有强大的跨平台迁移能力。

Replanning 策略

在执行过程中，机器人每完成一个子目标后，以新的当前观测作为条件重新运行视频生成和动作回归流程（replanning），以应对执行误差或环境变化。实验表明随着 replanning 次数增加，任务成功率单调上升（图 5）。

03 实验 Experiments

在三大基准上验证 AVDC：Meta-World（桌面操控仿真，11 任务，165 视频）、iTHOR（室内导航仿真，12 类目标，240 视频）、Bridge / Franka Panda（真实机器人，zero-shot 迁移）。基线包括行为克隆（BC-Scratch、BC-R3M）、UniPi 及 AVDC 各变体。

Meta-World 操控结果

方法	faucet-close	handle-pull	button-top	bin-picking	Overall
BC-Scratch	1.3%	0.0%	0.0%	0.0%	低
BC-R3M	4.0%	0.0%	0.0%	0.0%	低
UniPi	21.3%	6.7%	14.7%	0.0%	—
AVDC (Flow)	—	—	—	—	中
AVDC (Full)	—	—	—	—	最优

Meta-World 结果与 replanning 分析 — 图 5（上）：Meta-World 11 任务的平均成功率（每任务 3 个摄像机视角各 25 次试验）。AVDC (Full) 大幅超越所有基线，包括 BC-Scratch、BC-R3M 和 UniPi。（下）replanning 次数对任务成功率的影响——随次数增加，成功率单调提升，验证了闭环重规划策略的有效性。

iTHOR 导航结果

在 iTHOR 室内导航基准上，AVDC 在 12 类目标物体上均表现出合理的导航成功率。系统以当前 RGBD 帧和目标对象名称为输入，在合成视频中追踪全帧光流以估算摄像机运动，并循环执行 replanning 直到到达目标区域。

iTHOR 与 Visual Pusher 定性结果 — 图 7：iTHOR 定性结果（左）：AVDC 可可靠地推断当前观测及子目标的光流，进而执行正确的导航动作。图 8（右）：Visual Pusher 上的定性结果，AVDC 生成的光流准确反映了推动对象所需的末端执行器轨迹。

跨实体迁移：Bridge 数据集 → Franka Panda

在此实验中，AVDC 模型在包含 ~200 段人类手部推物视频的 Bridge 数据集上训练，然后零样本迁移到 Franka Emika Panda 机械臂。由于系统在动作推导上完全依赖几何对应关系而非具体动作标注，因此无需任何域适应即可直接部署。定性实验表明机械臂可以可靠跟随合成视频中的物体运动轨迹（图 9-10）。

消融实验（Ablations）

AVDC (Flow)：仅用光流预测动作，无 replanning——在 faucet-close 等简单任务表现尚可，但在需要精确接触的任务上（如 button-top）明显下降。
AVDC (No Replan)：完整管线但不做 replanning——验证单次规划的上限，成功率明显低于 Full 版。
AVDC (Full)：完整两阶段（生成+重规划）管线，性能最优，在 Meta-World 上大幅超过 BC 和 UniPi 基线。
Replanning 次数分析（图 5 右图）：成功率随次数增加单调上升，在约 10 次后趋于饱和。

04 局限性 Limitations

说明：以下局限性由论文作者在 Discussion 节明确陈述（stated）。

物体遮挡导致光流跟踪失败

当目标对象被机械臂自身或其他物体遮挡时，系统可能丢失对象的光流追踪，进而导致动作计算错误。论文指出："it may lose track of objects when they are occluded by the robot arm."

光流预测中的大物体运动困难

对于位移较大的物体或背景，光流预测精度下降，实际机器人执行时的 3D 变换解算误差会随之增大。论文提到 "the model can struggle in optical flow prediction under rapidly changing lighting conditions or large object movements in object poses."

抓取动作规划依赖外部分割与接触点估计

当前实现中，对象掩码来自外部分割模型，抓取方向依赖预定义规则（top-grasp），尚不支持任意姿态抓取。集成更通用的操控模块（如抓取姿态预测、力传感器）是未来工作方向。论文指出集成 "various manipulation primitives such as grasp prediction modules (Sundermeyer et al., 2021) is important."

视频生成质量限制了动作精度上限

动作推导完全依赖合成视频的质量。若扩散模型生成的视频出现时间不一致或物理不合理的帧，下游光流估计和动作计算的质量也会受损。这是视频预测管线的固有局限，独立于动作回归模块。（inferred from the design）