Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow

01 动机

前沿视频生成模型已能合成逼真的人类操作场景，但如何将其中蕴含的物理知识转化为机器人可执行的指令，仍是一个开放难题。核心挑战在于：视频描述的是物体状态变化，而机器人需要的是驱动这些变化的执行器动作——两者之间存在巨大的 embodiment gap。

"Generative video modeling has emerged as a compelling tool to zero-shot reason about plausible physical interactions for open-world manipulation. Yet, it remains a challenge to translate such human-led motions into the low-level actions demanded by robotic systems."

现有方法通常试图直接从视频帧预测关节角度，但视频模型对具身细节（手型、关节构型）的模拟往往失真，导致难以直接跟随。Dream2Flow 的洞察是：物体的运动轨迹比执行器动作更稳定、更可迁移——无论使用哪种机器人，"把面包放进碗里"这一动作都要求面包沿相似的 3D 路径运动。

Paper teaser showing the Dream2Flow framework overview — **图 1（论文 Figure 1）：Dream2Flow 总览。** 系统接受任务指令（如 "Open the toaster oven"）和 RGB-D 初始图像，由视频生成模型合成操作视频，再从中提取 3D object flow，最终指导机器人完成推、放、开、盖、扫、回收等多种真实任务。整个过程无需任务专属演示数据。

60真实世界总评估试验次数

80%端到端任务成功率（40/44 成功流）

4支持物体类别：刚性 / 关节 / 可变形 / 颗粒

3测试机器人平台（Franka、Spot、GR1）

02 方法

Dream2Flow 是一条三阶段 pipeline：视频生成 → 3D flow 提取 → 机器人控制。关键设计是以 3D object flow 解耦"物体做了什么"与"执行器如何驱动"，使跨具身迁移成为可能。

Dream2Flow method pipeline diagram — **图 2（论文 Figure 2）：方法概览。** 给定自然语言指令和 RGB-D 观测，视频生成模型生成操作视频帧；视觉基础模型从中提取物体 mask、视频深度和 2D 点轨迹，重建 3D object flow；最终机器人策略跟踪该 3D flow 产生低层控制指令。

Video Generation（视频生成）

以初始 RGB-D 图像和任务指令为条件，调用 image-to-video 生成模型合成任务执行视频帧序列。系统采用 Veo 3 [90] 等开箱即用的视频生成器，无需针对机器人场景微调。

3D Object Flow Extraction（三维流提取）

利用视觉基础模型串联完成三步：① 用初始深度图初始化物体 mask；② 用 SpatialTrackerV2 [80,81] 从视频帧估计每帧的视频深度；③ 用 CoTracker [1] 追踪 2D 点轨迹，结合深度反投影得到以初始帧为参考的 3D 轨迹 P_1:T。该表示从物体掩码内均匀采样 n 个点，以初始深度 D₀ 对第一帧对齐，输出物体中心 3D flow。

Action Inference via 3D Object Flow（动作推断）

根据物体类型和机器人平台，采用两种策略将 3D flow 转为低层指令：
• Trajectory Optimization（轨迹优化）：适用于刚性物体（如 AVDC [2]），以末端执行器位姿序列跟踪重建的 3D 物体轨迹，并加入鼓励匹配 3D flow 同时惩罚碰撞的奖励。
• Reinforcement Learning（强化学习）：适用于可变形、颗粒状等难以直接做轨迹优化的物体（如 RIGVID [56]），以 3D object flow 作为奖励信号训练无演示 RL 策略。

为何选择 3D Object Flow 作为中间表示？

论文指出，3D flow 具备三项关键优势：（1）跨具身可迁移——物体运动与机器人关节空间解耦；（2）适配多种物体类型——刚性、关节式、可变形、颗粒状均适用；（3）无需任务演示——直接从视频生成模型的输出中提取，零样本使用预训练能力。

"By separating the state changes from the actuators that realize those changes, Dream2Flow overcomes the embodiment gap and enables zero-shot guidance from pre-trained video models."

03 实验

实验在仿真（Push-T 任务）和真实世界（60 次试验，含推、放、开、盖、扫、回收六类任务）中评估 Dream2Flow，测试对象涵盖 Franka Panda、Boston Dynamics Spot、Fourier GR1 三种机器人。

真实世界任务成功率（Table I，论文）

以下为真实机器人 60 次试验的各阶段通过率：

阶段	尝试次数	成功次数	成功率
Video Generation（视频生成）	60	48	80%
Flow Extraction（流提取）	48	44	92%
Robot Execution（机器人执行）	44	40	91%

Robustness evaluation and qualitative task results — **图 3（论文 Figure 3 + 4）：任务初始状态与鲁棒性评估。** 左侧展示 Push-T、Put Bread in Bowl、Open Oven、Cover Bowl、Open Door 五类任务的初始与目标状态；右侧为鲁棒性柱状图：在相机视角（Camera Obl.）、物体实例（Object Instances）、背景（Backgrounds）和视角（Viewing Angles）的变化下，Dream2Flow 与参考设置相比下降不超过 20%，表现稳定。

仿真对比（Push-T，Table III）

在 Push-T 任务上，Dream2Flow 使用 Veo 3 视频生成器（Veo 3 [90]），与 Wan2.1 [99] 和 Kling 2.1 等视频模型对比：

视频模型	Push-T 成功率	Open Oven 成功率
Wan2.1 [99]	32/100	2/10
Kling 2.1	10/100	4/10
Veo 3 [90]	82/100	8/10

Results tables: real-world manipulation and cross-embodiment RL reward comparison — **图 4（论文 Table I + II）：真实操控与跨具身 RL 奖励对比。** 左表显示真实机器人各类任务（Bread in Bowl、Open Oven、Cover Bowl）中 Dream2Flow 相对 AVDC [2] 和 RIGVID [56] 的成功率提升；右表（Table II）对比不同奖励类型（Franka / Spot / GR1）下 Object State（环境状态）奖励与 3D Object Flow 奖励的最终策略性能，后者在 Franka 和 Spot 平台达到 100/100。

失效分析与消融

Failure breakdown and dynamics model ablation — **图 5（论文 Figure 7 + Table IV）：失效分析与粒子动力学模型消融。** 上图（Figure 7）将 60 次真实试验失效分解为：Object Morphing（物体形态突变，6 次）、Hallucination（幻觉，6 次）、Flow Extraction（流提取失败，4 次）、Robot Execution（机器人执行失败，4 次）。下表（Table IV）对比粒子动力学模型类型（Flow / Heuristic / Particle），结果显示 Particle 模型成功率最高（82/100），大幅领先 Heuristic（17/100）和 Flow（12/100），说明精准的粒子运动建模对颗粒类任务至关重要。

论文还测试了 Dream2Flow 在同一场景多任务（multi-task in the same scene）中的表现（Figure 5）：给定相同的环境布局，仅更换语言指令，系统即可切换目标物体完成不同操作，验证了框架的通用性。

04 局限性

Note: 以下局限性部分来自论文 Section V（Conclusion）明确陈述，部分为从方法设计中推断（标注 inferred）。

视频生成质量瓶颈

论文指出，视频生成失败（object morphing 和 hallucination）占所有失效的 50%（12/24 次）。当视频模型生成形态不一致的物体（如形状骤变）或幻觉内容（如物理上不可能的运动），下游的 flow 提取和机器人执行均无法正常工作。系统性能严重依赖所使用视频生成器的质量，且不同模型差异显著（Push-T 成功率从 Kling 的 10% 到 Veo 3 的 82%）。

遮挡与跟踪失败

3D flow 提取依赖 CoTracker 和 SpatialTrackerV2 等视觉跟踪工具，当物体被严重遮挡或离开相机视野（论文提及"相机旋转导致点超出视野"）时，点轨迹丢失，导致 flow 提取失败（60 次试验中有 4 次）。此外，Cover Bowl 任务中物体常处于遮挡状态，使执行变得困难。

刚性假设与物体类型限制（inferred）

轨迹优化路径（AVDC-based）假设所跟踪物体为刚体，通过 6D 位姿变换描述运动。对于高度可变形物体（如布料）或拓扑结构复杂的颗粒状物体（如意大利面），系统切换至 RL 路径，但 RL 训练需在仿真器中进行，存在 sim-to-real gap。

依赖 RGB-D 输入与外部模型（inferred）

系统初始化需要深度信息（D 通道），限制了在纯 RGB 场景中的部署。此外，整条 pipeline 串联了多个外部预训练模型（视频生成器、CoTracker、SpatialTrackerV2），任一模型更新或不可用均可能影响系统稳定性，推理延迟也因此较高。