Video Language Planning

01 动机

长时序机器人操作需要同时具备：（i）对高层语义任务的抽象推理；（ii）对低层物理动力学的准确建模。大语言模型（LLM）和视觉语言模型（VLM）善于高层推理，但局限于文字表达、难以推理物理约束；text-to-video 模型善于捕捉视觉动力学，但只能生成短时域片段。如何将两者结合以实现数百帧级的长时序视觉规划，是本文核心问题。

"We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data."

VLP teaser figure — overview of the algorithm — **图 1：VLP 总览。** 给定当前图像观测，VLM policy（左上）生成下一步文字动作，video model（右上）将其转换为短时视频帧序列；VLM heuristic（左下）对各视频分支打分，树搜索（中）选出最优分支并递归扩展，最终输出长时视频计划；goal-conditioned policy（右下）逐帧执行动作。

98%仿真 Group-by-Color 视频计划成功率（VLP vs UniPi 4%）

92%仿真 Group-by-Color 任务执行完成率

3支持的机器人硬件平台

~100s计划可延伸至数百帧的长时序视频

02 方法

VLP 以三个模块为核心：（1）VLM as Policy——根据当前图像和语言目标生成候选文字动作；（2）Video Model as Dynamics——将文字动作转化为合成的短时视频帧；（3）VLM as Heuristic Function——预测距离目标完成还需多少步，用于剪枝。三者通过树搜索（beam search + parallel hill climbing）组合，在推理时可用更多计算换取更好的视频计划质量。

VLP long-horizon video plan examples — **图 2：长时视频计划示例。** VLP 仅给定初始图像和语言目标，自主生成语言子目标序列（左侧列表）和对应视频帧序列（右侧图像），涵盖仿真 Language Table 环境（上）和真实桌面（下）两种场景。

VLM as Policy & Heuristic Function

VLP 使用 PaLM-E 作为 VLM。给定图像 x 和语言目标 g，policy π_VLM(x, g) 采样出 A 个候选文字动作 a。heuristic function H_VLM(x, g) 在长轨迹片段上微调，输出"距目标还需几步"的标量估计——取负值作为启发值（越接近目标值越大）。为防止动力学模型被"利用"（exploiting model dynamics），若某视频帧的启发值超过固定阈值则直接丢弃。

Text-to-Video Model as Dynamics

给定当前帧 x 和文字动作 a，视频模型 f_VM(x, a) 合成一段短时视频 x_1:S，预测执行该动作后的视觉结果序列。长时计划通过自回归拼接（递归将最后一帧作为新起点）延伸至数百帧。对多相机双臂平台（ALOHA），各视角视频在 channel 维度拼接后联合生成，保证多视角一致性。

树搜索规划算法（Algorithm 1）

初始化 B 条平行规划 beam。每一步：① π_VLM 为当前帧生成 A 个动作；② f_VM 对每个动作合成 D 个视频分支（共 A×D 个）；③ H_VLM 打分，选最高分视频加入当前 beam；④ 每 5 步，用最高分 beam 替换最低分 beam。最终输出 H_VLM 得分最高的 beam 对应的视频计划。

VLP planning budget ablation and planning tree — **图 3：规划预算 vs. 成功率（左）与 7DoF 移动机械臂规划树（右）。** 左图显示随 beam / branching factor 增大，"make line"任务成功率从 4% 升至 56%；右图展示规划树中 VLP 如何剪枝不合理动作分支（如未打开抽屉直接放置水果），保留正确的动作序列。

Goal-Conditioned Policy 执行视频计划

给定合成视频计划 x_1:H，goal-conditioned policy π_control(x, x_g) 以当前帧 x 和下一目标帧 x_g 为输入，输出低层控制动作 u，每帧执行固定步数。采用 receding horizon control（滚动时域控制）：执行固定步数后，用最新观测重新规划（replanning），以消除累积误差。

03 实验

实验在 Language Table 仿真环境和对应真实机器人（桌面机械臂）、7DoF 移动机械臂、14DoF 双臂 ALOHA 三个平台上进行。评估分两部分：（i）视频计划合成质量（人工判断视频是否完成任务，各方法各生成 50 条）；（ii）实际执行成功率（reward + completion rate）。

视频计划合成质量（Table 1）

方法	Move Area（Sim）	Group Color（Sim）	Make Line（Sim）	Move Area（Real）	Group Color（Real）	Make Line（Real）
UniPi	2%	4%	2%	4%	12%	4%
VLP (No Value Function)	10%	42%	8%	20%	64%	4%
VLP (Ours)	58%	98%	66%	78%	100%	56%

长时序任务执行成功率（Table 2）

方法	Move Area Reward	Move Area Completion	Group Color Reward	Group Color Completion	Make Line Reward	Make Line Completion
UniPi	30.8	0%	44.0	4%	44.0	4%
LAVA	59.8	22%	50.0	2%	33.5	0%
RT-2	18.5	0%	46.0	26%	36.5	2%
PaLM-E	36.5	0%	43.5	2%	26.2	0%
VLP (Ours)	87.3	64%	95.8	92%	65.0	16%

Multiview video plans for dexterous manipulation on ALOHA — **图 4：多视角视频计划（14DoF 双臂 ALOHA）。** VLP 在 4 个相机视角上同步生成视频计划，用于"将桌上所有物品堆叠"任务——包括堆叠碗、杯、餐具等一系列子步骤。VLP 仅给定第一帧图像，自动生成跨视角一致的长时视频。

消融实验

规划预算（Table 3）：增加 beam 数（1→2）、规划时域（1→2）、branching factor（4→16），"make line" 任务完成率从 0% 上升至 16%，reward 从 48.9 升至 65.0。搜索力度越大，执行成功率持续提升。

动作提取方式（Table 4）：对比 inverse dynamics / goal policy (last frame) / goal policy (every frame) 三种从视频提取动作的方式。"goal-conditioned policy on every frame"在 Group-by-Color 任务上获得最高 reward（95.8）和最高完成率（92%），超过只用最后一帧的 85.0/66%，说明密集帧级控制更有效。

Simulation and real execution of VLP — **图 5：仿真（左）与真实机器人（右）执行展示。** VLP 在仿真 Language Table 环境中完成"将所有方块移至左下角"、"按颜色分组"、"排成一横行"三类长时序任务；在真实机器人上同样成功执行相同任务。

泛化能力

当 VLM 和 video model 在大规模 Internet 数据（含 YouTube 视频）上联合预训练后，VLP 能够泛化到：（i）训练集中未见过的新物体（如橡皮圈、纸杯蛋糕、木质六边形）；（ii）不同光照条件下的新环境；（iii）新任务指令（如"Pick snicker energy bar"、"Move moose toy near green pear"）。这种泛化能力来自将视频合成与低层控制解耦——video model 负责视觉动力学泛化，goal-conditioned policy 只需泛化到邻近视觉目标。

04 局限性

说明：以下局限性均为论文作者在 Section 5 "Limitations and Conclusion" 中明确陈述（stated），无推断内容。

图像表征无法捕捉完整三维状态

"Our planning approach leverages images as a world state representation. In many tasks, this is insufficient as it does not capture the full 3D state and cannot encode latent factors such as physics or mass." 论文提出的缓解方向：生成多视角视频，或让 heuristic function 以完整视频为输入。

视频动力学模型存在物理幻觉

"we observed that our video dynamics model does not always simulate dynamics accurately. In several situations, we observed that synthesized videos would make objects spontaneously appear or teleport to new locations."（物体凭空出现或瞬移）论文建议使用更大的 video model、更多训练数据、或引入显式强化学习反馈（如 RLHF for physics）来缓解。

推理计算开销随搜索预算线性增长

VLP 的计划质量随 beam 数和 branching factor 增大而提升，但推理时间也相应增长。在实时机器人控制场景中，需要在计划质量与响应延迟之间做出权衡。（作者在论文中提及此 scaling 特性，但未给出具体推理时延数据，此条为设计层面的隐含局限。）

视频模型训练依赖带语言标注的短时轨迹数据

VLP 的 text-to-video model 需要短时图像轨迹片段与对应语言标签进行监督训练，数据采集与标注成本较高。尽管作者指出 VLP 可从不完整语言标注数据中受益（未标注段仍可用于学习动力学），但对新机器人平台和新任务域的数据需求仍构成实际部署的障碍。