机器人 · Robotics · arXiv 2026

Causal World Modeling for Robot Control

LingBot-VA:用因果视频世界模型驱动机器人操作
Lin Li, Qihang Zhang, Yiming Luo, Shuai Yang, Ruilin Wang, Fei Han, Mingrui Yu, Zelin Gao, Nan Xue, Xing Zhu, Yujun Shen, Yinghao Xu  ·  2026

LingBot-VA 是一个自回归扩散框架,将视频帧预测(visual dynamics)与策略执行(policy execution)在统一的因果序列中联合建模,通过 KV-cache 保留完整历史上下文,在长时域操作、样本效率和泛化能力三个维度上全面超越现有 VLA 方法。

5.3B 参数 (Wan2.2-5B + 350M action stream) 50 个真实演示即可完成任务后训练 RoboTwin 2.0 · LIBERO · 6 个真实世界任务 📄 arXiv:2601.21998
world model autoregressive diffusion VLA robot manipulation Mixture-of-Transformers KV-cache 因果视频建模 机器人操作

01 动机

现有 Vision-Language-Action(VLA)策略直接从当前观测映射到动作,缺乏对物理世界动态的显式建模,导致长时域任务中容易遗忘历史、分布外泛化脆弱。这篇工作的核心主张是:

"Video world modeling, alongside vision-language pre-training, establishes a fresh and independent foundation for robot learning."

传统 VLA 学习的是直接映射 π(action|observation),而 LingBot-VA 将其分解为两个步骤:先通过视觉动态预测 p(ot+1|o≤t) 生成下一帧,再通过逆动力学 g(at|ot, ot+1) 从相邻帧对推断动作。这一分解有三个关键优势:(1)保持对物理因果关系的显式约束;(2)通过 KV-cache 保留无限长历史,克服基于 chunk 方法的"短期记忆"问题;(3)大量互联网视频数据可直接用于预训练视觉动态模块。

LingBot-VA teaser
图1:LingBot-VA 概览。系统包含四个维度:(1) 在多样化视频与机器人数据上预训练;(2) 在真实世界和仿真任务上的综合评估结果;(3) 视觉动态预测等多元能力;(4) 时间记忆和少样本适应等涌现特性。
98.5%LIBERO 平均成功率(新 SOTA)
+8.2%RoboTwin Easy Horizon=3 vs 前任 SOTA
+15.6%仅 10 个演示时 Make Breakfast progress score 相对 π₀.₅ 提升
50个真实演示即可完成 6 类操作任务后训练

02 方法

LingBot-VA 将视频 token 与动作 token 交错排列成统一因果序列,由一个 Mixture-of-Transformers(MoT)架构以自回归方式联合预测,同时配备闭环滚动推理机制和异步推理流水线以实现实时执行。

LingBot-VA Framework
图2:框架总览。LingBot-VA 采用自回归扩散,通过双流 Mixture-of-Transformers 架构(视频流:3072-dim;动作流:768-dim)实现统一的视频-动作世界建模。视频流预测未来的潜在视觉状态,动作流解码对应动作,两路通过 cross-modal fusion 耦合。

统一编码与 Mixture-of-Transformers 架构

视频帧通过因果 VAE 以 4×16×16 的时空压缩比编码为每帧 192 个 spatial token;动作通过轻量 MLP 映射到 token embedding,与视频 token 共享同一潜在空间。MoT 采用非对称容量设计:视频流 3072-dim,动作流 768-dim,两路通过 cross-modal attention 融合。统一的损失函数为:L = Ldyn + λ·Linv,其中 Ldyn 监督视频 token 的速度场(flow matching),Linv 以当前帧与下一帧为条件监督动作解码。

因果注意力掩码与 Teacher Forcing 预训练

Causal Attention Mask
图3:Teacher Forcing Attention Mask。因果注意力掩码确保每个 token 只能 attend 到时序上在其之前的 token,从而在预训练中强制执行"物理动态的时间箭头",同时允许对完整轨迹并行处理。

LingBot-VA 使用 Teacher Forcing 训练策略:"Each token can only attend to preceding tokens in temporal sequence",在强制因果一致性的同时实现高效的并行训练。训练时随机采样 chunk size K ∈ [1,8],使得部署时可灵活权衡闭环修正频率与计算效率。另一关键技巧是 Noisy History Augmentation:"During training, randomly augment video history with noise; enables partial denoising (s=0.5 instead of s=1.0) at inference, halving video generation steps."动作网络权重初始化采用视频权重插值并以 α=√(dv/da) 缩放,确保训练梯度平稳收敛。

异步推理流水线与 FDM Grounding

Asynchronous Pipeline
图4:异步流水线设计。同步流水线因视频生成耗时导致动作执行延迟;Naive async 则因"open-loop degradation"使模型偏好时序平滑的幻想序列;FDM-grounded async 引入 Forward Dynamics Model 将真实观测重新对齐后再做预测,在速度与精度间取得平衡。

部署阶段 KV-cache 将历史计算缓存,"Only new tokens require full attention computation; cached history tokens are reused",显著降低推理延迟。为解决 Naive async 带来的开环退化问题,引入 Forward Dynamics Model(FDM):模型利用最近的真实反馈想象施加动作后的视觉状态,强迫与环境观测重对齐后再向前预测。

预训练数据与规模

使用 16K 小时数据,来自 6 个来源(Agibot、RoboMind、InternData-A1、OXE、UMI、RoboCOIN)聚合。模型规模:5.3B 参数(Wan2.2-5B 视频主干 + 350M 动作流)。预训练:1.4T tokens,AdamW(lr=1×10⁻⁴,bfloat16 精度)。后训练:50 个任务演示,3K steps,lr=1×10⁻⁵。

03 实验

LingBot-VA 在三类基准上评估:RoboTwin 2.0(50 个双臂仿真任务,Easy / Hard),LIBERO(4 个子集),以及 6 个真实世界操作任务(长时域 / 精细操作 / 可变形物体)。

RoboTwin 2.0 仿真评估

指标 X-VLA* π₀ π₀.₅ Motus LingBot-VA (Ours)
Easy Avg (50 tasks)72.965.982.788.792.93 (+4.2)
Hard Avg (50 tasks)72.858.476.887.091.55 (+4.6)
Easy Horizon=181.666.585.191.094.18 (+3.2)
Hard Horizon=182.561.680.290.693.56 (+3.0)
Easy Horizon=259.366.179.385.290.35 (+5.2)
Hard Horizon=255.954.773.080.986.95 (+6.1)
Easy Horizon=361.261.678.685.093.22 (+8.2)
Hard Horizon=366.050.267.484.293.28 (+9.1)

注意:随 Horizon 增大,LingBot-VA 的优势进一步扩大(Horizon=3 时领先 +8.2% / +9.1%),印证了 KV-cache 长时记忆在多步任务中的核心价值。

LIBERO 基准评估

方法LIBERO-SpatialLIBERO-ObjectLIBERO-GoalLIBERO-Long平均
Octo78.985.784.651.175.1
SmolVLA93.094.091.077.088.8
π₀96.898.895.885.294.1
X-VLA98.298.697.897.698.1
LingBot-VA (Ours)98.5±0.399.6±0.397.2±0.298.5±0.598.5

真实世界任务

Real-world deployment results
图5:真实世界部署结果。六类操作任务:Make Breakfast、Pick Screws(长时域);Insert Tubes、Unpack Delivery(精细操作);Fold Clothes、Fold Pants(可变形物体)。LingBot-VA 在成功率和 progress score 两个指标上均"substantially outperforming π₀.₅"。

样本效率

Sample efficiency comparison
图8:样本效率对比。仅使用 10 个演示时,LingBot-VA 在 Make Breakfast 任务上的 progress score 比 π₀.₅ 高 15.6%,在 RoboTwin 上高 10.3%。在多种数据规模下均保持优势。

时间记忆任务

Temporal memory evaluation
图9:时间记忆评估。Wipe Plate(需计数重复 6 次)和 Search Box(需记住空容器位置)两个任务。LingBot-VA 依靠完整 KV-cache 保留全部历史,"substantially outperforms π₀.₅ on both memory tasks"。

消融实验

消融维度设置Easy_allHorizon=1Horizon=2Horizon=3
基准LingBot-VA (Ours)92.994.290.493.2
部署策略FDM-grounded Async90.492.587.785.6
Naive Async74.383.370.332.9
预训练主干WAN (无因果世界建模)80.684.976.367.6

消融结果清晰表明:Naive async 在 Horizon=3 时性能崩溃至 32.9%,而 FDM grounding 将其恢复至 85.6%;替换为普通 WAN 主干则损失 12.3 个百分点,证明因果世界建模预训练是核心贡献。

04 局限性

说明:以下局限性部分为论文作者明确指出(标注"stated"),部分为从设计推断(标注"inferred")。
视频 token 生成计算开销大 (stated)

论文明确指出:"Video token generation remains computationally intensive"。自回归逐帧生成在部署时仍有较高延迟,即使通过异步流水线和 partial denoising 已显著缓解,实时性仍弱于直接动作回归方法。

接触动力学为隐式建模 (stated)

论文明确指出当前版本为"implicit rather than explicit contact dynamics modeling",对需要精确力/力矩控制的精细操作(如拧螺丝)可能存在上限。

动作表示统一化假设 (inferred)

(推断)LingBot-VA 将动作统一为 30 维向量(双臂:7 EEF + 7 关节 + 1 夹爪,每臂),依赖于机器人形态一致性假设。对于腿式机器人、多指手等不同形态,需重新定义动作表示,框架的跨形态泛化能力尚未验证。

多模态感知输入缺失 (stated,future work)

论文将"multi-modal sensory inputs (tactile, force, audio) for robust manipulation"列为未来工作方向,当前系统仅依赖视觉输入,对无视觉线索的操作任务(如在遮挡下搜索)能力有限。