机器人 · Robotics  ·  arXiv 2026

OSCAR: Omni-Embodiment Action-Conditioned World Model for Robotics

跨机器人形态的动作条件视频世界模型,精准评估机器人策略
Zhuoyuan Wu¹    Jun Gao²·³    ¹北京大学   ²密歇根大学   ³NVIDIA

OSCAR 是一个精确的动作条件视频世界模型,可跨不同机器人形态泛化,并支持机器人策略的虚拟评估。它以 2D 运动骨骼渲染为统一条件表示,在大规模多源数据集上微调 Cosmos-Predict2.5-2B,在动作跟随精度、外观质量和运动一致性上全面超越参数量大数倍的基线,并在 RoboArena 上展现出与真实世界评估的强相关性。

2B 参数 (Cosmos-Predict2.5) 单张 GH200 GPU 训练 180,657 条清洗后视频片段 📄 arXiv:2606.04463 论文原文 / Paper
world model action-conditioned video cross-embodiment skeleton rendering policy evaluation diffusion transformer 机器人策略评估 RoboArena

01 动机

现有视频世界模型在机器人策略真实评估中面临三大核心挑战:训练数据场景多样性不足、动作跟随不精准、以及跨机器人形态泛化能力差。

"Existing video world models face three main challenges for real-world robot evaluation: limited scenario diversity in current robot training datasets, imprecise action following, and poor generalization across embodiments for broad adoption."
OSCAR as real-world policy evaluation proxy on RoboArena
图 1:OSCAR 作为 RoboArena 的真实世界策略评估代理。 左:OSCAR 生成的 rollout(上)与 π₀-FAST 策略真实世界 rollout(下)对比;从 episode 中均匀采样三帧。 右:七种通用机器人策略在 RoboArena 上的平均成功率——使用 OSCAR 世界模型评估结果与真实评估结果呈现强相关性。
2B模型参数量(vs. 基线最大 14B)
180K清洗后训练 episode 数量
4覆盖机器人形态数(+ 人手)
2.165M原始数据源 episode 总量

三大挑战与对应设计

挑战 I:动作跟随不精准

视频需要在帧级别(何时发生)和像素级别(何处发生)精确跟随动作序列,才能为策略评估提供有意义的信号。Latent-action 方法将动作压缩为隐变量,往往无法精确传达空间运动。

挑战 II:场景泛化不足

策略评估需要覆盖不同任务、环境和动作序列。现有数据集(如 AgiBot)虽有百万条 clip,却集中在同一场景和任务,视觉多样性极低。

挑战 III:跨形态泛化能力差

世界模型应能泛化到不同机器人形态(Franka Panda、KUKA iiwa、AgiBot G1 等),而非绑定单一机器人,才能支持广泛的策略评估应用。

OSCAR 的两大设计支柱

(1)大规模标准化数据流水线:跨 4 种机器人和 2 种人手数据源,经过去冗余、质量过滤,构建覆盖广泛的联合训练数据集。(2)2D 骨骼渲染统一条件:仅依赖运动链,无需机器人外观信息,可跨机器人乃至人手泛化。

02 方法

OSCAR 在 Cosmos-Predict2.5-2B(一个 2B 参数的视频 Diffusion Transformer)基础上微调,以第一帧 RGB 图像和 2D 骨骼渲染序列为条件,自回归生成未来视频帧。

OSCAR method overview
图 2:OSCAR 方法概览。 OSCAR 由三个组件构成:(1)条件编码(Condition encoding):用 VAE 将第一帧 I₀ 和骨骼序列 S₁:T 编码为隐变量;(2)条件注入(Conditioning injection):将骨骼隐变量与带噪视频隐变量叠加;(3)视频生成(Video generation):DiT 对 token 去噪,VAE 解码最终视频。

3.1 骨骼渲染作为统一条件表示(Skeleton Rendering as Unified Conditioning)

选择正确的动作表示是动作条件世界模型的核心。OSCAR 采用 2D 运动学骨骼(kinematic skeleton)渲染,在泛化性与精度之间取得平衡:

3.2 人手扩展(Extension to Human Hands)

由于 S₁:T 仅编码 2D 关节投影,同样的条件表示可以无缝扩展到人手。MANO 人手模型的五指拓扑与机械臂运动链用同样的光栅化流程处理,使模型可以联合训练机器人和人体手部的 egocentric 视频,显著增加场景、任务和动作分布的多样性

3.3 条件注入(Conditioning Injection)

骨骼序列 S₁:T 经过与目标视频相同的 WAN 2.1 VAE 编码,得到骨骼隐变量 z_s,与带噪视频隐变量通过不同的 patch embedder(PE_v 和 PE_s)嵌入后相加,送入 DiT 进行去噪。训练时以概率 0.2 将 S₁:T 置零,以支持 classifier-free guidance(推理时 guidance scale w=6)。

Skeleton overlays on training data sources
图 3:八个训练数据源上的骨骼覆盖可视化。 上排(四种机器人录制):DROID、RH20T-cfg5(Franka Panda)、RH20T-cfg7(KUKA iiwa)、InternData; 下排(人形与人手数据):AgiBot G1、AIROA-MoMa、EgoDex、EPIC-Kitchens。 每格展示同一数据源的四个 episode 帧。

3.4 大规模数据流水线

从 2,165,359 条原始视频中清洗出 180,657 条高质量 episode,经过四阶段过滤:

03 实验

在 200 条机器人操作 clip 组成的自建 benchmark 上评估(来自 Franka Panda、KUKA iiwa、AgiBot G1、Toyota HSR 四种形态),与七个基线对比,指标涵盖 PSNR、SSIM、LPIPS、tLPIPS、FVD、FID、L2_latent 和 FPS,全部在 NVIDIA GH200 GPU 上计时。

5.2 与基线定量对比(Table 2)

方法 PSNR ↑ SSIM ↑ LPIPS ↓ tLPIPS ↓ FVD ↓ FID ↓ L2_lat ↓ FPS ↑
Cosmos-Predict2.5 14.780.5630.3700.02218.0147.590.4350.292
TesserAct 16.260.7300.2770.05524.5051.900.3640.343
IRASim 6.480.0880.9090.606411.42394.102.4532.330
Ctrl-World 19.060.7050.3210.04228.9053.330.2921.631
EnerVerse-AC 20.470.7460.2230.02133.7038.230.1971.900
Genie Envisioner 23.290.8380.1400.00715.3722.920.1291.382
Kinema4D 17.680.7410.1980.02117.0737.160.2330.089
OSCAR(本文) 24.24 0.846 0.094 0.015 7.08 15.07 0.096 2.214

粗体为最优,下划线为次优。OSCAR 在七项指标中均达到最优或次优,且仅用 2B 参数,远小于 Kinema4D(14B)。

Qualitative comparison across embodiments
图 4:两种机器人形态(AgiBot G1 和 DROID)上的动作条件视频生成定性对比。 列依次为:GT(真值)、OSCAR(本文)、Cosmos-P2.5、TesserAct、Ctrl-World、GE-Sim、Kinema4D。 与五个基线相比,OSCAR 在保持精准动作跟随的同时,视觉质量显著更优。

5.3 消融实验(Table 3)

消融两个关键因素:条件表示数据策略

维度变体PSNR ↑SSIM ↑LPIPS ↓FVD ↓FID ↓
条件表示Latent action 19.220.7840.17012.0326.11
Mesh rendering 23.110.8310.1067.8916.38
Skeleton(最终) 23.480.8320.1067.6916.37
数据策略+Human from beginning 23.870.8420.0977.6515.72
+Human, warm-start(最终) 24.240.8460.0947.0815.07

关键发现:(i)Latent action 无法精准跟随动作;(ii)Mesh 和 Skeleton 在七项指标上统计上无显著差异,但 Mesh 依赖机器人 URDF 外观资产,无法引入人体数据;(iii)人体数据的引入一致提升所有指标,warm-start 策略(先用机器人数据训练再加入人体数据)优于从头混合训练。

5.4 策略评估(Policy Evaluation on RoboArena)

将 OSCAR 部署到 RoboArena 公开排行榜,对 7 个通用 DROID 策略(π₀-flow、π₀-FAST、PG-flow、PG-FSQ、PG-FAST、PG-FAST+、PG-Bin)进行评估: 在 65 个 session 上自回归展开 OSCAR,用 GPT-5 评估每条 episode 的成功率,计算 Pearson 相关系数 r 和 Spearman ρ。

条件表示MMRV ↓ρ ↑r ↑SISR_Δ (pp) ↓
Latent action1.429+0.643+0.8671.98
Mesh0.714+0.679+0.7813.04
Skeleton(本文)0.571+0.750+0.8521.73

骨骼条件与真实世界部署的相关性最强(MMRV=0.571,Pearson r=+0.852),证明 OSCAR 可有效替代真实机器人评估。

04 局限性

说明:以下局限性均为作者在论文 Conclusion 节中明确陈述(stated)。
相机标定与运动学标注质量受限

"Our current data scale is limited by the availability and quality of per-dataset camera calibration and kinematic annotations: errors in camera intrinsics/extrinsics directly degrade skeleton–RGB alignment, limiting the availability of raw video data that can be reliably converted into usable training dataset." 即相机内外参数的误差会直接导致骨骼与 RGB 图像的对齐偏差,可用训练数据规模因此受限。

模型规模仅为 2B,扩展受限

"Our model only uses a 2B-parameter backbone; scaling to larger backbones may further improve fidelity and generalization but requires more compute." 当前 backbone 为 2B 参数,更大规模的 backbone 可能进一步提升保真度和泛化能力,但计算成本相应增加。

仅支持静态相机场景

数据过滤阶段主动剔除了相机运动的 episode("We mainly focus on the robot action in our paper and defer the camera motion for future work"),因此当前模型不支持移动相机场景,限制了对移动操作任务的策略评估能力。