GigaWorld-Policy: An Efficient Action-Centered World-Action Model

01 动机

现有世界-动作模型（World-Action Models）在推理时面临两大核心瓶颈：一是推理开销过大——联合推断未来视觉动态与动作序列导致延迟极高；二是表征耦合问题——动作预测质量与视频预测质量强绑定，一旦视频生成出错，动作也随之降级。此外，基于 VLM 的 VLA 方法存在"监督稀疏"（supervision sparsity）问题：动作标签相对于高维观测过于稀疏，容易使模型将不同场景压缩为重复行为，而非学习有物理意义的动作。

"jointly reasoning over future visual dynamics and corresponding actions incurs substantial inference overhead" ——论文对当前世界-动作模型推理瓶颈的直接概括

推理频率与任务成功率对比 — 图1：在 A100 GPU 真实部署环境下，GigaWorld-Policy 与各基线方法的推理频率（Inference Frequency）与任务成功率（Task Success Rate）对比。GigaWorld-Policy 在保持竞争力成功率的同时，实现了显著更低的推理延迟。

9×比 Motus 推理速度提升（360ms vs 3231ms）

0.86RoboTwin 2.0 仿真平均成功率（clean）

0.83真实机器人平均成功率（20次试验/任务）

10%达到基线最优所需的训练数据量

02 方法

GigaWorld-Policy 以 5B 参数量的 diffusion Transformer 为骨干，将策略学习形式化为两个耦合组件：从当前观测预测动作序列（主任务），同时以预测动作为条件生成未来视频（辅助任务）。核心创新在于因果注意力掩码（causal attention mask）——它确保未来视频 token 的信息绝对不会回流至动作 token，从而消除视觉-运动表征的纠缠，同时为动作学习提供更稠密的监督信号。

四种世界-动作模型架构对比 — 图2：四种世界-动作模型架构示意。(a) 基于 VLM 的 VLA + 辅助监督；(b) 联合双向动作-视频预测； (c) 两阶段先视频后动作流水线；(d) 本文提出的以动作为中心的设计，视频生成为可选路径。 GigaWorld-Policy 属于 (d)：推理时可直接跳过视频分支，大幅降低延迟。

因果注意力掩码（Causal Self-Attention Mask）

模型采用分块因果依赖设计（blockwise causal dependency）：动作 token 仅能 attend 到状态和观测 token，而未来视频 token 可以 attend 到动作 token，但反向路径被彻底切断。这一设计使得推理时可以只解码动作分支，完全不实例化视频 token，从而实现低延迟控制；训练时视频分支则作为辅助损失，为动作头提供更丰富的梯度信号。动作与视频均采用 flow-matching 目标函数（Equations 8–10）进行联合训练。

注意力掩码示意图 — 图3：blockwise 因果注意力掩码结构。动作 token（Actions）只能看到状态与观测，未来视频 token 可向前 attend 到动作，但不能反向影响动作预测。

三阶段预训练流程（Three-Stage Pre-training）

模型采用渐进式预训练策略：

Stage 1 — 大规模网络视频预训练：在互联网视频数据上初始化 diffusion Transformer 基础模型，学习通用视觉表征与物理先验。
Stage 2 — 具身数据预训练（Embodied Pre-training）：在约 10,000 小时的机器人与第一人称人类演示数据上继续训练，涵盖 Agibot、RDT、RoboMind、ATARA（机器人视频）以及 EgoDex、Ego4D（以人为中心的演示）。
Stage 3 — 策略后训练（Policy Post-training）：在目标机器人轨迹数据上进行动作-语言-图像对齐微调，适配具体任务。

图4：GigaWorld-Policy 三阶段训练流水线示意。从通用视频基础模型出发，经具身数据预训练，最终通过策略后训练对接目标机器人，推理时可选择性地生成未来视频。

多视角观测融合

系统接收多视角 RGB 输入（Multi-view RGB），按 Equation 4 将其拼合为单张图像后送入共享 Transformer 块，与状态 token、动作 token、视频 token 一并处理。这种统一 token 化设计简化了模型结构，避免了针对不同模态引入独立编码器。

03 实验

实验在两个场景下评估 GigaWorld-Policy： (1) 仿真——RoboTwin 2.0 基准，50 个任务，分 clean（标准环境）和 randomized（随机初始状态）两种设置； (2) 真实世界——AgileX PiPER 6 自由度机械臂，每个任务执行 20 次试验，涉及 QR 码扫描、垃圾清扫、碗叠放、桌面清洁等任务。基线方法包括：π₀.₅、X-VLA、Motus、GigaBrain-0、Cosmos-Policy。

仿真基准（RoboTwin 2.0）

方法	Clean SR	Randomized SR	推理延迟 (A100)
π₀.₅	0.43	0.44	225ms
X-VLA	0.73	0.73	—
Motus	0.89	0.87	3231ms
GigaBrain-0	—	—	452ms
GigaWorld-Policy（本文）	0.86	0.85	360ms

注：Motus 在仿真成功率上略高（0.89 vs 0.86），但推理延迟达 3231ms，为 GigaWorld-Policy（360ms）的 9×；π₀.₅ 延迟最低（225ms），但成功率仅 0.43/0.44。

真实世界部署（AgileX PiPER，20次/任务）

方法	平均成功率
Cosmos-Policy	0.58
GigaBrain-0	0.68
π₀.₅	0.69
Motus	0.76
GigaWorld-Policy（本文）	0.83

数据效率（Data Efficiency）

在训练数据量实验中，GigaWorld-Policy 仅使用 10% 的训练数据即可达到 VLA 基线方法的最优成功率，展现出显著更强的样本效率。

数据效率对比曲线 — 图5：不同训练数据比例下各方法的成功率曲线。GigaWorld-Policy 在 10% 数据量处已达到 VLA 基线的满数据性能上限，随数据增加持续提升。

消融实验（Ablations）

预训练策略对最终真实世界成功率的影响（消融实验，真实机器人测试）：

配置	成功率（SR）
无预训练（from scratch）	0.45
仅视频基础模型初始化	0.57
仅具身数据预训练	0.73
完整三阶段预训练（full）	0.83

未来帧间距（frame spacing）的消融实验表明，Δ=12 时性能最优（SR = 0.83）。具身预训练数据量实验显示，随着具身数据比例从 0% 增至 100%，模型性能单调提升（图8），验证了大规模具身预训练对下游策略学习的持续正收益。

04 局限性

注意：原论文无独立的"Limitations"章节。以下各点综合了论文设计决策中可推断出的隐含约束，均标注为 inferred（推断）。

依赖大规模具身预训练数据（inferred）

模型 Stage 2 需要约 10,000 小时机器人与第一人称演示数据（Agibot、RDT、RoboMind、ATARA、EgoDex、Ego4D）。对于数据采集成本较高的新场景或新型机器人，完整三阶段预训练流程的复现难度较大。

评估机器人形态单一（inferred）

真实世界实验仅在 AgileX PiPER 6-DoF 机械臂上进行，且限于桌面操作类任务（QR 码扫描、垃圾清扫、碗叠放、桌面清洁）。跨机器人形态（如双臂、移动操作）的泛化能力尚未验证。

无零样本跨任务迁移（inferred）

各具体任务均需要针对性的 Stage 3 后训练（task-specific post-training），而非真正的零样本迁移或少样本适应。在新任务上直接部署时，需要收集并标注新的轨迹数据。

视频辅助分支的实际贡献量化不足（inferred）

消融实验主要针对预训练阶段的配置，对"是否使用视频辅助损失"这一核心设计选择的独立消融结果在论文中未被单独列出，难以精确量化视频生成分支对最终策略性能的边际贡献。