ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

01 动机

现有 VLA 模型从互联网规模的语义数据中获取了丰富知识，但缺乏对物理动力学的理解。语言 CoT 和视觉 CoT 两种主流中间推理范式，均因"语义-运动异质性（semantic-kinematic gap）"而难以为精确执行提供有效引导。

"Language CoT predicts sub-tasks as intermediate reasoning. Visual CoT synthesizes a goal image to provide guidance for action policy. Our proposed Action CoT directly operates in action space and provides homogeneous action guidance."

**图 1：** 三种 Chain-of-Thought 范式对比。(a) Language CoT 在语言空间预测子任务；(b) Visual CoT 合成目标图像；(c) ACoT 直接在动作空间构建粗粒度意图序列，提供与执行同质化的引导。

98.5%LIBERO 平均成功率（4个任务集）

+1.6%超越前 SOTA π0.5 的绝对提升

86.6%LIBERO-Plus 零样本迁移成功率

66.7%AgiBot G1 真实机器人成功率

02 方法

ACoT-VLA 以预训练 VLM（Gemma 2B + SigLIP）为骨干，在其特征之上并联两个推理器，最终由 Action-Guided Prediction（AGP）head 融合两路引导，通过扩散去噪输出可执行动作序列。

ACoT-VLA 架构总览 — **图 2：** ACoT-VLA 整体架构。(a) Explicit Action Reasoner (EAR)：基于 Transformer，对含噪动作序列施加 self-attention 及与 VLM 特征的 cross-attention，合成粗粒度参考轨迹；(b) Implicit Action Reasoner (IAR)：用可学习 query 对 VLM 多层内部表征进行 cross-attention，提取隐式动作先验；(c) Action-Guided Prediction (AGP) head：通过双路 cross-attention 融合显式与隐式引导，再经 self-attention 后解码最终动作。

Explicit Action Reasoner (EAR)

EAR 是一个轻量 Transformer 模块，输入含噪动作序列，通过 self-attention 建模序列内部关系，再通过与 VLM 特征的 cross-attention 注入视觉语言上下文，输出粗粒度参考轨迹作为显式运动引导。EAR 的监督信号来自于 ground-truth 动作的加噪版本，损失权重 λ₁ = 0.5。

Implicit Action Reasoner (IAR)

IAR 使用一组可学习 query，通过 cross-attention 对 VLM 各层内部表征进行聚合，提炼与动作相关的隐式先验。为抑制噪声，IAR 对 key-value 对进行下采样。提取到的隐式先验与 EAR 的显式轨迹共同输入 AGP head，起到互补的增益效果，损失权重 λ₂ = 0.5。

训练配置

骨干：Gemma 2B（18 层，2048 hidden dim）+ SigLIP 视觉编码器，帧分辨率 224×224
单节点 8× NVIDIA H100 GPU；学习率 5e-5，cosine decay，warmup 10K steps
平衡系数 λ₁ = λ₂ = 0.5

03 实验

在 LIBERO、LIBERO-Plus（零样本迁移）、VLABench 三个仿真 benchmark 以及 AgiBot G1 真实机器人平台上进行全面评测，与 40+ 条 baseline 进行对比，包括 Diffusion Policy、OpenVLA、π0、π0.5、WorldVLA、DreamVLA 等。

LIBERO Benchmark（4 个任务集，27 条 baseline）

方法	Spatial	Object	Goal	Long	平均
π0.5	—	—	—	—	96.9%
MemoryVLA	—	—	—	—	96.7%
DD-VLA	—	—	—	—	96.3%
ACoT-VLA（本文）	99.4%	99.6%	98.8%	96.0%	98.5%

LIBERO-Plus 零样本迁移（在 LIBERO 上训练，直接迁移）

方法	平均 SR	机器人扰动	语言变体
π0-FAST	61.6%	—	—
π0.5	85.7%	—	—
ACoT-VLA（本文）	86.6%	+3.2%	+4.2%

VLABench

方法	Intention Score (IS)	Progress Score (PS)
π0.5	60.2%	43.1%
ACoT-VLA（本文）	63.5%	47.4%

在 unseen-texture track 上，Intention Score 提升 +12.6%，Progress Score 提升 +7.2%，体现出对未见纹理分布的更强泛化。

真实世界实验（AgiBot G1）

**图 3：** 真实世界三个操作任务可视化：Wipe Stain（擦拭污渍）、Pour Water（倒水）、Open-set Pick（开集拾取）。

真实世界实验评估结果 — **图 4：** 真实世界实验定量结果。ACoT-VLA 在 AgiBot G1 平台上平均成功率为 66.7%，超过 π0.5 的 61.0%，同时展示了在 AgileX 平台上的跨平台适应能力。

消融实验

在 LIBERO benchmark 上逐步加入各组件的消融分析：

配置	LIBERO 平均 SR	Δ vs baseline
π0.5（baseline）	96.9%	—
+ EAR only	98.3%	+1.4%
+ IAR only	98.1%	+1.2%
+ EAR + IAR（完整 ACoT-VLA）	98.5%	+1.6%

EAR 和 IAR 各自均带来显著提升，两者组合呈现协同增益（synergistic benefits），说明显式轨迹引导与隐式行为先验具有互补性。

04 局限性

注：论文将局限性讨论置于 Appendix D（Future Works），正文未单独列出；以下各条结合作者陈述（stated）及设计特点推断（inferred）标注。

粗粒度动作推理的精度瓶颈（stated）

EAR 生成的参考轨迹为"粗粒度（coarse-grained）"意图，在高精度、高速度操作任务中可能不足以覆盖所有运动细节。作者明确表示未来工作将探索更精细的动作空间表征。

计算资源依赖较重（inferred）

训练使用单节点 8× NVIDIA H100 GPU，双路推理器（EAR + IAR）与 VLM 骨干同时前向传播，相比单一 baseline（π0.5）推理开销更高，对资源受限平台的部署存在挑战。

跨实体泛化能力有限（stated）

真实世界实验仅在 AgiBot G1 和 AgileX 两款平台上进行验证，跨具身（cross-embodiment）泛化能力尚未在更多机器人类型上得到充分证明；作者将扩展至更大规模跨实体场景列为未来方向之一。

模型容量扩展研究不足（inferred）

当前骨干为 Gemma 2B，作者指出"探索更大模型容量（scaling to larger model capacities）"是重要的后续方向，现有结论对更大规模 VLM 的有效性尚未验证。