机器人操作 · VLA · 2026

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

在动作空间中进行链式推理,弥合语义与运动控制的鸿沟
Linqing Zhong, Yi Liu, Yifei Wei, Ziyu Xiong, Maoqing Yao, Si Liu, Guanghui Ren  ·  Beihang University & AgiBot

ACoT-VLA 提出了一种全新的 Action Chain-of-Thought(ACoT)范式:不同于已有方法在语言空间或视觉空间中进行中间推理,ACoT 直接在动作空间中构建"粗粒度动作意图序列",为最终策略提供同质化的运动先验。架构由 Explicit Action Reasoner(显式参考轨迹合成)和 Implicit Action Reasoner(隐式动作先验提取)两部分组成,协同引导最终的 Action-Guided Prediction 解码,在仿真与真实机器人实验中均取得最先进性能。

arXiv 2026-01-16 (v2: 2026-03-30) LIBERO 98.5% Avg SR AgiBot G1 66.7% Real-World SR 📄 arXiv:2601.11404 💻 GitHub: AgibotTech/ACoT-VLA
Action Chain-of-Thought VLA 机器人操作 扩散策略 链式推理 显式轨迹推理 隐式动作先验 trajectory reasoning

01 动机

现有 VLA 模型从互联网规模的语义数据中获取了丰富知识,但缺乏对物理动力学的理解。语言 CoT 和视觉 CoT 两种主流中间推理范式,均因"语义-运动异质性(semantic-kinematic gap)"而难以为精确执行提供有效引导。

"Language CoT predicts sub-tasks as intermediate reasoning. Visual CoT synthesizes a goal image to provide guidance for action policy. Our proposed Action CoT directly operates in action space and provides homogeneous action guidance."
Chain-of-Thought 范式对比
图 1: 三种 Chain-of-Thought 范式对比。(a) Language CoT 在语言空间预测子任务;(b) Visual CoT 合成目标图像;(c) ACoT 直接在动作空间构建粗粒度意图序列,提供与执行同质化的引导。
98.5%LIBERO 平均成功率(4个任务集)
+1.6%超越前 SOTA π0.5 的绝对提升
86.6%LIBERO-Plus 零样本迁移成功率
66.7%AgiBot G1 真实机器人成功率

02 方法

ACoT-VLA 以预训练 VLM(Gemma 2B + SigLIP)为骨干,在其特征之上并联两个推理器,最终由 Action-Guided Prediction(AGP)head 融合两路引导,通过扩散去噪输出可执行动作序列。

ACoT-VLA 架构总览
图 2: ACoT-VLA 整体架构。(a) Explicit Action Reasoner (EAR):基于 Transformer,对含噪动作序列施加 self-attention 及与 VLM 特征的 cross-attention,合成粗粒度参考轨迹;(b) Implicit Action Reasoner (IAR):用可学习 query 对 VLM 多层内部表征进行 cross-attention,提取隐式动作先验;(c) Action-Guided Prediction (AGP) head:通过双路 cross-attention 融合显式与隐式引导,再经 self-attention 后解码最终动作。

Explicit Action Reasoner (EAR)

EAR 是一个轻量 Transformer 模块,输入含噪动作序列,通过 self-attention 建模序列内部关系,再通过与 VLM 特征的 cross-attention 注入视觉语言上下文,输出粗粒度参考轨迹作为显式运动引导。EAR 的监督信号来自于 ground-truth 动作的加噪版本,损失权重 λ₁ = 0.5。

Implicit Action Reasoner (IAR)

IAR 使用一组可学习 query,通过 cross-attention 对 VLM 各层内部表征进行聚合,提炼与动作相关的隐式先验。为抑制噪声,IAR 对 key-value 对进行下采样。提取到的隐式先验与 EAR 的显式轨迹共同输入 AGP head,起到互补的增益效果,损失权重 λ₂ = 0.5。

训练配置

03 实验

在 LIBERO、LIBERO-Plus(零样本迁移)、VLABench 三个仿真 benchmark 以及 AgiBot G1 真实机器人平台上进行全面评测,与 40+ 条 baseline 进行对比,包括 Diffusion Policy、OpenVLA、π0、π0.5、WorldVLA、DreamVLA 等。

LIBERO Benchmark(4 个任务集,27 条 baseline)

方法SpatialObjectGoalLong平均
π0.596.9%
MemoryVLA96.7%
DD-VLA96.3%
ACoT-VLA(本文)99.4%99.6%98.8%96.0%98.5%

LIBERO-Plus 零样本迁移(在 LIBERO 上训练,直接迁移)

方法平均 SR机器人扰动语言变体
π0-FAST61.6%
π0.585.7%
ACoT-VLA(本文)86.6%+3.2%+4.2%

VLABench

方法Intention Score (IS)Progress Score (PS)
π0.560.2%43.1%
ACoT-VLA(本文)63.5%47.4%

在 unseen-texture track 上,Intention Score 提升 +12.6%,Progress Score 提升 +7.2%,体现出对未见纹理分布的更强泛化。

真实世界实验(AgiBot G1)

真实世界三个操作任务
图 3: 真实世界三个操作任务可视化:Wipe Stain(擦拭污渍)、Pour Water(倒水)、Open-set Pick(开集拾取)。
真实世界实验评估结果
图 4: 真实世界实验定量结果。ACoT-VLA 在 AgiBot G1 平台上平均成功率为 66.7%,超过 π0.5 的 61.0%,同时展示了在 AgileX 平台上的跨平台适应能力。

消融实验

在 LIBERO benchmark 上逐步加入各组件的消融分析:

配置LIBERO 平均 SRΔ vs baseline
π0.5(baseline)96.9%
+ EAR only98.3%+1.4%
+ IAR only98.1%+1.2%
+ EAR + IAR(完整 ACoT-VLA)98.5%+1.6%

EAR 和 IAR 各自均带来显著提升,两者组合呈现协同增益(synergistic benefits),说明显式轨迹引导与隐式行为先验具有互补性。

04 局限性

注:论文将局限性讨论置于 Appendix D(Future Works),正文未单独列出;以下各条结合作者陈述(stated)及设计特点推断(inferred)标注。
粗粒度动作推理的精度瓶颈(stated)

EAR 生成的参考轨迹为"粗粒度(coarse-grained)"意图,在高精度、高速度操作任务中可能不足以覆盖所有运动细节。作者明确表示未来工作将探索更精细的动作空间表征。

计算资源依赖较重(inferred)

训练使用单节点 8× NVIDIA H100 GPU,双路推理器(EAR + IAR)与 VLM 骨干同时前向传播,相比单一 baseline(π0.5)推理开销更高,对资源受限平台的部署存在挑战。

跨实体泛化能力有限(stated)

真实世界实验仅在 AgiBot G1 和 AgileX 两款平台上进行验证,跨具身(cross-embodiment)泛化能力尚未在更多机器人类型上得到充分证明;作者将扩展至更大规模跨实体场景列为未来方向之一。

模型容量扩展研究不足(inferred)

当前骨干为 Gemma 2B,作者指出"探索更大模型容量(scaling to larger model capacities)"是重要的后续方向,现有结论对更大规模 VLM 的有效性尚未验证。