ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

01 动机

构建真正通用的机器人智能体面临两大核心挑战：数据稀缺（跨形态、跨任务的高质量轨迹匮乏）与动作表示低效（高维噪声预测在速度和稳定性方面均有瓶颈）。现有 VLA 模型往往依赖单一数据源或特定硬件平台，泛化能力有限。

"effective robot actions lie not in the full high-dimensional space but on a low-dimensional, smooth manifold"

**Fig. 2：**UniACT 数据集组成概览。汇聚六个开源数据集，覆盖 600 万条轨迹、9500+ 小时、20+ 种机器人形态，提供统一的动作表示与标注规范。

6M+UniACT 轨迹数

98.6%LIBERO 平均成功率

86.06%RoboTwin 2.0 成功率

80.5%LIBERO-Plus 零样本泛化

02 方法

ABot-M0 由两个核心模块组成：Qwen3-VL（4B）视觉语言主干负责语义理解，0.16B Diffusion Transformer（DiT）动作专家负责动作生成。两者通过 cross-attention 融合，并可选配 3D 几何感知模块。

ABot-M0 整体架构 — **Fig. 3：**ABot-M0 完整架构。左侧 Qwen3-VL 提取视觉语义特征，右侧 DiT 动作专家通过 cross-attention 注入 VLM 特征与可选 3D 信息，输出去噪动作序列。

Action Manifold Learning（AML）

传统扩散策略预测噪声（epsilon-prediction）或速度，AML 直接在低维流形上预测去噪后的干净动作序列。具体而言，DiT 主干计算去噪预测 Â_t = V_θ(φ_t, A_t^τ, q_t)，但损失函数施加在速度上并带有重权重因子 w(τ) = 1/(1−τ)²。推理时通过 ODE 求解从纯噪声迭代生成动作块。该设计使模型在极少去噪步数（2 步）及超大动作块（chunk size 30）下仍能保持稳定性能，而基线 GR00T 在同等条件下性能大幅下降。

Action Manifold Learning 概念图 — **Fig. 4：**AML 概念对比。左：传统噪声/速度预测，动作分布散落于高维空间；右：AML 将有效动作约束在低维平滑流形，预测更直接，路径更短。

UniACT 数据集与多形态统一

UniACT 汇聚六个开源数据集，关键工程包括：

动作标准化：将所有机器人动作统一为末端执行器坐标系中的 delta 动作，使用旋转向量表示；
单臂/双臂统一：采用零填充（pad-to-dual-arm）策略，将单臂机器人视为双臂的特殊情形；
质量过滤：自动化清洗流程过滤约 16% 的低质量轨迹；
Task-Uniform 采样：平衡形态覆盖与技能多样性，优于 Trajectory-Uniform 和 Embodiment-Uniform 策略。

UniACT 数据清洗流程 — **Fig. 1：**UniACT 数据清洗与预处理流程，涵盖数据质量治理的各个环节，从异构来源构建统一高质量数据集。

双流感知与 3D 信息注入

模型支持可选的 3D 感知增强：使用 VGGT 从单张图像重建 3D 特征，或使用 Qwen-Image-Edit 合成多视角图像提供几何先验。消融实验显示，cross-attention 融合优于 concatenation 与 Q-Former 方案；多视角（2 视图）配置在 LIBERO-Plus 上达到 70.2%，高于单视角的 68.0%。

不同采样策略的形态分布 — **Fig. 5：**三种采样策略（Trajectory-Uniform、Task-Uniform、Embodiment-Uniform）在 OXE、AgiBot-Beta、RoboCoin 上的形态分布对比。Task-Uniform 在技能多样性与形态覆盖之间取得最佳平衡。

03 实验

在 LIBERO、LIBERO-Plus（零样本泛化）、RoboCasa GR1、RoboTwin 2.0 四大基准上与主流方法对比，ABot-M0 在所有基准上均取得最优或接近最优的成绩。

LIBERO 标准基准

方法	L-Spatial	L-Object	L-Goal	L-Long	Average
Diffusion Policy	78.5	87.5	73.5	64.8	76.1
OpenVLA	84.7	88.4	79.2	53.7	76.5
π₀	98.0	96.8	94.4	88.4	94.4
π₀.₅	98.8	98.2	98.0	92.4	96.9
OpenVLA-OFT	97.6	98.4	97.9	94.5	97.1
ABot-M0（ours）	98.8	99.8	99.0	96.6	98.6%

LIBERO-Plus 零样本泛化（OOD）

LIBERO-Plus 测试相机视角、机器人形态、语言指令、光照、背景、噪声、布局等七种扰动下的零样本泛化能力。

方法	Camera	Robot	Language	Light	BG	Noise	Layout	Total
OpenVLA	0.8	3.5	23.0	8.1	34.8	15.2	28.5	15.6
UniVLA	1.8	46.2	69.6	69.0	81.0	21.2	31.9	42.9
π₀	13.8	6.0	58.8	85.0	81.4	79.0	68.9	53.6
RIPT-VLA	55.2	31.2	77.6	88.4	91.6	73.5	74.2	68.4
ABot-M0（ours）	60.4	67.9	86.4	96.2	91.6	86.4	82.6	80.5%

RoboCasa GR1 与 RoboTwin 2.0

RoboCasa GR1（24 个桌面任务）

方法	平均成功率
GR00T-N1.6	47.6%
Qwen3GR00T	47.8%
Qwen3OFT	48.8%
ABot-M0	58.3%

RoboTwin 2.0（50+ 任务）

方法	Clean	Randomized
π₀.₅	42.98%	43.84%
X-VLA	72.80%	72.84%
ABot-M0	86.06%	85.08%

消融实验：AML 的优势

与 Qwen3-VL-GR00T 基线相比，AML 在各种极限条件下均表现出明显优势：

默认配置（4 步去噪，chunk=8）：ABot-M0 71.0% vs. GR00T 69.3%；
极端加速（2 步去噪）：ABot-M0 69.7% vs. GR00T 67.2%；
超大动作块（chunk=30）：ABot-M0 62.8%（下降 8.2 个点）vs. GR00T 45.7%（下降 23.6 个点）。

VLM 特征交互消融显示，直接使用最终层原始特征（71.0%）优于中间层或 action-query 增强方案。

04 局限性

Note：论文无独立 Limitations 章节，以下限制部分为作者在 Future Work 与讨论中明确陈述（标注 stated），部分为设计层面合理推断（标注 inferred）。

数据规模尚未达到临界质量（stated）

作者指出 "data scale remains below critical mass" for truly general embodied agents，当前 600 万轨迹在任务多样性和覆盖密度上仍有明显缺口，尤其缺乏人体示范（UMI 等）数据。

跨数据集动作表示异构性（stated）

"action representations, coordinate systems, and control frequencies differ across datasets"，统一标准化虽有效但不可避免地引入近似误差，在高精度任务中影响更明显。

VLM 空间感知能力有限（stated）

"vision-language models demonstrate strong capabilities in parsing natural language…Nevertheless, their spatial perception typically remains qualitative"，在精细位置判断和高精度操控场景下存在固有瓶颈。

高精度场景中误差积累（stated）

预训练模型在高精度操控场景下 "exhibit accumulated errors and unstable spatial alignment"，长时序任务中策略漂移问题有待解决。

仅限桌面/双臂操控形态（inferred）

实验以桌面机械臂为主。作者在 Future Work 中明确提出将扩展至腿式机器人、无人机和类人形机器人，说明当前版本对这些形态的支持尚未验证。