cs.RO · 机器人学习 · 2026

PointACT:多尺度点云-动作交互的视觉-语言-动作模型

PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction
Shizhe Chen, Paul Pacaud, Cordelia Schmid · Inria, École normale supérieure, CNRS, PSL Research University

PointACT 将点云(point cloud)三维几何表示深度融合进视觉-语言-动作模型(VLA)的动作解码阶段,通过分层 bottleneck 窗口自注意力机制实现多尺度的"点云特征 ↔ 动作 token"细粒度交互,在 RLBench 和 LIBERO 基准上超越了当前最优的 2D 与 3D 方法,并在真实机器人上验证了其有效性。

arXiv 2605.21414 RLBench 82.3% 成功率 LIBERO 96.0% 均值 论文原文 → 项目主页 →
关键词Vision-Language-Action modelpoint cloudrobot manipulationmulti-scale interactionBottleneck Window Self-Attention点云-动作交互dual-system architecture3D geometryaction expertRLBench

01 动机

当前最先进的 VLA 模型几乎全部依赖二维视觉表示,这严重限制了其对精细几何与空间关系的推理能力。

"the physical world is inherently three-dimensional, while most state-of-the-art VLAs rely on 2D image representations."

现有的将三维信息引入 VLA 的尝试存在两类明显不足:

三种 3D 集成策略对比
图 1:三种将 3D 点云整合进 VLA 的策略对比:(a) Monolithic 融合将点云 token 直接注入 VLM 上下文;(b) Dual-system 仅使用 PTv3 最终层粗粒度特征;(c) PointACT 通过 Bottleneck Window Self-Attention 在解码各层与点云特征进行多尺度细粒度交互。
82.3%RLBench 10 任务平均成功率
96.0%LIBERO 4 套件平均成功率
+10%相比最优基线在 RLBench 上的提升
300MPointACT 可训练参数量

02 方法

PointACT 采用双系统架构(dual-system):冻结的 VLM(Qwen2.5-VL)负责高层语义理解,可训练的 PointACT 动作专家(action expert)通过多尺度 Bottleneck 窗口自注意力机制将 Point Transformer v3(PTv3)各层的分层几何特征与动作 token 进行深度交互,最终预测机器人动作。

PointACT 架构与 Bottleneck 窗口自注意力
图 2:PointACT 整体架构(左)与 Bottleneck 窗口自注意力机制(右)。点云按空间分成 K 个窗口,动作 token 广播至各窗口内的点 token,进行自注意力计算后跨窗口平均聚合,再通过交叉注意力融合 VLM 特征。该过程在 PTv3 各分层阶段重复执行,实现多尺度交互。

问题形式化

策略在多模态观测下预测未来 H 步动作:

A_t = π_θ(I_t, P_t, s_t, L)

其中 I_t 为多视角 RGB 图像,P_t ∈ ℝ^(N_P×6) 为三维点云(XYZ + RGB),s_t 为本体感受状态,L 为自然语言指令。

核心机制:Bottleneck 窗口自注意力(Bottleneck Window Self-Attention)

将点云划分为 K 个空间窗口。对每个窗口 k,动作 token 广播拼接至该窗口内点 token,进行联合自注意力:

X_k^l = [Z_p^{l,W_k}; Z_a^l]X̂_k^l = Self-Attn(X_k^l)

动作 token 跨窗口平均聚合局部上下文:

Ẑ_a^l = (1/K) Σ_k X̂_{k,a}^l

再通过交叉注意力融合 VLM 嵌入:

Z̄_a^l = Cross-Attn(Ẑ_a^l, Z_vlm)

该流程在 PTv3 各分层阶段重复,从粗到细提取多尺度几何线索。关键设计:动作 token 充当"bottleneck",既能感知局部几何细节,又保持全局语义一致,避免了将大量点云 token 直接暴露给 VLM 带来的干扰。

动作预测头

回归头(Regression Head)

用于 LIBERO 等连续控制任务,动作 chunk 大小 H=16,使用 L₂ 损失:

L_reg = (1/H) Σ ‖a_i − a_i*‖₂²

分类头(Classification Head)

用于 RLBench 关键帧预测,工作空间离散化为空间 bin,使用交叉熵损失:

L_cls = −Σ_k Σ_b y_{k,b} log(ŷ_{k,b})

PointACT VLA 完整架构
图 3:PointACT VLA 完整架构图。冻结的 Qwen2.5-VL 处理图像与语言,输出 VLM 特征;Point Transformer v3-Large(PTv3)对点云提取分层特征;PointACT 模块在解码各阶段通过窗口注意力将两路特征与动作 token 深度融合,最终由动作头输出机器人控制指令。

实现细节

03 实验

在 RLBench(10 任务)、LIBERO(4 套件)仿真基准及真实机器人平台(SO-100 和 UR5)上与当前最优方法(包括 π₀、GR00T-N1.5、EO1、ACT3D、3DLotus 等)进行全面对比。

RLBench 与 LIBERO 任务示意
图 4:RLBench 10 个操作任务与 LIBERO 4 个任务套件示意图。RLBench 使用关键帧预测 + RRT 运动规划;LIBERO 使用 delta 末端执行器控制,动作 chunk 大小 H=16。

仿真基准结果

方法 LIBERO-Spatial LIBERO-Object LIBERO-Goal LIBERO-Long LIBERO 均值 RLBench 均值
OpenVLA 84.7 88.4 79.2 53.7 41.0
π₀ 55.0
ACT3D 64.5
GR00T(arch) + Point 92.0 69.7
EO1(复现) 91.8 85.6 93.1 73.2
PointACT(本文) 97.4 90.6 96.0 82.3

RLBench 各任务成功率(部分)

任务EO1PointACT
Phone on base99
Umbrella out99
Wine at rack90
Sweep to dustpan59
Water plants40
均值73.282.3

消融实验

模型规模与 PTv3 预训练消融
图 5:PointACT 不同规模变体(Small: 59M, Base: 167M, Large: 314M)的性能曲线,以及是否使用 PTv3 预训练权重的对比。更大的模型从预训练中获益更多,表明优化难度随容量增加。
消融配置LIBERO-Spatial (%)RLBench (%)
EO1 baseline91.873.2
EO1 + Point(Monolithic)94.018.6
GR00T(arch) baseline87.050.8
GR00T(arch) + Point(Dual-system 粗粒度)92.069.7
多尺度直接拼接(K=64, 128 tokens)65.2–65.6
无图像条件(仅点云)94.279.8
PointACT(完整)97.482.3

消融关键结论:

真实机器人实验

真实机器人平台
图 6:真实机器人平台设置。左:SO-100(6-DoF 3D 打印机械臂,Intel RealSense D435);右:UR5(6-DoF UR5 + RG6 夹爪,Orbbec Femto Mega RGB-D 相机)。
任务π₀GR00T-N1.5PointACT
SO-100 机械臂(每任务 10 次试验)
Put Banana In Plate10/108/1010/10
Put Sock In Drawer2/105/109/10
Open Microwave7/105/108/10
任务π₀GR00T-N1.53DLotusPointACT
UR5 机械臂(每任务 10 次试验)
Stack Yellow Cup0/100/107/107/10
Close Drawer9/109/102/107/10
Put Fruit in Plates0/100/100/104/10

PointACT 在"Put Sock In Drawer"任务上将成功率从 π₀ 的 2/10 提升至 9/10,充分体现了精细三维感知对复杂操作任务的价值。在 UR5 实验中,PointACT 在杯子堆叠上与 3DLotus(纯几何方法)持平,但在关抽屉任务上大幅优于 3DLotus(7/10 vs 2/10),体现了 2D 语义与 3D 几何混合的鲁棒性。

04 局限性

说明:论文在失败案例分析(Failure Analysis)和结论部分明确指出了以下局限性,已标注为作者陈述(stated);设计层面的推断局限另行注明(推断/inferred)。
感知遮挡导致的空间推理失败(stated)

部分视角的局限性限制了对空间关系的完整理解,尤其在物体被遮挡时模型难以准确估计目标位置。作者指出此类失败需要多视角图像集成(multi-view integration)来解决。对应案例:Water plants(40% 成功率)任务中浇水壶与植物的位置关系判断困难。

缺乏失败恢复能力(stated)

"Models lack reactive recovery from execution errors or perturbations."——模型无法从执行错误或外界扰动中主动恢复,一旦中间动作出现偏差,后续动作难以纠正。作者将改进失败恢复能力列为未来工作方向。

工具媒介操作能力不足(stated)

当操作需要通过工具间接施力时(如扫把→簸箕的接触几何),模型难以建模精确的接触力学,对应 Sweep to dustpan(59% 成功率)任务表现偏弱。

点云噪声鲁棒性(推断/inferred)

作者在结论中提到"improving robustness under noisy point observations"为未来工作方向,暗示当前模型对传感器噪声(如透明/反光物体的深度缺失)较为敏感。UR5 实验中关闭透明抽屉的案例(Close Drawer)也间接体现了这一挑战,但通过 2D 视觉特征部分弥补了点云缺陷。

点云预训练数据与机器人场景不匹配(stated + inferred)

当前使用的 PTv3 预训练权重来自建筑级场景数据,与桌面操作任务存在显著域差异(domain gap)。作者明确将"scaling point-based pretraining on robot datasets"列为重要的未来工作,以提升特征迁移效果,尤其对大容量模型优化帮助更大。