PointACT：多尺度点云-动作交互的视觉-语言-动作模型

01 动机

当前最先进的 VLA 模型几乎全部依赖二维视觉表示，这严重限制了其对精细几何与空间关系的推理能力。

"the physical world is inherently three-dimensional, while most state-of-the-art VLAs rely on 2D image representations."

现有的将三维信息引入 VLA 的尝试存在两类明显不足：

Monolithic 融合：将点云 embedding 直接注入预训练 VLM，会破坏 VLM 在大规模数据上习得的表示，导致性能严重下滑（实验中 RLBench 仅 18.6%）。
粗粒度全局特征：已有的点云增强 VLA 方法"primarily rely on coarse-grained global geometry features"，无法利用点云编码器的预训练优势，忽略了多尺度局部几何线索。

三种 3D 集成策略对比 — 图 1：三种将 3D 点云整合进 VLA 的策略对比：(a) Monolithic 融合将点云 token 直接注入 VLM 上下文；(b) Dual-system 仅使用 PTv3 最终层粗粒度特征；(c) PointACT 通过 Bottleneck Window Self-Attention 在解码各层与点云特征进行多尺度细粒度交互。

82.3%RLBench 10 任务平均成功率

96.0%LIBERO 4 套件平均成功率

+10%相比最优基线在 RLBench 上的提升

300MPointACT 可训练参数量

02 方法

PointACT 采用双系统架构（dual-system）：冻结的 VLM（Qwen2.5-VL）负责高层语义理解，可训练的 PointACT 动作专家（action expert）通过多尺度 Bottleneck 窗口自注意力机制将 Point Transformer v3（PTv3）各层的分层几何特征与动作 token 进行深度交互，最终预测机器人动作。

PointACT 架构与 Bottleneck 窗口自注意力 — 图 2：PointACT 整体架构（左）与 Bottleneck 窗口自注意力机制（右）。点云按空间分成 K 个窗口，动作 token 广播至各窗口内的点 token，进行自注意力计算后跨窗口平均聚合，再通过交叉注意力融合 VLM 特征。该过程在 PTv3 各分层阶段重复执行，实现多尺度交互。

问题形式化

策略在多模态观测下预测未来 H 步动作：

A_t = π_θ(I_t, P_t, s_t, L)

其中 I_t 为多视角 RGB 图像，P_t ∈ ℝ^(N_P×6) 为三维点云（XYZ + RGB），s_t 为本体感受状态，L 为自然语言指令。

核心机制：Bottleneck 窗口自注意力（Bottleneck Window Self-Attention）

将点云划分为 K 个空间窗口。对每个窗口 k，动作 token 广播拼接至该窗口内点 token，进行联合自注意力：

X_k^l = [Z_p^{l,W_k}; Z_a^l]，X̂_k^l = Self-Attn(X_k^l)

动作 token 跨窗口平均聚合局部上下文：

Ẑ_a^l = (1/K) Σ_k X̂_{k,a}^l

再通过交叉注意力融合 VLM 嵌入：

Z̄_a^l = Cross-Attn(Ẑ_a^l, Z_vlm)

该流程在 PTv3 各分层阶段重复，从粗到细提取多尺度几何线索。关键设计：动作 token 充当"bottleneck"，既能感知局部几何细节，又保持全局语义一致，避免了将大量点云 token 直接暴露给 VLM 带来的干扰。

动作预测头

回归头（Regression Head）

用于 LIBERO 等连续控制任务，动作 chunk 大小 H=16，使用 L₂ 损失：

L_reg = (1/H) Σ ‖a_i − a_i*‖₂²

分类头（Classification Head）

用于 RLBench 关键帧预测，工作空间离散化为空间 bin，使用交叉熵损失：

L_cls = −Σ_k Σ_b y_{k,b} log(ŷ_{k,b})

图 3：PointACT VLA 完整架构图。冻结的 Qwen2.5-VL 处理图像与语言，输出 VLM 特征；Point Transformer v3-Large（PTv3）对点云提取分层特征；PointACT 模块在解码各阶段通过窗口注意力将两路特征与动作 token 深度融合，最终由动作头输出机器人控制指令。

实现细节

VLM Backbone：Qwen2.5-VL（冻结）
点云编码器：Point Transformer v3-Large（PTv3-Large），在建筑级场景数据上预训练
可训练参数：约 300M（PointACT 模块）
训练配置：2 × NVIDIA H100，batch size 128，训练 20K–50K 步，学习率 5×10⁻⁵
点云预处理：工作空间 bounding box 裁剪，1cm 体素化，最多 4096 个点

03 实验

在 RLBench（10 任务）、LIBERO（4 套件）仿真基准及真实机器人平台（SO-100 和 UR5）上与当前最优方法（包括 π₀、GR00T-N1.5、EO1、ACT3D、3DLotus 等）进行全面对比。

RLBench 与 LIBERO 任务示意 — 图 4：RLBench 10 个操作任务与 LIBERO 4 个任务套件示意图。RLBench 使用关键帧预测 + RRT 运动规划；LIBERO 使用 delta 末端执行器控制，动作 chunk 大小 H=16。

仿真基准结果

方法	LIBERO-Spatial	LIBERO-Object	LIBERO-Goal	LIBERO-Long	LIBERO 均值	RLBench 均值
OpenVLA	84.7	88.4	79.2	53.7	—	41.0
π₀	—	—	—	—	—	55.0
ACT3D	—	—	—	—	—	64.5
GR00T(arch) + Point	92.0	—	—	—	—	69.7
EO1（复现）	91.8	—	—	85.6	93.1	73.2
PointACT（本文）	97.4	—	—	90.6	96.0	82.3

RLBench 各任务成功率（部分）

任务	EO1	PointACT
Phone on base	—	99
Umbrella out	—	99
Wine at rack	—	90
Sweep to dustpan	—	59
Water plants	—	40
均值	73.2	82.3

消融实验

模型规模与 PTv3 预训练消融 — 图 5：PointACT 不同规模变体（Small: 59M, Base: 167M, Large: 314M）的性能曲线，以及是否使用 PTv3 预训练权重的对比。更大的模型从预训练中获益更多，表明优化难度随容量增加。

消融配置	LIBERO-Spatial (%)	RLBench (%)
EO1 baseline	91.8	73.2
EO1 + Point（Monolithic）	94.0	18.6
GR00T(arch) baseline	87.0	50.8
GR00T(arch) + Point（Dual-system 粗粒度）	92.0	69.7
多尺度直接拼接（K=64, 128 tokens）	—	65.2–65.6
无图像条件（仅点云）	94.2	79.8
PointACT（完整）	97.4	82.3

消融关键结论：

Monolithic 融合在 RLBench 上成功率暴跌至 18.6%，表明将点云直接注入预训练 VLM 会严重干扰其已学到的表示。
多尺度直接拼接（不使用窗口注意力）仅达 65.2–65.6%，证明"细粒度交互"是提升的关键，而非单纯引入多尺度特征。
即使移除图像条件，PointACT 也能达 79.8%（RLBench），但加入 2D 图像后进一步提升至 82.3%，说明 2D 语义特征与 3D 几何特征互补。

真实机器人实验

图 6：真实机器人平台设置。左：SO-100（6-DoF 3D 打印机械臂，Intel RealSense D435）；右：UR5（6-DoF UR5 + RG6 夹爪，Orbbec Femto Mega RGB-D 相机）。

任务	π₀	GR00T-N1.5	PointACT
SO-100 机械臂（每任务 10 次试验）
Put Banana In Plate	10/10	8/10	10/10
Put Sock In Drawer	2/10	5/10	9/10
Open Microwave	7/10	5/10	8/10

任务	π₀	GR00T-N1.5	3DLotus	PointACT
UR5 机械臂（每任务 10 次试验）
Stack Yellow Cup	0/10	0/10	7/10	7/10
Close Drawer	9/10	9/10	2/10	7/10
Put Fruit in Plates	0/10	0/10	0/10	4/10

PointACT 在"Put Sock In Drawer"任务上将成功率从 π₀ 的 2/10 提升至 9/10，充分体现了精细三维感知对复杂操作任务的价值。在 UR5 实验中，PointACT 在杯子堆叠上与 3DLotus（纯几何方法）持平，但在关抽屉任务上大幅优于 3DLotus（7/10 vs 2/10），体现了 2D 语义与 3D 几何混合的鲁棒性。

04 局限性

说明：论文在失败案例分析（Failure Analysis）和结论部分明确指出了以下局限性，已标注为作者陈述（stated）；设计层面的推断局限另行注明（推断/inferred）。

感知遮挡导致的空间推理失败（stated）

部分视角的局限性限制了对空间关系的完整理解，尤其在物体被遮挡时模型难以准确估计目标位置。作者指出此类失败需要多视角图像集成（multi-view integration）来解决。对应案例：Water plants（40% 成功率）任务中浇水壶与植物的位置关系判断困难。

缺乏失败恢复能力（stated）

"Models lack reactive recovery from execution errors or perturbations."——模型无法从执行错误或外界扰动中主动恢复，一旦中间动作出现偏差，后续动作难以纠正。作者将改进失败恢复能力列为未来工作方向。

工具媒介操作能力不足（stated）

当操作需要通过工具间接施力时（如扫把→簸箕的接触几何），模型难以建模精确的接触力学，对应 Sweep to dustpan（59% 成功率）任务表现偏弱。

点云噪声鲁棒性（推断/inferred）

作者在结论中提到"improving robustness under noisy point observations"为未来工作方向，暗示当前模型对传感器噪声（如透明/反光物体的深度缺失）较为敏感。UR5 实验中关闭透明抽屉的案例（Close Drawer）也间接体现了这一挑战，但通过 2D 视觉特征部分弥补了点云缺陷。

点云预训练数据与机器人场景不匹配（stated + inferred）

当前使用的 PTv3 预训练权重来自建筑级场景数据，与桌面操作任务存在显著域差异（domain gap）。作者明确将"scaling point-based pretraining on robot datasets"列为重要的未来工作，以提升特征迁移效果，尤其对大容量模型优化帮助更大。