计算机视觉 · CVPR-track · arXiv 2026

ComPose: 统一补全-姿态框架
用于鲁棒类别级物体姿态估计

A Unified Completion-Pose Framework for Robust Category-Level Object Pose Estimation
Huan Ren · Yihan Chen · Chuxin Wang · Nailong Liu · Wenfei Yang · Tianzhu Zhang  |  中国科学技术大学 · 深空探测重点实验室

深度相机拍摄的物体点云天然不完整——自遮挡导致背面信息缺失,严重制约姿态估计精度。 ComPose 将点云补全与姿态估计统一在单个网络中,通过关键点渐进补全恢复完整几何,再辅以几何关系编码和一致性约束,在无需类别形状先验的条件下同时实现高精度与高效率。

深度 / RGB-D 双模式 无形状先验 38.4 FPS · RTX3090Ti 📄 arXiv:2605.25553 🌐 Project Page
category-level pose estimation point cloud completion 关键点渐进补全 NOCS 坐标 几何关系一致性 6D pose estimation transformer decoder RGB-D perception

01 动机

类别级物体姿态估计旨在预测特定类别内任意物体的 6D 姿态与 3D 尺寸,无需实例级 CAD 模型。 现有方法的核心瓶颈:观测点云的固有不完整性——深度相机因自遮挡只能捕获物体正面,导致网络无法感知完整形状。

三种几何表示策略对比
图1:三种几何表示策略对比。 (a) 经典方法直接从残缺点云提取几何特征,无法感知完整物体结构; (b) Prior-based 方法借助类别形状先验(SPD [31])在特征层面补充形状信息,但仍在不完整几何上操作; (c) 本文方法(ComPose)显式集成形状补全,在观测空间恢复完整几何,实现更全面鲁棒的姿态推断。
"how can we effectively and efficiently integrate the complete geometric cues recovered from point cloud completion to enhance object pose estimation?"

作者通过 oracle 实验量化了完整几何的上界价值:将 AG-Pose(当前最优 depth-only 方法)的输入替换为 ground-truth 完整点云(网络架构不变),10°2cm 精度从 68.5% 跃升至 91.7%,增幅高达 23.2 个百分点。 但朴素的"先补全再估计"两阶段流水线仅能达到 71.0%,且推理速度从 33.5 FPS 骤降至 21.5 FPS——说明简单级联补全与估计网络无法充分挖掘完整几何的潜力。

精度与推理速度对比散点图
图2:depth-only 各版本精度与推理速度对比。 虚线圆圈为使用 ground-truth 完整点云的性能上界(91.7%, 33.5 FPS)。 ComPose 以 77.8% 精度、38.4 FPS 速度同时超越两阶段方案(71.0%, 21.5 FPS)和原始 AG-Pose(68.5%, 33.5 FPS),实现"高精度且高速度"的最优平衡。
+9.3%10°2cm vs AG-Pose
(depth-only, REAL275)
38.4 FPS推理速度
RTX3090Ti
91.7%Oracle 上界
完整点云输入
无先验不依赖
类别形状先验

02 方法

ComPose 由四个模块串联构成:(1) 残缺特征提取,(2) 基于关键点的渐进补全,(3) 几何关系编码,(4) 基于对应关系的姿态估计。 输入为残缺点云 Ppart(和可选 RGB 图像),输出 6D 旋转 R ∈ SO(3)、平移 t ∈ ℝ³、尺寸 s ∈ ℝ³。

ComPose 框架总览
图3:ComPose 框架总览。 (a) 框架整体流程,支持 RGB-D 与 depth-only 双模式。 (b) 关键点渐进补全:从可见候选 Cvis 和缺失候选 Cmiss 自适应选取粗关键点,经 Transformer decoder 与残缺特征交互,渐进恢复精细关键点 Pkpt 和稠密完整点云 Pcom。 (c) 几何关系建模:增强关键点特征后预测 NOCS 坐标,并通过成对几何关系一致性约束保证结构对齐。

① 残缺特征提取

对残缺点云 Ppart 使用 PointNet++ 提取逐点几何特征 Fpn。 在 RGB-D 模式下,还引入 DINOv2 提取姿态一致的语义特征 Fdino,与几何特征拼接并投影到 D 维。 随后通过 Self-Attention (SA) 层捕获全局上下文,得到残缺表示 Fpart

② 关键点渐进补全

粗关键点生成:全局 max pooling 得到 fglobal,MLP 预测缺失关键点候选 Cmiss;FPS 采样可见关键点候选 Cvis;二者合并后由 scoring MLP 自适应选出 Nkpt=64 个代表关键点 Ckpt
渐进精化:以 fglobal+PE(Ckpt) 构造查询 Qkpt,通过 Cross-Attention + Self-Attention 与 Fpart 交互,输出精化关键点坐标 Pkpt 和稠密完整点云 Pcom(Ncom=1024 点)。 训练时以 Chamfer Distance 对 {Cmiss, Pkpt, Pcom} 分别监督。

③ 几何关系编码

对每个关键点 Pkptn,从 Ppart 检索 Nknn 个近邻点及特征,计算:
局部关系嵌入 Eln = MLP(Pkptn − Pknnn)
全局关系嵌入 Egn = MLP(Pkptn − Pkpt)
交替通过 Cross-Attention 和 AvgPool 增强关键点特征,得到几何感知表示 Fgeo

④ 几何关系一致性约束

经典 point-to-point 损失无法捕获全局结构——两组 NOCS 坐标可能逐点误差相近却整体形状迥异。 本文提出几何关系一致性损失:计算关键点缩放坐标 Pkpt/‖sgt‖₂ 的成对 L₂ 距离矩阵 Gkpt,以及预测 NOCS 坐标的对应矩阵 Gnocs,强制二者一致:
Lgeo = (1/N2kpt) Σn,m (Gkptn,m − Gnocsn,m
总损失:Lall = λcomLcom + λscoreLscore + λcorrLcorr + λgeoLgeo(λcom=15, λscore=1, λcorr=2, λgeo=1)

关键点渐进补全可视化

关键点渐进补全可视化
图4:关键点渐进补全过程可视化(Bowl / Mug / Camera 三类)。 从左至右:残缺点云 Ppart → 粗关键点 Ckpt → 精化关键点 Pkpt → 稠密完整形状 Pcom → CAD 模型 Mcad。 补全模块不仅渐进恢复完整几何,还能有效过滤不准确分割导致的离群点,获得更干净的物体表示。

03 实验

在三个基准数据集上评估:CAMERA25(27.5万合成图像,6类)、REAL275(真实世界,4.3K训练/2.75K测试,6类)、HouseCat6D(20K训练/3K测试,10类,含严重遮挡)。 评估指标:n°m cm 精度(旋转误差 <n°且平移误差 <m cm 的预测比例)与 IoUx 3D 尺寸精度。 实例分割掩码与 AG-Pose 相同(Mask R-CNN)。

REAL275 数据集对比(depth-only setting)

方法形状先验 IoU50IoU75 5°2cm5°5cm10°2cm10°5cm
SAR-Net [11]79.362.431.642.350.368.3
RBP-Pose [43]67.838.248.163.179.2
DR-Pose [45]78.968.241.746.067.776.3
GPV-Pose [5]64.432.042.973.3
HS-Pose [44]82.174.746.555.268.682.7
Query6DoF [37]82.576.149.058.968.783.0
AG-Pose* [15]83.275.648.858.868.580.8
ComPose(本文) 82.177.0 55.661.3 77.885.0

REAL275 数据集对比(RGB-D setting)

方法形状先验 IoU50IoU75 5°2cm5°5cm10°2cm10°5cm
SPD [31]77.353.219.321.443.254.1
GCE-Pose [10]84.179.857.065.175.686.3
AG-Pose [15]84.180.157.064.675.184.7
SpotPose [29]84.181.259.764.881.588.2
CleanPose [16]61.567.478.386.2
ComPose(本文) 84.081.4 62.168.0 81.889.2

HouseCat6D 数据集对比

方法Setting IoU25IoU50 5°2cm5°5cm10°2cm10°5cm
AG-Pose* [15]D-only81.459.99.710.625.929.7
ComPoseD-only 81.665.111.812.7 34.838.9
GCE-Pose [10]RGB-D79.224.825.755.458.4
AG-Pose [15]RGB-D88.176.921.322.151.354.3
ComPoseRGB-D 90.380.625.827.6 57.861.5
定性对比:ComPose vs AG-Pose
图5:ComPose 与 AG-Pose 的定性对比(REAL275)。 红色为预测结果,绿色为 GT。ComPose 受益于对完整物体几何的更好理解,在各类物体上均取得更准确、更稳定的姿态预测。

消融实验

形状补全策略消融

将完整形状恢复替换为 AG-Pose 的局部实例重建(仅可见区域),5°2cm 下降 6%(55.6→49.6),证明完整几何对精确姿态估计的关键作用。 去除稠密完整形状 Pcom,10°5cm 下降 1.7%(85.0→83.3)。

几何关系建模消融

无编码、无一致性约束的基线:5°2cm 仅 49.5%。 加入几何关系编码 +4.3%(→53.8%),再加入几何关系一致性约束 +1.8%(→55.6%),两者均显著有益。

形状补全质量(REAL275 camera 类)

方法设置形状先验CDunitCD ↓
SPD [31]RGB-D8.89
SGPA [1]RGB-D5.51
DR-Pose [45]D5.26
ComPoseRGB-D4.200.17
ComPoseD6.090.23

Chamfer Distance (×10⁻³)。ComPose 在无形状先验条件下于观测空间直接重建完整形状,RGB-D 版本 CDunit=4.20,优于所有使用形状先验的 canonical space 重建方法。

遮挡鲁棒性测试(REAL275 + 25% 遮挡增强)

方法是否加遮挡5°2cm5°5cm10°2cm10°5cm
AG-Pose* [15]×48.858.868.580.8
AG-Pose* [15]37.149.154.372.6
AG-Pose 下降幅度24.0%16.5%20.7%10.1%
ComPose×55.661.377.885.0
ComPose42.753.662.977.7
ComPose 下降幅度 23.2%12.6%19.2%8.6%

在 5°5cm 指标上,AG-Pose 精度下降 16.5%,而 ComPose 仅下降 12.6%,表明完整形状补全带来了更强的遮挡鲁棒性。

04 局限性

Note:论文中无独立 Limitations 章节。以下各点均为从设计和实验中推断(inferred from the design),非作者明确陈述。
仍依赖实例分割掩码

ComPose 的输入为预先经过 Mask R-CNN 分割的单实例残缺点云。 因此,分割质量(掩码精度、类别召回)直接影响最终姿态精度,对复杂遮挡或多实例密集场景的鲁棒性仍受制于上游分割模块。 尽管作者指出补全模块可过滤不准确分割引入的离群点,但根本问题未被消除。

完整形状上界与实际精度之间仍有差距

Oracle 实验表明完整点云输入可将 10°2cm 提升至 91.7%,而 ComPose 实际仅达到 77.8%,差距约 14 个百分点。 这意味着补全质量(尤其是高遮挡情形下)仍是瓶颈,进一步提升补全精度有望带来可观的收益空间。

在 observation space 补全,训练需要 CAD 模型变换

为监督观测空间的形状补全(Lcom),训练时需要将 CAD 模型 Mcad 通过 ground-truth 姿态 {Rgt, tgt, sgt} 变换到观测空间作为监督信号。 这要求训练数据集提供完整的 CAD 模型和精确的 GT 姿态标注,限制了在纯真实数据(无 CAD 模型)上的训练泛化性。

仅在 6 / 10 个室内物体类别上验证

实验仅覆盖 REAL275(6 类)和 HouseCat6D(10 类)等室内桌面物体,均为相对规则的刚体。 对于形状更不规则、类内变化极大(如衣物、食物)或铰接物体,方法的泛化能力尚未被验证。