ComPose: 统一补全-姿态框架用于鲁棒类别级物体姿态估计

01 动机

类别级物体姿态估计旨在预测特定类别内任意物体的 6D 姿态与 3D 尺寸，无需实例级 CAD 模型。现有方法的核心瓶颈：观测点云的固有不完整性——深度相机因自遮挡只能捕获物体正面，导致网络无法感知完整形状。

**图1：三种几何表示策略对比。** (a) 经典方法直接从残缺点云提取几何特征，无法感知完整物体结构； (b) Prior-based 方法借助类别形状先验（SPD [31]）在特征层面补充形状信息，但仍在不完整几何上操作； (c) **本文方法（ComPose）**显式集成形状补全，在观测空间恢复完整几何，实现更全面鲁棒的姿态推断。

"how can we effectively and efficiently integrate the complete geometric cues recovered from point cloud completion to enhance object pose estimation?"

作者通过 oracle 实验量化了完整几何的上界价值：将 AG-Pose（当前最优 depth-only 方法）的输入替换为 ground-truth 完整点云（网络架构不变），10°2cm 精度从 68.5% 跃升至 91.7%，增幅高达 23.2 个百分点。但朴素的"先补全再估计"两阶段流水线仅能达到 71.0%，且推理速度从 33.5 FPS 骤降至 21.5 FPS——说明简单级联补全与估计网络无法充分挖掘完整几何的潜力。

精度与推理速度对比散点图 — **图2：depth-only 各版本精度与推理速度对比。** 虚线圆圈为使用 ground-truth 完整点云的性能上界（91.7%, 33.5 FPS）。 ComPose 以 **77.8% 精度、38.4 FPS 速度**同时超越两阶段方案（71.0%, 21.5 FPS）和原始 AG-Pose（68.5%, 33.5 FPS），实现"高精度且高速度"的最优平衡。

+9.3%10°2cm vs AG-Pose
(depth-only, REAL275)

38.4 FPS推理速度
RTX3090Ti

91.7%Oracle 上界
完整点云输入

无先验不依赖
类别形状先验

02 方法

ComPose 由四个模块串联构成：(1) 残缺特征提取，(2) 基于关键点的渐进补全，(3) 几何关系编码，(4) 基于对应关系的姿态估计。输入为残缺点云 P^part（和可选 RGB 图像），输出 6D 旋转 R ∈ SO(3)、平移 t ∈ ℝ³、尺寸 s ∈ ℝ³。

**图3：ComPose 框架总览。** (a) 框架整体流程，支持 RGB-D 与 depth-only 双模式。 (b) 关键点渐进补全：从可见候选 C^vis 和缺失候选 C^miss 自适应选取粗关键点，经 Transformer decoder 与残缺特征交互，渐进恢复精细关键点 P^kpt 和稠密完整点云 P^com。 (c) 几何关系建模：增强关键点特征后预测 NOCS 坐标，并通过成对几何关系一致性约束保证结构对齐。

① 残缺特征提取

对残缺点云 P^part 使用 PointNet++ 提取逐点几何特征 F^pn。在 RGB-D 模式下，还引入 DINOv2 提取姿态一致的语义特征 F^dino，与几何特征拼接并投影到 D 维。随后通过 Self-Attention (SA) 层捕获全局上下文，得到残缺表示 F^part。

② 关键点渐进补全

粗关键点生成：全局 max pooling 得到 f^global，MLP 预测缺失关键点候选 C^miss；FPS 采样可见关键点候选 C^vis；二者合并后由 scoring MLP 自适应选出 N^kpt=64 个代表关键点 C^kpt。
渐进精化：以 f^global+PE(C^kpt) 构造查询 Q^kpt，通过 Cross-Attention + Self-Attention 与 F^part 交互，输出精化关键点坐标 P^kpt 和稠密完整点云 P^com（N^com=1024 点）。训练时以 Chamfer Distance 对 {C^miss, P^kpt, P^com} 分别监督。

③ 几何关系编码

对每个关键点 P^kpt_n，从 P^part 检索 N^knn 个近邻点及特征，计算：
• 局部关系嵌入 E^l_n = MLP(P^kpt_n − P^knn_n)
• 全局关系嵌入 E^g_n = MLP(P^kpt_n − P^kpt)
交替通过 Cross-Attention 和 AvgPool 增强关键点特征，得到几何感知表示 F^geo。

④ 几何关系一致性约束

经典 point-to-point 损失无法捕获全局结构——两组 NOCS 坐标可能逐点误差相近却整体形状迥异。本文提出几何关系一致性损失：计算关键点缩放坐标 P^kpt/‖s^gt‖₂ 的成对 L₂ 距离矩阵 G^kpt，以及预测 NOCS 坐标的对应矩阵 G^nocs，强制二者一致：
L^geo = (1/N²_kpt) Σ_n,m (G^kpt_n,m − G^nocs_n,m)²
总损失：L^all = λ^comL^com + λ^scoreL^score + λ^corrL^corr + λ^geoL^geo（λ^com=15, λ^score=1, λ^corr=2, λ^geo=1）

关键点渐进补全可视化

03 实验

在三个基准数据集上评估：CAMERA25（27.5万合成图像，6类）、REAL275（真实世界，4.3K训练/2.75K测试，6类）、HouseCat6D（20K训练/3K测试，10类，含严重遮挡）。评估指标：n°m cm 精度（旋转误差 <n°且平移误差 <m cm 的预测比例）与 IoU_x 3D 尺寸精度。实例分割掩码与 AG-Pose 相同（Mask R-CNN）。

REAL275 数据集对比（depth-only setting）

方法	形状先验	IoU₅₀	IoU₇₅	5°2cm	5°5cm	10°2cm	10°5cm
SAR-Net [11]	✓	79.3	62.4	31.6	42.3	50.3	68.3
RBP-Pose [43]	✓	—	67.8	38.2	48.1	63.1	79.2
DR-Pose [45]	✓	78.9	68.2	41.7	46.0	67.7	76.3
GPV-Pose [5]	✗	—	64.4	32.0	42.9	—	73.3
HS-Pose [44]	✗	82.1	74.7	46.5	55.2	68.6	82.7
Query6DoF [37]	✗	82.5	76.1	49.0	58.9	68.7	83.0
AG-Pose* [15]	✗	83.2	75.6	48.8	58.8	68.5	80.8
ComPose（本文）	✗	82.1	77.0	55.6	61.3	77.8	85.0

REAL275 数据集对比（RGB-D setting）

方法	形状先验	IoU₅₀	IoU₇₅	5°2cm	5°5cm	10°2cm	10°5cm
SPD [31]	✓	77.3	53.2	19.3	21.4	43.2	54.1
GCE-Pose [10]	✓	84.1	79.8	57.0	65.1	75.6	86.3
AG-Pose [15]	✗	84.1	80.1	57.0	64.6	75.1	84.7
SpotPose [29]	✗	84.1	81.2	59.7	64.8	81.5	88.2
CleanPose [16]	✗	—	—	61.5	67.4	78.3	86.2
ComPose（本文）	✗	84.0	81.4	62.1	68.0	81.8	89.2

HouseCat6D 数据集对比

方法	Setting	IoU₂₅	IoU₅₀	5°2cm	5°5cm	10°2cm	10°5cm
AG-Pose* [15]	D-only	81.4	59.9	9.7	10.6	25.9	29.7
ComPose	D-only	81.6	65.1	11.8	12.7	34.8	38.9
GCE-Pose [10]	RGB-D	—	79.2	24.8	25.7	55.4	58.4
AG-Pose [15]	RGB-D	88.1	76.9	21.3	22.1	51.3	54.3
ComPose	RGB-D	90.3	80.6	25.8	27.6	57.8	61.5

定性对比：ComPose vs AG-Pose — **图5：ComPose 与 AG-Pose 的定性对比（REAL275）。** 红色为预测结果，绿色为 GT。ComPose 受益于对完整物体几何的更好理解，在各类物体上均取得更准确、更稳定的姿态预测。

消融实验

形状补全策略消融

将完整形状恢复替换为 AG-Pose 的局部实例重建（仅可见区域），5°2cm 下降 6%（55.6→49.6），证明完整几何对精确姿态估计的关键作用。去除稠密完整形状 P^com，10°5cm 下降 1.7%（85.0→83.3）。

几何关系建模消融

无编码、无一致性约束的基线：5°2cm 仅 49.5%。加入几何关系编码 +4.3%（→53.8%），再加入几何关系一致性约束 +1.8%（→55.6%），两者均显著有益。

形状补全质量（REAL275 camera 类）

方法	设置	形状先验	CD^unit ↓	CD ↓
SPD [31]	RGB-D	✓	8.89	—
SGPA [1]	RGB-D	✓	5.51	—
DR-Pose [45]	D	✓	5.26	—
ComPose	RGB-D	✗	4.20	0.17
ComPose	D	✗	6.09	0.23

Chamfer Distance (×10⁻³)。ComPose 在无形状先验条件下于观测空间直接重建完整形状，RGB-D 版本 CD^unit=4.20，优于所有使用形状先验的 canonical space 重建方法。

遮挡鲁棒性测试（REAL275 + 25% 遮挡增强）

方法	是否加遮挡	5°2cm	5°5cm	10°2cm	10°5cm
AG-Pose* [15]	×	48.8	58.8	68.5	80.8
AG-Pose* [15]	✓	37.1	49.1	54.3	72.6
AG-Pose 下降幅度		24.0%	16.5%	20.7%	10.1%
ComPose	×	55.6	61.3	77.8	85.0
ComPose	✓	42.7	53.6	62.9	77.7
ComPose 下降幅度		23.2%	12.6%	19.2%	8.6%

在 5°5cm 指标上，AG-Pose 精度下降 16.5%，而 ComPose 仅下降 12.6%，表明完整形状补全带来了更强的遮挡鲁棒性。

04 局限性

Note：论文中无独立 Limitations 章节。以下各点均为从设计和实验中推断（inferred from the design），非作者明确陈述。

仍依赖实例分割掩码

ComPose 的输入为预先经过 Mask R-CNN 分割的单实例残缺点云。因此，分割质量（掩码精度、类别召回）直接影响最终姿态精度，对复杂遮挡或多实例密集场景的鲁棒性仍受制于上游分割模块。尽管作者指出补全模块可过滤不准确分割引入的离群点，但根本问题未被消除。

完整形状上界与实际精度之间仍有差距

Oracle 实验表明完整点云输入可将 10°2cm 提升至 91.7%，而 ComPose 实际仅达到 77.8%，差距约 14 个百分点。这意味着补全质量（尤其是高遮挡情形下）仍是瓶颈，进一步提升补全精度有望带来可观的收益空间。

在 observation space 补全，训练需要 CAD 模型变换

为监督观测空间的形状补全（L^com），训练时需要将 CAD 模型 M^cad 通过 ground-truth 姿态 {R^gt, t^gt, s^gt} 变换到观测空间作为监督信号。这要求训练数据集提供完整的 CAD 模型和精确的 GT 姿态标注，限制了在纯真实数据（无 CAD 模型）上的训练泛化性。

仅在 6 / 10 个室内物体类别上验证

实验仅覆盖 REAL275（6 类）和 HouseCat6D（10 类）等室内桌面物体，均为相对规则的刚体。对于形状更不规则、类内变化极大（如衣物、食物）或铰接物体，方法的泛化能力尚未被验证。