cs.RO · 机器人操作 · 触觉感知

Contact-Grounded Policy:具有生成式接触锚定的灵巧视触觉策略

Dexterous Visuotactile Policy with Generative Contact Grounding
Zhengtong Xu, Yeping Wang, Ben Abbatematteo, Jom Preechayasomboon, Sonny Chan, Nick Colonnese, Amirhossein H. Memar
Purdue University · Meta Reality Labs Research · University of Wisconsin–Madison

本文提出 Contact-Grounded Policy(CGP)——一种面向灵巧接触丰富操作任务的视触觉策略学习框架。 CGP 通过联合预测机器人实际状态与触觉反馈的耦合轨迹,并利用学习到的 contact-consistency mapping 将预测结果转化为兼容柔顺控制器的可执行目标状态, 从而实现对演化中多点接触的显式"锚定",而非仅将触觉信号用作辅助观测。

arXiv 2603.05687 仿真:UR5 + DG-5F 五指手(20-DoF) 实体:Franka Panda + Allegro V5(16-DoF) 论文链接 →
关键词dexterous manipulationvisuotactile policycontact groundingdiffusion policytactile sensing灵巧操作接触感知柔顺控制多指手模仿学习

01 动机

灵巧操作需要对高维、动态变化的多点接触进行持续调控。现有方法在处理接触丰富任务时均存在明显短板: 以抓取为中心的流水线在完成抓取后限制了手指运动;强化学习面临繁琐的奖励工程与 sim-to-real 迁移难题; 模仿学习虽可扩展,但在接触丰富任务上表现不佳。

"Policies must go beyond using tactile signals as additional observations and instead model contact state and how action outputs interact with low-level controller dynamics."
—— 论文第 I 节,Introduction
CGP 整体框架
图 2:CGP 整体流程。 CGP 通过预测机器人实际状态与触觉反馈的耦合轨迹来锚定多点接触, 并使用学习到的 contact-consistency mapping 将预测结果转化为柔顺控制器可执行的目标机器人状态。
80.0%真实机器人 In-Hand Box Flipping 成功率(CGP)
93.3%真实机器人 Jar Opening 成功率(CGP)
+13.3~26.7%真实任务相对 Visuotactile DP 的提升幅度
5 Hz策略推理频率(8步 DDIM 降噪)

三种现有范式的对比

策略范式可执行接触建模多指手支持分布式接触可扩展性
Adaptive Compliance Policies受限(单末端执行器)
Sparse Fingertip Force Policies有限
Contact-Grounded Policy (CGP)

02 方法

CGP 将灵巧操作建模为一个接触锚定问题。核心思路是:在特定触觉传感器与柔顺控制器配置下, 接触状态可由三元组 (实际机器人状态 x,触觉反馈 u,控制器参考目标 a) 隐式表达, 无需显式建模接触位置或接触模式。 策略由两个耦合模块组成:contact-consistency mapping 与条件轨迹生成器(diffusion-based)。

遥操作数据采集流程
图 3:遥操作数据采集流程。 仿真环境使用 Meta Quest 3 头显进行基于 VR 的手部追踪;真实机器人使用 OptiTrack 动捕系统与仪器化手套。 两个场景共享相同的 retargeting 与控制栈架构。

Contact-Consistency Mapping Mφ

该映射将(实际机器人状态 xt,触觉反馈 ut)映射为柔顺控制器可执行的目标状态 at

at = Mφ(xt, ut)

采用残差映射(输出当前实际状态的偏移量而非绝对目标)以改善条件化效果与鲁棒性。 触觉编码器使用 ResNet 风格架构(优于 MLP 和 Transformer 变体)。 该映射以纯数据驱动方式学习,灵活适配分布式演化多点接触。

潜在触觉生成(Latent Tactile Generation)

使用带 KL 正则化的变分自编码器(VAE)将原始触觉观测压缩为紧凑的潜在表示: 仿真中触觉阵列压缩至 32 维,真实硬件的 Digit360 传感器压缩至 80 维(每传感器 20 维)。

耦合扩散模型(Coupled Diffusion)在潜在空间中联合预测未来的机器人状态轨迹与触觉潜在状态轨迹, 采用 DDPM/DDIM 训练与采样。预测视野 T=16 步,执行视野 Ta=8 步,以滚动时域方式执行。

KL 正则化虽略微提升重建误差,但能产生更紧凑、更结构化的潜在空间, 显著改善基于扩散的预测稳定性和下游策略性能。

系统配置

仿真平台

  • 机械臂:UR5 + Tesollo DG-5F 五指手(20-DoF)
  • 触觉:748 个感知点的密集力阵列(含 3D 力向量)
  • 视觉:2 路 RGB 摄像头(agent 视角 + 手腕视角)
  • 物理引擎:实时有限元求解器集成于 Unreal Engine
  • 数据采集:Meta Quest 3 VR 遥操作

真实机器人平台

  • 机械臂:Franka Panda + Allegro V5 四指手(16-DoF)
  • 触觉:4 个 Digit360 指尖传感器(RGB 图像)
  • 视觉:2 路 RGB 视角(agent + 手腕)
  • 数据采集:OptiTrack 动捕 + 仪器化手套

03 实验

实验涵盖 5 个接触丰富的灵巧操作任务(3 个仿真 + 2 个真实),并与两条基线进行对比: Visuotactile DP(视触觉 diffusion policy)和 Visuomotor DP(纯视觉 diffusion policy)。 仿真任务在最后 5 个 checkpoint 上各评估 250 条轨迹(取均值),真实任务各评估 15 条连续轨迹。

主要结果(Table II)——成功率

任务 Visuomotor DP Visuotactile DP CGP(本文)
In-Hand Box Flipping(仿真) 53.2% 58.0% 66.0%
Fragile Egg Grasping(仿真) 53.2% 70.0% 74.8%
Dish Wiping(仿真) 42.4% 43.6% 58.4%
Jar Opening(真实) 73.3% 66.7% 93.3%
In-Hand Box Flipping(真实) 60.0% 60.0% 80.0%

DP = diffusion policy。仿真任务报告最后 5 个 checkpoint 在 250 条轨迹上的平均成功率;真实任务报告 15 条连续轨迹的成功率。

CGP 推理快照与触觉预测对比
图 4:CGP 在三个仿真任务上的推理快照,展示时间对齐的预测触觉与观测触觉。 在每个推理步,扩散模型预测未来 16 步的触觉反馈与实际状态,映射为目标状态后执行 8 步, 再进入下一轮推理。预测触觉与后续实际执行结果高度吻合,说明 CGP 确实执行了接触锚定的目标, 实现了预测中的接触演化。

接触一致性映射验证(Hand Configuration Prediction)

使用 150 条遥操作抓取演示(4,114 帧,11 个物体)在仿真中进行独立测试, 数据以 1:1 的激进划分策略在 episode 层面切分以避免数据泄漏。 结果显示:同时输入机器人实际状态与触觉反馈的预测精度远优于任一单模态输入, 验证了接触锚定假设。ResNet 风格触觉编码器优于 MLP 和 Transformer 变体;残差映射优于绝对位置预测。

Contact-consistency mapping 对未见过抓取构型的预测
图 5:Contact-consistency mapping 对未见过抓取构型的手部配置预测。 该可视化提供了高层次证据:接触可以通过该映射以在多样化接触配置间泛化的方式被一致地表达。

触觉压缩与消融分析

KL 正则化消融实验结果
图 6:KL 正则化对触觉压缩的消融结果。 移除 KL 正则化虽略微降低重建误差,但使潜在空间失去结构性(KL 散度大幅增加), 并在后续策略推理中一致地降低滚出成功率。MAE = mean absolute error;Recon. = reconstruction。

推理效率

图 7 报告了在 NVIDIA A100 80GB GPU 上,50 次推理运行的平均时延。 尽管 CGP 需要额外建模未来触觉反馈和接触一致目标, 其推理延迟与 visuomotor 和 visuotactile diffusion-policy 基线相当, 满足 5 Hz 实时推理要求(8步 DDIM 降噪)。

推理时延对比
图 7:推理时延对比。 三种方法(visuomotor DP 基线、visuotactile DP 基线、CGP)的平均推理时间对比。 所有共享网络模块使用相同的架构与参数量以保证公平性。

04 局限性

说明:以下局限性均来自论文第 VI 节(Limitations and Future Work)中作者的明确陈述(stated),并非推断。
传感器与控制器的特异性(Sensor & Controller Specificity)

"The contact-consistency mapping relies on tactile observations and is learned under a particular compliance controller, so it does not readily transfer across sensor types or controller configurations." 具体而言,CGP 为每种传感器从头训练,更换传感器类型需要重新训练或适配, 跨传感器和跨控制器的接触锚定仍具挑战性。

有限的 Sim-to-Real 迁移(Limited Sim-to-Real Transfer)

当前评估通过独立的仿真实验和真实部署分别进行,而非直接的 sim-to-real 迁移。 真实触觉传感器(Digit360 视觉触觉传感器)与仿真中的力阵列在传感原理上存在根本差异, 使得直接迁移困难。论文将仿真与真实训练分离,未验证仿真预训练是否能有效迁移至真实。

单任务训练(Single-Task Training)

当前方法验证了接触锚定在单个任务上的有效性, 但未探索跨具有不同目标和接触模式的任务之间的迁移能力。 论文建议未来方向之一是通过跨任务联合训练扩展到更广泛的任务分布。

未来方向(Future Work)