SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

01 动机

工具是人类能力的放大器——锤子、刷子、画笔、螺丝刀……每件工具都显著扩展了机器人可执行任务的范围。但工具操控同时要求三项高难度技能并存：抓取薄而扁平的物体、手内旋转至功能构型、在施力过程中维持稳定抓持。遥操作数据采集对此极为困难，而现有的 sim-to-real RL 方案通常需要为每个物体和任务单独建模、单独调节 reward，工程量巨大且无法跨任务泛化。

"Instead of focusing on a single object and task, we procedurally generate a large variety of tool-like object primitives in simulation and train a single RL policy with the universal goal of manipulating each object to random goal poses. This approach enables SimToolReal to perform general dexterous tool manipulation at test-time without any object or task-specific training."

SimToolReal Teaser — **图 1 · SimToolReal 框架概览。**顶部展示在真实环境中对从未见过的工具（从细薄的画笔到厚重的锤子）进行零样本部署；底部展示工具使用的三个典型阶段：从平面抓取、手内重定向、执行任务动作。

120真实世界 rollouts（5 trials × 24 tasks）

+37%超越 retargeting / fixed-grasp 基线

6种工具类别（锤子、画笔、橡皮擦等）

1个统一策略（无任何物体/任务特定训练）

02 方法

SimToolReal 将工具操控统一建模为 object-centric goal-reaching：给定当前物体 6D 位姿与目标位姿，策略输出关节角度目标，驱动机器人将物体从当前位姿运动至目标位姿。训练完全在仿真中对程序生成的 primitive objects 进行，推理阶段从人类示范视频中提取工具轨迹作为目标位姿序列，直接零样本部署。

SimToolReal Overview — **图 2 · 整体框架。**训练阶段（上）：在仿真中对程序生成的各种 primitive objects 训练 goal-conditioned RL policy，目标为将物体操纵至随机采样的目标位姿。推理阶段（下）：将此策略零样本部署至 DexToolBench 真实工具，跟随从人类视频中提取的工具轨迹。

问题形式化：Goal-Conditioned Object-Centric Policy

策略定义为 π_θ(s_t, o_t, φ, g)，输出关节位置目标，其中：

s_t：机器人本体感知（proprioception）
o_t ∈ SE(3)：当前物体位姿
φ：物体描述符（6D 位姿 + 3D 抓取 bounding box 的中心与尺寸，均在物体坐标系下）
g ∈ SE(3)：目标位姿

Reward 设计为：r = r_smooth + r_grasp + I_grasped × r_goal，其中 r_goal = max(d* - d(o_t, g), 0) + B_succ × I[d(o_t, g) < ε]。这一设计使 reward 无需针对具体工具或任务进行调整，具有高度通用性。

程序化物体生成（Procedural Primitive Generation）

仿真中的训练物体为大量程序生成的"handle + head"组合体，使用圆柱体与长方体搭建，变化维度包括尺寸、质量分布等。这些 primitive objects 无需与真实工具完全对齐，其多样性足以激发策略学习到在真实任务中所需的核心操控技能。

SAPG 优化与 Asymmetric Critic

训练采用 SAPG（Scalable Actor-Prior Guided）优化器替代标准 PPO，其基于种群的探索机制对于灵巧操控所需的多模态动作空间探索至关重要。同时使用 Asymmetric Critic：Critic 访问仿真中的特权信息（如物体真实质量、接触力），Actor 仅使用可在真实世界获取的观测——这一设计显著提升了 value function 的估计精度而不依赖不可观测的状态。此外，策略采用 LSTM 主干网络以整合时序信息，并在训练中注入 domain randomization（观测延迟、动作延迟、力/力矩扰动等）。

Real-World Deployment Pipeline — **图 3 · 真实世界部署流水线。**左侧：从 RGB-D 人类示范视频出发，经 SAM 3D 生成物体 3D mesh 并分割 3D 抓取 bounding box，再经 FoundationPose 提取 6D 目标位姿序列（3 Hz 下采样）。右侧：LSTM 策略接收本体感知、物体位姿、抓取 bounding box 与目标位姿，输出 29-DoF 机器人（手臂 + 手部）的关节位置目标。

DexToolBench

论文同时提出 DexToolBench——一个针对灵巧工具操控的评测基准，包含：

24 个任务轨迹（task trajectories）
12 个物体实例（object instances）
6 个工具类别：hammer、marker、eraser、brush、spatula、screwdriver

每个任务配有 RGB-D 人类示范视频和数字孪生仿真环境。评测指标为 Task Progress：策略达到示范目标位姿的百分比，成功阈值 ε = 2 cm。

03 实验

在 DexToolBench 上进行全面评测：120 次真实世界 rollouts（每个任务 5 次），覆盖 24 个任务、12 个物体实例、6 种工具类别。SimToolReal 与三类基线对比：Kinematic Retargeting（运动学重定向）、Fixed Grasp（固定抓取）以及 Specialist RL policies（每个类别单独训练的专家策略）。

真实世界零样本泛化

Real-World Generalization Results — **图 4 · DexToolBench 真实世界泛化结果。**每个柱子对应一个任务轨迹在一个物体实例上、5 次 rollouts 的平均 Task Progress。策略在未见过的工具和轨迹上均表现出强泛化能力。橡皮擦类（eraser）以平移为主，Task Progress 最高；细薄的画笔（marker）因姿态追踪难度较大，性能有所下降。

与基线对比

方法	抓取能力	需旋转（Task Progress）	无需旋转（Task Progress）
Kinematic Retargeting	❌ 无法抓取	0%	0%
Fixed Grasp	✓	失败（碰撞）	成功
SimToolReal（ours）	✓	成功（+37% vs 基线）	成功

论文原文："SimToolReal outperforms prior retargeting and fixed-grasp methods by 37%"。Kinematic Retargeting 因忽略接触力而无法完成抓取；Fixed Grasp 在无需旋转的变体中可以成功，但一旦要求手内旋转，强制固定抓取会导致手臂与桌面碰撞。

Baseline Comparison — **图 5 · 基线对比（刷子扫桌任务，两种变体）。**左：无需旋转变体；右：需要手内旋转变体。SimToolReal 在两种变体均成功，展现出流畅的手内旋转动作；Fixed Grasp 在需旋转时导致碰撞；Kinematic Retargeting 在两种变体均无法完成抓取。

与专家策略对比（仿真）

Specialist Comparison — **图 6 · SimToolReal 与专家策略对比（仿真）。**6 个专家策略各自在单一物体（Obj A）+ 单一轨迹（Traj A）上训练。在训练配置（Obj A / Traj A）下专家策略与 SimToolReal 持平；切换至新轨迹（Obj A / Traj B）或新物体（Obj B / Traj A）后，专家策略 Task Progress 显著下降，而 SimToolReal 在所有变体上保持高水准的零样本 Task Progress。

训练目标与泛化的相关性

Training Objective Correlation — **图 7 · 训练目标驱动泛化。**左：训练过程中对程序生成物体的 episode reward；右：对未见 DexToolBench 工具的零样本 Task Progress。两条曲线高度同步，验证了核心假设：在多样 primitive objects 上提升随机目标位姿达成能力，可直接驱动对未见工具使用行为的泛化。

Ablation 研究

论文在 5 个随机种子上进行 ablation，比较以下关键设计决策对训练 reward 的影响：

SAPG vs. PPO：将 SAPG 替换为标准 PPO 导致"significant drop in performance"——SAPG 的种群式探索机制对灵巧操控的多模态动作空间至关重要。
Asymmetric Critic：移除该设计"severely hinders learning"——特权信息对 value function 的准确估计不可或缺。

失败模式分析

真实世界失败原因分布：

姿态追踪丢失（Pose tracking loss）：43.7%
物体跌落（Object drops）：34.5%
手内旋转不完整（Incomplete in-hand rotation）：18.2%
抓取失败（Grasp failure）：3.6%

04 局限性

注：以下局限性部分来自论文显式陈述（标注"作者指出"），部分为从设计中推断（标注"设计推断"）。

无法保证高力交互任务的功能完成（作者指出）

策略以 Task Progress（目标位姿到达率）为优化目标，而非任务功能的最终完成。对于需要精确施力（如钉钉子、拧螺丝到底）的场景，达到目标轨迹位姿不等同于任务成功。

以物体位姿为目标的环境盲问题（作者指出）

"Conditioning on object pose goals alone is environment-blind, which can lead to collisions in cluttered scenes."——策略仅感知物体位姿与目标位姿，不感知周围障碍物，在复杂场景中可能发生碰撞。

不支持非刚体工具（设计推断）

物体表示依赖 6D 刚体位姿，无法处理几何形变（如弹性刷毛、软管等非刚体工具），从根本上限制了可泛化的工具范围。

固定目标序列，无动态重规划（设计推断）

目标位姿序列从人类示范视频中离线提取，推理阶段按固定顺序条件化执行，无法根据实时感知动态调整策略或跳过不可达目标。

姿态追踪失败是最主要的真实世界失败模式（作者指出）

真实世界失败中 43.7% 源于 FoundationPose 的姿态追踪丢失。策略的泛化上限在一定程度上受制于感知模块的鲁棒性，而非策略本身的控制能力。