cs.RO · arXiv 2025

Do You Need Proprioceptive States in Visuomotor Policies?

State-free 策略:仅凭视觉实现跨高度、跨位置的空间泛化机器人操控
Juntu Zhao*, Wenbo Lu*, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao
上海交通大学 · Spirit AI · 清华大学 · 纽约大学上海 · 同济大学

本体感知(关节角度、末端位姿等状态输入)是机器人视觉运动策略的默认输入,但作者发现它实际上是泛化的"绊脚石"——策略会以状态为"捷径"记忆训练轨迹,而非学会真正的视觉推理。去掉状态输入、改用相对末端执行器动作空间与双广角腕部相机,即可在多机器人平台上大幅提升空间泛化,同时保持域内性能不变。

arXiv 2509.18644 cs.RO 2025-09-23 📄 arXiv:2509.18644 PDF
visuomotor policy proprioception relative end-effector action spatial generalization wrist camera 机器人操控 cross-embodiment imitation learning State-free Policy data efficiency

01 动机

本体感知状态(关节角度、末端执行器绝对位姿等)长期以来被视为视觉运动策略的必要输入——但它真的有帮助吗?作者通过系统实验发现,状态输入反而会让策略"走捷径":在固定高度、固定位置训练后,只要物体位置稍有变动,成功率就从98%骤降至0%。

"State inputs may act as shortcuts that enable policies to memorize training trajectories tied to specific states, rather than developing true visual reasoning for task completion."
teaser — spatial generalization comparison
图1:空间泛化对比。 State-based 策略(蓝)在高度/水平方向泛化时成功率接近0%;State-free 策略(绿)在多个任务和机器人平台上均保持高成功率。x轴为物体偏移量,y轴为任务成功率。
0% → 98.4%Pick Pen 高度泛化提升
6% → 58.4%Pick Pen 水平泛化提升
18.3% → 83.4%Fold Shirt 水平泛化提升
11.7% → 78.4%Fetch Bottle 全身机器人泛化提升

传统的 state-based 策略在域内(in-domain)表现良好,但当桌子高度变化±10cm 或物体水平偏移5~10cm 时,性能急剧下降。这种脆弱性在真实部署中代价极高。作者验证了该现象在三种不同机器人平台(双臂类人机器人、Arx5 系统、26自由度全身机器人)上均普遍存在。

02 方法

State-free Policy 由三个核心设计组成:去除所有状态输入采用相对末端执行器动作空间、以及使用双广角腕部相机提供充分的视觉覆盖。三者协同,使策略的决策完全依赖于视觉观测,从而具备内在的位姿无关性。

camera setup comparison
图2:相机配置对比。 (a) 单个普通腕部相机视角受限,任务目标可能移出视野;(b) 顶部+底部双广角相机(各120°×120°视角)安装于末端执行器,覆盖完整任务空间,确保目标始终可见。

相对末端执行器动作空间(Relative EEF Action Space)

策略预测相对位移 Δpt = [Δxt, Δqt],而非绝对位姿。由于相机固定在末端执行器上,相同的视觉观测对应相同的相对位移,无论机器人的绝对姿态如何——这是空间泛化的核心机制。与之对比,绝对动作空间下策略必须感知自身绝对位置(即需要状态输入),而关节角度空间则因逆运动学高度非线性而难以泛化。

双广角腕部相机(Dual Wide-Angle Wrist Cameras)

在末端执行器顶部和底部各安装一个120°×120° 广角相机。单个普通腕部相机在抓取不同高度物体时,目标很容易滑出视野;双广角方案保证了在所有操作阶段任务相关区域均在视场内。实验还发现,移除俯视(overhead)相机反而提升了性能——俯视视角在机器人姿态变化时会引入分布偏移,拖累泛化。

three robot embodiments
图3:三种机器人平台与代表性任务。 从左至右:2×8 DoF 类人双臂机器人、2×7 DoF Arx5 系统、26 DoF 全身机器人,以及 pick-and-place、shirt-folding、bottle-fetching 等代表性任务。所提方法在三种平台上均有效。

与策略架构无关

State-free 设计并非针对某一特定策略架构,而是一种通用的输入/动作空间改造方案。实验验证了其在 π₀、ACT、Diffusion Policy 三种架构上均一致有效,其中 π₀ 表现最优。

03 实验

在三种真实机器人平台和 LIBERO 仿真基准上进行验证,涵盖高度泛化(±10cm)、水平泛化(5~10cm偏移)、域内性能、数据效率和跨实体迁移五个维度。使用 π₀ 作为主要策略架构,对比 state-based 变体(相同视觉输入+本体感知状态)。

真实场景空间泛化(主要结果)

任务泛化类型State-basedState-free (本文)提升
Pick Pen高度泛化0%98.4%+98.4pp
Pick Pen水平泛化6%58.4%+52.4pp
Fold Shirt水平泛化18.3%83.4%+65.1pp
Fetch Bottle(全身)水平泛化11.7%78.4%+66.7pp
LIBERO(仿真均值)域内93.8%94.5%+0.7pp
generalization success rates
图5:三项 pick-and-place 任务的高度与水平泛化成功率柱状图。 绿色(State-free)在各任务和偏移量下均显著优于蓝色(State-based)。域内性能(最左侧)两者相当,证明 State-free 在不损失训练集性能的前提下大幅提升泛化。

消融实验:动作表示

Table III 对比四种动作表示:

动作空间高度泛化水平泛化
Relative EEF(本文)98.4%58.4%
Absolute EEF0%0%
Relative Joint-angle0%0%
Absolute Joint-angle0%0%

结果清晰表明:相对末端执行器动作空间是泛化的必要条件,其他三种表示方式均完全失效。

消融实验:相机配置

Table IV 对比五种相机方案(Pick Pen 任务):

相机配置高度泛化水平泛化
仅 Overhead21.7%13.3%
单个普通腕部86.7%26.7%
双普通腕部92.0%40.0%
双广角腕部(本文)98.3%58.3%

数据效率与跨实体迁移

data efficiency curves
图6:数据效率对比。 仅使用50个演示时,State-based 策略域内成功率约40%;State-free 策略约85%。随微调步数增加(10k步时),跨实体迁移(Arx5 → 类人机器人)成功率:State-based 76.7%,State-free 96.7%(Table VI)。State-free 策略在数据稀缺场景下表现出更强的鲁棒性。

04 局限性

Note: 以下第1条为作者在论文中明确陈述的局限;第2条为作者提及的观察现象;第3条为从设计出发的推断(inferred)。
背景敏感性(stated)

论文明确指出:"Vision-only policies might exhibit sensitivity to the background: changing the background (e.g., relocating the robot and table) may require additional fine-tuning to restore performance." 纯视觉策略对环境外观变化较为敏感,实际部署时若更换场地、光照或背景,需要额外采集数据并微调。

双臂场景中非活动手臂引发误动(stated)

作者观察到:在双臂操作中,当一侧手臂静止时,另一侧手臂的视觉移动有时会触发非预期的运动。这是宽视场腕部相机会捕捉到对侧手臂运动的副作用,目前尚无系统性解决方案。

动作空间局限于末端执行器控制(inferred)

Relative EEF 动作空间要求机器人支持末端执行器笛卡尔控制接口;对于仅支持关节级控制、或动力学特性复杂(如柔性/软体机器人)的平台,该方法的适用性有待验证。此为从设计推断,论文未显式讨论。