Do You Need Proprioceptive States in Visuomotor Policies?

01 动机

本体感知状态（关节角度、末端执行器绝对位姿等）长期以来被视为视觉运动策略的必要输入——但它真的有帮助吗？作者通过系统实验发现，状态输入反而会让策略"走捷径"：在固定高度、固定位置训练后，只要物体位置稍有变动，成功率就从98%骤降至0%。

"State inputs may act as shortcuts that enable policies to memorize training trajectories tied to specific states, rather than developing true visual reasoning for task completion."

teaser — spatial generalization comparison — **图1：空间泛化对比。** State-based 策略（蓝）在高度/水平方向泛化时成功率接近0%；State-free 策略（绿）在多个任务和机器人平台上均保持高成功率。x轴为物体偏移量，y轴为任务成功率。

0% → 98.4%Pick Pen 高度泛化提升

6% → 58.4%Pick Pen 水平泛化提升

18.3% → 83.4%Fold Shirt 水平泛化提升

11.7% → 78.4%Fetch Bottle 全身机器人泛化提升

传统的 state-based 策略在域内（in-domain）表现良好，但当桌子高度变化±10cm 或物体水平偏移5~10cm 时，性能急剧下降。这种脆弱性在真实部署中代价极高。作者验证了该现象在三种不同机器人平台（双臂类人机器人、Arx5 系统、26自由度全身机器人）上均普遍存在。

02 方法

State-free Policy 由三个核心设计组成：去除所有状态输入、采用相对末端执行器动作空间、以及使用双广角腕部相机提供充分的视觉覆盖。三者协同，使策略的决策完全依赖于视觉观测，从而具备内在的位姿无关性。

camera setup comparison — **图2：相机配置对比。** (a) 单个普通腕部相机视角受限，任务目标可能移出视野；(b) 顶部+底部双广角相机（各120°×120°视角）安装于末端执行器，覆盖完整任务空间，确保目标始终可见。

相对末端执行器动作空间（Relative EEF Action Space）

策略预测相对位移 Δp_t = [Δx_t, Δq_t]，而非绝对位姿。由于相机固定在末端执行器上，相同的视觉观测对应相同的相对位移，无论机器人的绝对姿态如何——这是空间泛化的核心机制。与之对比，绝对动作空间下策略必须感知自身绝对位置（即需要状态输入），而关节角度空间则因逆运动学高度非线性而难以泛化。

双广角腕部相机（Dual Wide-Angle Wrist Cameras）

在末端执行器顶部和底部各安装一个120°×120° 广角相机。单个普通腕部相机在抓取不同高度物体时，目标很容易滑出视野；双广角方案保证了在所有操作阶段任务相关区域均在视场内。实验还发现，移除俯视（overhead）相机反而提升了性能——俯视视角在机器人姿态变化时会引入分布偏移，拖累泛化。

three robot embodiments — **图3：三种机器人平台与代表性任务。** 从左至右：2×8 DoF 类人双臂机器人、2×7 DoF Arx5 系统、26 DoF 全身机器人，以及 pick-and-place、shirt-folding、bottle-fetching 等代表性任务。所提方法在三种平台上均有效。

与策略架构无关

State-free 设计并非针对某一特定策略架构，而是一种通用的输入/动作空间改造方案。实验验证了其在 π₀、ACT、Diffusion Policy 三种架构上均一致有效，其中 π₀ 表现最优。

03 实验

在三种真实机器人平台和 LIBERO 仿真基准上进行验证，涵盖高度泛化（±10cm）、水平泛化（5~10cm偏移）、域内性能、数据效率和跨实体迁移五个维度。使用 π₀ 作为主要策略架构，对比 state-based 变体（相同视觉输入+本体感知状态）。

真实场景空间泛化（主要结果）

任务	泛化类型	State-based	State-free (本文)	提升
Pick Pen	高度泛化	0%	98.4%	+98.4pp
Pick Pen	水平泛化	6%	58.4%	+52.4pp
Fold Shirt	水平泛化	18.3%	83.4%	+65.1pp
Fetch Bottle（全身）	水平泛化	11.7%	78.4%	+66.7pp
LIBERO（仿真均值）	域内	93.8%	94.5%	+0.7pp

generalization success rates — **图5：三项 pick-and-place 任务的高度与水平泛化成功率柱状图。** 绿色（State-free）在各任务和偏移量下均显著优于蓝色（State-based）。域内性能（最左侧）两者相当，证明 State-free 在不损失训练集性能的前提下大幅提升泛化。

消融实验：动作表示

Table III 对比四种动作表示：

动作空间	高度泛化	水平泛化
Relative EEF（本文）	98.4%	58.4%
Absolute EEF	0%	0%
Relative Joint-angle	0%	0%
Absolute Joint-angle	0%	0%

结果清晰表明：相对末端执行器动作空间是泛化的必要条件，其他三种表示方式均完全失效。

消融实验：相机配置

Table IV 对比五种相机方案（Pick Pen 任务）：

相机配置	高度泛化	水平泛化
仅 Overhead	21.7%	13.3%
单个普通腕部	86.7%	26.7%
双普通腕部	92.0%	40.0%
双广角腕部（本文）	98.3%	58.3%

数据效率与跨实体迁移

data efficiency curves — **图6：数据效率对比。** 仅使用50个演示时，State-based 策略域内成功率约40%；State-free 策略约85%。随微调步数增加（10k步时），跨实体迁移（Arx5 → 类人机器人）成功率：State-based 76.7%，State-free **96.7%**（Table VI）。State-free 策略在数据稀缺场景下表现出更强的鲁棒性。

04 局限性

Note: 以下第1条为作者在论文中明确陈述的局限；第2条为作者提及的观察现象；第3条为从设计出发的推断（inferred）。

背景敏感性（stated）

论文明确指出："Vision-only policies might exhibit sensitivity to the background: changing the background (e.g., relocating the robot and table) may require additional fine-tuning to restore performance." 纯视觉策略对环境外观变化较为敏感，实际部署时若更换场地、光照或背景，需要额外采集数据并微调。

双臂场景中非活动手臂引发误动（stated）

作者观察到：在双臂操作中，当一侧手臂静止时，另一侧手臂的视觉移动有时会触发非预期的运动。这是宽视场腕部相机会捕捉到对侧手臂运动的副作用，目前尚无系统性解决方案。

动作空间局限于末端执行器控制（inferred）

Relative EEF 动作空间要求机器人支持末端执行器笛卡尔控制接口；对于仅支持关节级控制、或动力学特性复杂（如柔性/软体机器人）的平台，该方法的适用性有待验证。此为从设计推断，论文未显式讨论。