ForceVLA 将 6 轴力-扭矩(force-torque)反馈提升为 VLA 框架中的一等模态,通过新颖的 FVLMoE(Force-aware Mixture-of-Experts)融合模块,在接触密集型操作任务中实现动态、自适应的力-视觉-语言联合决策,平均成功率较基线提升 23.2 个百分点。
现有 VLA 模型在语义理解方面表现出色,却难以应对接触密集型操作(contact-rich manipulation)——如插拔、工具使用、装配——这类任务要求精细的力控制,尤其在视觉遮挡或动态不确定性场景下。 机器人系统普遍忽视了力感知这一关键模态,而人类却自然地整合触觉与本体感知来适应操作策略。
"6D external force sensed at the robot's end-effector should be treated as a first-class modality",而非事后追加,这与人类操作中触觉与本体感知的协同机制一致。
ForceVLA 以 π₀ 为骨干,融合 RGB 视觉、自然语言指令、本体感知状态与 6 轴力-扭矩数据,通过 FVLMoE 模块在 VLM 编码之后动态整合力特征,最终由基于 conditional flow matching 的动作头输出连续轨迹。
FVLMoE 的核心设计分三步:
力信息在 VLM 编码之后引入,而非之前。消融实验表明,若在 VLM 之前融合力特征(MoE-before-VLM 变体),预训练视觉-语言表征会被破坏,导致成功率降至 0%。"晚融合"策略在保留 VLM 语义能力的同时,赋予模型实时力自适应能力。
为支撑训练,团队采集了专用数据集:244 条轨迹,140K 个同步时间步,覆盖 5 种接触密集型任务(Bottle Pumping、Plug Insertion、USB Drive Insertion、Whiteboard Wiping、Cucumber Peeling),由 5 名专家操作员在 Flexiv Rizon 7-DOF 机械臂上完成,配备双 RGB-D 相机与 6 轴力-扭矩传感器。
在 Flexiv Rizon 机械臂上评估三种方法:π₀-base w/o Force(纯视觉基线)、π₀-base w/ Force(朴素力融合)、ForceVLA(FVLMoE 完整方法)。评估维度包括 5 任务成功率、泛化鲁棒性与多任务联合训练。
| 方法 | 平均成功率 | vs. w/o Force |
|---|---|---|
| π₀-base w/o Force | 37.3% | — |
| π₀-base w/ Force | 40.2% | +2.9 pp |
| ForceVLA(ours) | 60.5% | +23.2 pp |
| 测试条件 | π₀-base w/o Force | ForceVLA |
|---|---|---|
| Object generalization(换插座) | — | 80.00% |
| Height variation(高度变化) | — | 88.89% |
| Visual occlusion(视觉遮挡) | — | 90.00% |
| Unstable socket(插座不稳定) | — | 20.00% |
| 平均 | 38.93% | 63.78% |
特别地,视觉遮挡条件下 ForceVLA 仍达 90.00%,充分证明力信号在视觉失效时的补偿作用。
| 方法 | 平均成功率(4 任务) |
|---|---|
| π₀-base w/o Force | 5% |
| π₀-base w/ Force | 42.5% |
| ForceVLA(ours) | 67.5% |
| 变体 | 成功率 |
|---|---|
| Linear projection before VLM | 55% |
| MoE before VLM | 0% |
| Concatenate after VLM | 60% |
| ForceVLA(FVLMoE, ours) | 80% |
结果验证:① 力的融合位置至关重要,VLM 之后融合是最优策略;② 朴素拼接(Concatenate after VLM)虽优于早融合,但相比 FVLMoE 还差 20 个百分点;③ MoE 的动态路由带来显著收益。
系统使用的是估计的外力旋量(estimated external wrench),而非高保真传感器的直接测量值。对于需要极高触觉灵敏度的任务,这可能带来感知误差,影响精细力控的可靠性。
当前评估局限于配备集成 6 轴力-扭矩传感器的高端平台(Flexiv Rizon)。作者承认,能否迁移至"lower-cost platforms equipped with external or retrofitted force sensors"尚不确定,这可能限制该方法的"broader accessibility"。
泛化测试中,在"Unstable socket"(插座不稳定)条件下 ForceVLA 成功率仅 20.00%,明显低于其他泛化条件(80%–90%)。这表明对于动态基座或随机扰动场景,当前方法仍存在明显短板。