机器人操作 · Robotics · arXiv 2025

ForceVLA

Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation
Jiawen Yu, Hairuo Liu, Qiaojun Yu, Jieji Ren, Ce Hao, Haitong Ding, Guangyu Huang, Guofan Huang, Yan Song, Panpan Cai, Cewu Lu, Wenqiang Zhang

ForceVLA 将 6 轴力-扭矩(force-torque)反馈提升为 VLA 框架中的一等模态,通过新颖的 FVLMoE(Force-aware Mixture-of-Experts)融合模块,在接触密集型操作任务中实现动态、自适应的力-视觉-语言联合决策,平均成功率较基线提升 23.2 个百分点

arXiv 2025-05-28 Flexiv Rizon 7-DOF · 双 RGB-D 相机 π₀ 框架 · PaliGemma SigLIP · Flow Matching 📄 arXiv:2505.22159
VLA force sensing Mixture-of-Experts contact-rich manipulation 机器人操作 flow matching force-torque 触觉反馈 FVLMoE π₀

01 动机

现有 VLA 模型在语义理解方面表现出色,却难以应对接触密集型操作(contact-rich manipulation)——如插拔、工具使用、装配——这类任务要求精细的力控制,尤其在视觉遮挡或动态不确定性场景下。 机器人系统普遍忽视了力感知这一关键模态,而人类却自然地整合触觉与本体感知来适应操作策略。

"6D external force sensed at the robot's end-effector should be treated as a first-class modality",而非事后追加,这与人类操作中触觉与本体感知的协同机制一致。
ForceVLA Teaser
图 1:动机示意。以 USB 插入任务为例:纯视觉 VLA(左)因接触遮挡导致插入失败;ForceVLA(右)借助实时 6D 力反馈持续调整末端姿态,最终成功完成插入。力信号在视觉信息缺失时充当关键的感知替代通道。
23.2%平均成功率提升(vs. π₀-base w/o Force)
80%单任务最高成功率(对象泛化测试)
90%视觉遮挡条件下成功率
5接触密集型任务 · 244 条轨迹 · 140K 同步帧

02 方法

ForceVLA 以 π₀ 为骨干,融合 RGB 视觉、自然语言指令、本体感知状态与 6 轴力-扭矩数据,通过 FVLMoE 模块在 VLM 编码之后动态整合力特征,最终由基于 conditional flow matching 的动作头输出连续轨迹。

FVLMoE Architecture
图 2:整体架构。系统管线分三个阶段:① 预训练 PaliGemma SigLIP 对 RGB 图像与语言指令编码,输出视觉-语言嵌入 E_VL;② FVLMoE 模块将 6D 原始力数据线性投影为力 token E_F,与 E_VL 拼接后经 Transformer 编码器(multi-head self-attention)和稀疏 MoE 层融合,得到 G_FVLMoE;③ 融合特征以 element-wise addition 注入状态与动作投影层,再经 flow matching 去噪生成动作轨迹。

FVLMoE:力感知混合专家融合模块

FVLMoE 的核心设计分三步:

关键设计选择:Late-stage Force Fusion

力信息在 VLM 编码之后引入,而非之前。消融实验表明,若在 VLM 之前融合力特征(MoE-before-VLM 变体),预训练视觉-语言表征会被破坏,导致成功率降至 0%。"晚融合"策略在保留 VLM 语义能力的同时,赋予模型实时力自适应能力。

ForceVLA-Data:同步多模态数据集

为支撑训练,团队采集了专用数据集:244 条轨迹,140K 个同步时间步,覆盖 5 种接触密集型任务(Bottle Pumping、Plug Insertion、USB Drive Insertion、Whiteboard Wiping、Cucumber Peeling),由 5 名专家操作员在 Flexiv Rizon 7-DOF 机械臂上完成,配备双 RGB-D 相机与 6 轴力-扭矩传感器。

Task Setup
图 3:五种接触密集型任务场景。从左至右:Bottle Pumping(瓶泵按压)、Plug Insertion(插头插入)、USB Drive Insertion(USB 插入)、Whiteboard Wiping(白板擦拭)、Cucumber Peeling(黄瓜削皮)。每类任务均需精细力控制,且部分任务存在视觉遮挡。

03 实验

在 Flexiv Rizon 机械臂上评估三种方法:π₀-base w/o Force(纯视觉基线)、π₀-base w/ Force(朴素力融合)、ForceVLA(FVLMoE 完整方法)。评估维度包括 5 任务成功率、泛化鲁棒性与多任务联合训练。

主要结果:五任务成功率

方法平均成功率vs. w/o Force
π₀-base w/o Force37.3%
π₀-base w/ Force40.2%+2.9 pp
ForceVLA(ours)60.5%+23.2 pp
Success Rate Comparison
图 4:各任务成功率对比。ForceVLA 在所有五个接触密集型任务上均优于两条基线,在 Plug Insertion 等任务上个别条件可达约 80% 成功率。

泛化测试(Plug Insertion,Table 2)

测试条件π₀-base w/o ForceForceVLA
Object generalization(换插座)80.00%
Height variation(高度变化)88.89%
Visual occlusion(视觉遮挡)90.00%
Unstable socket(插座不稳定)20.00%
平均38.93%63.78%

特别地,视觉遮挡条件下 ForceVLA 仍达 90.00%,充分证明力信号在视觉失效时的补偿作用。

多任务联合训练(Table 5,4 任务)

方法平均成功率(4 任务)
π₀-base w/o Force5%
π₀-base w/ Force42.5%
ForceVLA(ours)67.5%

消融实验(Table 3,Plug Insertion 单任务)

变体成功率
Linear projection before VLM55%
MoE before VLM0%
Concatenate after VLM60%
ForceVLA(FVLMoE, ours)80%

结果验证:① 力的融合位置至关重要,VLM 之后融合是最优策略;② 朴素拼接(Concatenate after VLM)虽优于早融合,但相比 FVLMoE 还差 20 个百分点;③ MoE 的动态路由带来显著收益。

Router 分析:专家负载与任务专化

Expert Router Analysis
图 5:MoE Router 分析。Expert 0 作为"通用专家"主导约 50% 的 token 分配;Plug Insertion 与 Cucumber Peeling 等任务在不同操作阶段呈现出不同专家的时序激活模式(phase-specific expert activation);Whiteboard Wiping 则始终由单一专家主导,反映该任务的相对均匀性。

轨迹可视化

Trajectory Visualization
图 6:典型任务的操作轨迹序列。展示 USB 插入、瓶泵按压和插头插入三类任务的关键帧序列,可观察到 ForceVLA 在接触阶段的自适应调整行为——当力反馈指示对准偏差时,机器人会实时微调末端位姿直至成功接触。

04 局限性

Note:以下局限性均为论文作者明确陈述(stated by the authors)。
力估计精度的局限(Force Estimation Accuracy)

系统使用的是估计的外力旋量(estimated external wrench),而非高保真传感器的直接测量值。对于需要极高触觉灵敏度的任务,这可能带来感知误差,影响精细力控的可靠性。

硬件可及性的制约(Hardware Accessibility)

当前评估局限于配备集成 6 轴力-扭矩传感器的高端平台(Flexiv Rizon)。作者承认,能否迁移至"lower-cost platforms equipped with external or retrofitted force sensors"尚不确定,这可能限制该方法的"broader accessibility"。

不稳定场景的鲁棒性不足(Unstable Socket Condition)

泛化测试中,在"Unstable socket"(插座不稳定)条件下 ForceVLA 成功率仅 20.00%,明显低于其他泛化条件(80%–90%)。这表明对于动态基座或随机扰动场景,当前方法仍存在明显短板。