ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation

01 动机

现有 VLA 模型在语义理解方面表现出色，却难以应对接触密集型操作（contact-rich manipulation）——如插拔、工具使用、装配——这类任务要求精细的力控制，尤其在视觉遮挡或动态不确定性场景下。机器人系统普遍忽视了力感知这一关键模态，而人类却自然地整合触觉与本体感知来适应操作策略。

"6D external force sensed at the robot's end-effector should be treated as a first-class modality"，而非事后追加，这与人类操作中触觉与本体感知的协同机制一致。

ForceVLA Teaser — **图 1：动机示意。**以 USB 插入任务为例：纯视觉 VLA（左）因接触遮挡导致插入失败；ForceVLA（右）借助实时 6D 力反馈持续调整末端姿态，最终成功完成插入。力信号在视觉信息缺失时充当关键的感知替代通道。

23.2%平均成功率提升（vs. π₀-base w/o Force）

80%单任务最高成功率（对象泛化测试）

90%视觉遮挡条件下成功率

5接触密集型任务 · 244 条轨迹 · 140K 同步帧

02 方法

ForceVLA 以 π₀ 为骨干，融合 RGB 视觉、自然语言指令、本体感知状态与 6 轴力-扭矩数据，通过 FVLMoE 模块在 VLM 编码之后动态整合力特征，最终由基于 conditional flow matching 的动作头输出连续轨迹。

FVLMoE Architecture — **图 2：整体架构。**系统管线分三个阶段：① 预训练 PaliGemma SigLIP 对 RGB 图像与语言指令编码，输出视觉-语言嵌入 E_VL；② FVLMoE 模块将 6D 原始力数据线性投影为力 token E_F，与 E_VL 拼接后经 Transformer 编码器（multi-head self-attention）和稀疏 MoE 层融合，得到 G_FVLMoE；③ 融合特征以 element-wise addition 注入状态与动作投影层，再经 flow matching 去噪生成动作轨迹。

FVLMoE：力感知混合专家融合模块

FVLMoE 的核心设计分三步：

Input Mapping：原始 6D 力数据 f_raw ∈ ℝ⁶ 经线性投影生成力 token E_F，与 VLM 输出的视觉-语言嵌入 E_VL 拼接为多模态序列。
Multimodal Routing & Fusion：拼接序列通过 Transformer 编码器进行多头自注意力建模，再路由至含 E=4 个专家网络（MLP）的稀疏 MoE 层，动态门控选择 top-k=1 个专家处理每个 token，残差连接整合 MoE 输出。
Action Injection：融合特征 G_FVLMoE ∈ ℝ^(H_action × D_a) 以 element-wise addition 注入状态与动作投影，再由 flow matching 动作头解码为机器人轨迹。

关键设计选择：Late-stage Force Fusion

力信息在 VLM 编码之后引入，而非之前。消融实验表明，若在 VLM 之前融合力特征（MoE-before-VLM 变体），预训练视觉-语言表征会被破坏，导致成功率降至 0%。"晚融合"策略在保留 VLM 语义能力的同时，赋予模型实时力自适应能力。

ForceVLA-Data：同步多模态数据集

为支撑训练，团队采集了专用数据集：244 条轨迹，140K 个同步时间步，覆盖 5 种接触密集型任务（Bottle Pumping、Plug Insertion、USB Drive Insertion、Whiteboard Wiping、Cucumber Peeling），由 5 名专家操作员在 Flexiv Rizon 7-DOF 机械臂上完成，配备双 RGB-D 相机与 6 轴力-扭矩传感器。

Task Setup — **图 3：五种接触密集型任务场景。**从左至右：Bottle Pumping（瓶泵按压）、Plug Insertion（插头插入）、USB Drive Insertion（USB 插入）、Whiteboard Wiping（白板擦拭）、Cucumber Peeling（黄瓜削皮）。每类任务均需精细力控制，且部分任务存在视觉遮挡。

03 实验

在 Flexiv Rizon 机械臂上评估三种方法：π₀-base w/o Force（纯视觉基线）、π₀-base w/ Force（朴素力融合）、ForceVLA（FVLMoE 完整方法）。评估维度包括 5 任务成功率、泛化鲁棒性与多任务联合训练。

主要结果：五任务成功率

方法	平均成功率	vs. w/o Force
π₀-base w/o Force	37.3%	—
π₀-base w/ Force	40.2%	+2.9 pp
ForceVLA（ours）	60.5%	+23.2 pp

Success Rate Comparison — **图 4：各任务成功率对比。**ForceVLA 在所有五个接触密集型任务上均优于两条基线，在 Plug Insertion 等任务上个别条件可达约 80% 成功率。

泛化测试（Plug Insertion，Table 2）

测试条件	π₀-base w/o Force	ForceVLA
Object generalization（换插座）	—	80.00%
Height variation（高度变化）	—	88.89%
Visual occlusion（视觉遮挡）	—	90.00%
Unstable socket（插座不稳定）	—	20.00%
平均	38.93%	63.78%

特别地，视觉遮挡条件下 ForceVLA 仍达 90.00%，充分证明力信号在视觉失效时的补偿作用。

多任务联合训练（Table 5，4 任务）

方法	平均成功率（4 任务）
π₀-base w/o Force	5%
π₀-base w/ Force	42.5%
ForceVLA（ours）	67.5%

消融实验（Table 3，Plug Insertion 单任务）

变体	成功率
Linear projection before VLM	55%
MoE before VLM	0%
Concatenate after VLM	60%
ForceVLA（FVLMoE, ours）	80%

结果验证：① 力的融合位置至关重要，VLM 之后融合是最优策略；② 朴素拼接（Concatenate after VLM）虽优于早融合，但相比 FVLMoE 还差 20 个百分点；③ MoE 的动态路由带来显著收益。

Router 分析：专家负载与任务专化

Expert Router Analysis — **图 5：MoE Router 分析。**Expert 0 作为"通用专家"主导约 50% 的 token 分配；Plug Insertion 与 Cucumber Peeling 等任务在不同操作阶段呈现出不同专家的时序激活模式（phase-specific expert activation）；Whiteboard Wiping 则始终由单一专家主导，反映该任务的相对均匀性。

轨迹可视化

Trajectory Visualization — **图 6：典型任务的操作轨迹序列。**展示 USB 插入、瓶泵按压和插头插入三类任务的关键帧序列，可观察到 ForceVLA 在接触阶段的自适应调整行为——当力反馈指示对准偏差时，机器人会实时微调末端位姿直至成功接触。

04 局限性

Note：以下局限性均为论文作者明确陈述（stated by the authors）。

力估计精度的局限（Force Estimation Accuracy）

系统使用的是估计的外力旋量（estimated external wrench），而非高保真传感器的直接测量值。对于需要极高触觉灵敏度的任务，这可能带来感知误差，影响精细力控的可靠性。

硬件可及性的制约（Hardware Accessibility）

当前评估局限于配备集成 6 轴力-扭矩传感器的高端平台（Flexiv Rizon）。作者承认，能否迁移至"lower-cost platforms equipped with external or retrofitted force sensors"尚不确定，这可能限制该方法的"broader accessibility"。

不稳定场景的鲁棒性不足（Unstable Socket Condition）

泛化测试中，在"Unstable socket"（插座不稳定）条件下 ForceVLA 成功率仅 20.00%，明显低于其他泛化条件（80%–90%）。这表明对于动态基座或随机扰动场景，当前方法仍存在明显短板。