Tactile-VLA: Unlocking Vision-Language-Action Model's Physical Knowledge for Tactile Generalization

01 动机

Vision-Language-Action (VLA) 模型凭借强大的视觉-语言先验在机器人操作中展现出令人印象深刻的泛化能力，但在接触密集型任务中，它们仍无法将抽象的语义意图精确地落地为细粒度的力控交互。力感知（tactile sensing）是弥补这一鸿沟的关键缺失环节。

"We advance VLAs' implicit knowledge beyond identifying what to do, towards guiding how to physically interact with real world."

Tactile-VLA 核心能力展示 — Tactile-VLA 的三大核心能力。**(a) 基于语言的力控泛化**：将在 USB 插拔任务中学到的力相关副词（如 "gently"）零样本迁移至充电器插拔任务——后者训练时仅有运动数据，无力指令。 **(b) 隐式常识推断**：无需显式指令，模型自动为铁球施加坚实抓握力，为火龙果施加轻柔抓握力。 **(c) 基于触觉推理的自适应恢复**：在白板擦拭任务中训练的推理能力，零样本迁移至黑板场景——初次擦拭因力度不足失败后，模型通过 Chain-of-Thought 分析触觉反馈，自主增大力度成功完成任务。

90%充电器插拔成功率（Tactile-VLA）
基线 π₀: 40%

9.13 N"hard" 零样本力控
基线无法区分指令

80%黑板擦拭成功率（Tactile-VLA-CoT）
所有基线: 0%

少量示范即可激活 VLM 的物理先验
实现零样本泛化

问题背景

当前 VLA 模型（如 π₀、π₀-fast）擅长高层次规划，但在接触密集型场景中缺乏对力控制的精细感知与调节能力。现有将触觉/力觉引入机器人框架的工作通常将其作为附加感知模态，而非直接参与动作生成的核心要素。 Tactile-VLA 的核心洞见是：VLA 模型的语言骨干已隐式编码了丰富的物理交互知识（例如"softly"与"firmly"对应的力度差异），只需将触觉传感器与少量示范数据"桥接"进来，便可将这种先验激活并泛化至全新场景。

论文聚焦三类泛化能力，分别对应三个研究问题：

RQ1 (Tactile-Aware Instruction Following)：模型能否从一个任务中学习力相关语言的语义，并零样本迁移至新任务？
RQ2 (Tactile-Relevant Common Sense)：模型能否利用 VLM 的常识推断未见物体所需的交互力？
RQ3 (Tactile-Involved Reasoning)：触觉反馈能否驱动模型识别任务失败并自主调整策略？

02 方法

Tactile-VLA 由三个核心模块构成：多模态 Token 级融合策略网络、 混合位置-力控制器（Hybrid Position-Force Controller），以及用于自适应推理的 Tactile-VLA-CoT 变体。

Tactile-VLA 架构图 — Tactile-VLA 架构总览。视觉（Vision）、语言（Language）、触觉（Tactile）和本体感受（Proprioception）输入分别经独立编码器处理后，以 token 序列形式拼接为统一前缀 S_t，送入预训练 Vision-Language Model 的 Transformer 主干。非因果注意力机制允许各模态 token 自由交叉注意，生成深度融合的上下文表示。Tactile-Aware Action Expert 在此基础上输出增强动作向量，同时预测目标位置 P_target 与目标接触力 F_target。虚线框为 Tactile-VLA-CoT 变体，通过 Chain-of-Thought 推理模块根据触觉反馈生成修正指令。

策略架构与学习（Policy Architecture and Learning）

模型基于 π₀ 的预训练参数初始化共享组件（ViT 视觉编码器 E'_vis、语言 tokenizer E_lang），新增一个轻量级 MLP 触觉编码器 E'_ψ，将历史 H 步触觉测量值压缩为单一 token，与视觉和语言 token 拼接形成前缀序列：

S_t = [E'_vis(I_{t-H+1}), …, E'_vis(I_t), E_lang(L_t), E'_ψ([T_{t-H+1}, …, T_t])]

动作空间扩展为增强向量 a_t，显式包含目标位置 P_target 和目标接触力 F_target。端到端采用 Conditional Flow Matching (CFM) 目标函数微调，损失同时惩罚运动维度和力维度的预测偏差，迫使模型将语言细微差别（如"gently"）映射至对应物理力幅（如 0.5 N）。

混合位置-力控制器（Hybrid Position-Force Controller）

策略网络的输出由低层控制器执行。该控制器遵循"位置主导"策略，采用类似阻抗控制的间接力控方法，将力目标转化为位置命令的自适应调整：

P_hybrid = P_target + K · ΔF (当 ‖ΔF‖ > τ 时); 否则无调整

其中 ΔF = F_target − F_measured 为力误差，K 为增益矩阵，τ 为平滑阈值。控制器将外部净力（通过末端执行器笛卡尔位置调节）与内部抓握力（通过夹爪宽度调节） 解耦为两条独立控制通道，从而同时精确管理接触力和抓握力。

Tactile-VLA-CoT：基于推理的自适应

Tactile-VLA-CoT 变体激活 VLM 自身预训练解码器的推理能力，以 Chain-of-Thought 方式将触觉反馈转化为显式内部独白（explicit internal monologue）。当任务失败时，模型分析失败原因（如"grasping force is sufficient, but normal force is too low"）并生成修正指令（如"wipe the board again, but apply more downward force"）。 CoT 在固定时间间隔触发，首先判断任务是否成功，若失败则分析原因并输出修正动作指令。

Tactile-VLA-CoT 工作流程 — Tactile-VLA-CoT 在黑板擦拭任务中的工作流程：感知失败 → 分析触觉反馈 → 生成修正指令 → 重新执行。

数据采集（Data Collection）

传统遥操作因缺乏真实力反馈，导致采集策略无法依赖触觉信息。作者基于 Universal Manipulation Interface (UMI) 构建专用数据采集装置，在 UMI 夹爪上增配双高分辨率触觉传感器，可捕获法向力和剪切力，使操作员能够直接感知接触动力学。数据以 100 Hz 采集触觉反馈、20 Hz 采集视觉数据，并进行时间戳对齐，最终形成精确同步的多模态 VLA-T 训练数据集。

03 实验

实验聚焦三类接触密集型操作任务：充电器/USB 插拔与抽取、 桌面抓取（Tabletop Grasping）、擦板（Wiping the Board）。基线包括 π₀-base 和 π₀-fast，均不具备触觉融合架构。

实验一：触觉感知的指令跟随与力控泛化（RQ1）

模型在 USB 插拔任务（Task A）中以含力副词的指令（"softly" / "hard"）训练，随后零样本迁移至充电器插拔任务（Task B，仅学过运动，无力指令）。评估指标为成功率（%）和施加插入力（N）。

模型	USB 成功率 (%)	充电器成功率 (%)
π₀-base	5	40
π₀-fast	0	25
Tactile-VLA	35	90

力控泛化结果（Table 2）更直接展示了语义-力映射的泛化性：

模型	'softly' (已训练)	'hard' (已训练)	'gently' (迁移)	'firmly' (迁移)	'harder' (外推)	Charger 'softly' (零样本)	Charger 'hard' (零样本)
π₀	2.41 N	2.68 N	2.35 N	2.72 N	2.29 N	6.61 N	5.69 N
π₀-fast	2.61 N	2.33 N	2.79 N	2.45 N	2.58 N	7.37 N	6.42 N
Tactile-VLA	0.51 N	2.57 N	0.75 N	1.98 N	2.94 N	4.68 N	9.13 N

Tactile-VLA 正确区分已训练词汇的力度（"softly": 0.51 N vs "hard": 2.57 N），并对未见副词（"gently" 0.75 N、"firmly" 1.98 N）和超范围指令（"harder" 2.94 N，超过 "hard" 的 2.57 N）做出合理外推。基线模型在所有条件下施力均无显著差异——说明其缺乏将语言与力相关联的机制。

USB/充电器插拔任务与桌面抓取物体 — (a) 充电器插拔与抽取任务场景。(b) 桌面抓取任务中的训练集（in-domain）物体，按物理属性分为三类：Solid & Heavy（铁方块、电池）、Solid & Light（木块、充电器、塑料件、玩具）、Fragile & Light（火龙果、甜瓜、蓝莓、纸盒）。

实验二：触觉常识推断（RQ2）

桌面抓取实验要求机器人根据物体外观自动推断合适的抓握力，不提供显式力指令。训练集覆盖 6 个 in-domain 物体，测试时引入额外 6 个 out-of-domain 物体。成功标准：单次抓取，无明显形变。

模型	重/坚硬 ID	重/坚硬 OOD	轻/坚实 ID	轻/坚实 OOD	轻/易碎 ID	轻/易碎 OOD
π₀-base	90%	45%	65%	35%	25%	0%
π₀-fast	65%	40%	60%	35%	25%	0%
Tactile-VLA	95%	95%	95%	85%	85%	95%

（注：表中数值为论文 Table 2 各列均值简化呈现，原始数据按单件物体 10 次试验报告，详见原文。）

各类别平均抓握力 — 各类别物体的平均抓握力（5 次试验均值，误差棒为标准差）。Tactile-VLA 对重型物体施加较大力，对易碎物体施加轻柔力，且对 OOD 物体的力度推断与 ID 物体同样准确——说明 VLM 的常识先验成功转移至触觉模态。

实验三：触觉推理与自适应控制（RQ3）

模型在白板擦拭场景（marker ink）训练，零样本迁移至黑板擦拭（chalk）——后者需要显著更大的力。

模型	白板（In-Domain）	黑板（OOD，零样本）
π₀-base	40%	0%
π₀-fast	45%	0%
Tactile-VLA	80%	15%
Tactile-VLA-CoT	75%	80%

黑板擦拭零样本推理任务 — 黑板擦拭任务的零样本推理过程。(a) 模型在白板任务上训练。 (b) 零样本迁移至黑板，初次以默认力 3.5 N 擦拭失败。 (c) Tactile-VLA-CoT 通过 Chain-of-Thought 分析触觉反馈，自主将力提升至 6.7 N （比白板训练数据中的 5 N 高 34%），成功擦除粉笔痕迹。

在零样本黑板场景中，Tactile-VLA-CoT 的成功率达 80%，而所有基线为 0%。关键推理链路：初次施力 3.5 N → 识别失败（触觉信号显示法向力不足）→ 输出修正指令 → 增力至 6.7 N → 任务成功。

04 局限性

注意：论文正文无独立 Limitations 章节。以下各点部分来自结论或方法设计的直接推断（标注为inferred），部分来自论文明确陈述（标注为stated）。

数据采集依赖专用硬件（stated）

论文明确指出，传统遥操作因缺乏真实力反馈而不适合此类任务。作者基于 UMI 搭建了专用数据采集装置，配备双高分辨率触觉传感器。这意味着数据采集门槛较高，需要特定硬件支持，限制了方法在标准遥操作平台上的直接可复现性。

评估任务种类有限（inferred）

当前实验仅涵盖三类任务（插拔、抓取、擦板），均为相对受控的桌面场景。在更复杂、非结构化或需要多步骤接触的真实环境中， VLM 的物理先验能否持续有效激活仍有待验证。

CoT 推理依赖固定时间间隔触发（inferred）

Tactile-VLA-CoT 的推理在"固定时间间隔"触发，属于简单有效但非最优的触发策略。对于需要即时响应的快速失败场景，固定间隔可能引入不必要的延迟；对于慢速稳定操作，频繁触发则可能浪费计算资源。更智能的事件驱动触发机制（如力突变检测）有望进一步提升系统表现。

基础 Tactile-VLA 对 OOD 黑板场景泛化有限（stated）

在零样本黑板擦拭任务中，基础 Tactile-VLA（无 CoT）的成功率仅为 15%，而 Tactile-VLA-CoT 达到 80%。这说明仅靠端到端力控学习，在物理属性显著不同的新场景中，自适应能力受限； CoT 推理模块是实现跨场景鲁棒泛化的关键补丁，而非基础架构本身就能覆盖。