AVA-VLA: 主动视觉注意力提升视觉-语言-动作模型

01 动机

现有 VLA 模型在每个时间步独立处理视觉观测，将机械手操作当作 Markov Decision Process（MDP）来求解。然而机器人操作本质上是部分可观测的，依赖历史交互才能完成精确判断。以静态语言指令引导的视觉注意力，被迫在每个决策步从零重新评估视觉信息，无法抑制时序冗余信息，也无法聚焦因过去动作而变得关键的区域。

"by processing frames in isolation, the visual attention weights, guided by the static language instruction, are forced to re-evaluate the independent visual information from scratch at each decision step."

AVA-VLA 动机对比图 — **图 1：动机对比。** 任务为"打开灶台并将摩卡壶放上去"，从两个视角观察。基线 VLA（左）无法稳定定位关键目标"灶台开关"； AVA-VLA（右）借助历史上下文，展现出更稳定的注意力聚焦。红色高亮区域表示视觉注意力权重最高的区域。

98.0%LIBERO 多任务平均 SR
（4 套件统一策略）

4.65CALVIN ABC→D
平均链长（连续任务数）

98.2%LIBERO 单任务平均 SR
（每套件独立策略）

CVPR 2026Highlight 论文
真实双臂机器人验证

02 方法

AVA-VLA 将 VLA 策略重新表述为 POMDP：动作生成不仅依赖当前观测，还依赖对任务历史信念的循环近似状态。核心模块是 Active Visual Attention（AVA），它将循环状态与语言条件化视觉特征融合，生成 soft importance scores 对骨干 LLM 中所有层的视觉 token 注意力矩阵进行调制。

**图 2：AVA-VLA 整体架构。** 循环状态 *r^t-1* 由上一时间步动作相关隐藏状态经 MLP 模块 ℬ 压缩而来。 AVA 模块将循环状态与文本条件化视觉特征融合，输出 soft 权重向量 *ω^t*，对骨干 LLM 所有层的视觉 token 注意力矩阵进行调制。推理时完全循环（fully recurrent），每次前向传播同时预测动作块并提取下一步循环状态。

POMDP 重表述与循环状态

将策略形式化为：Ā^t ~ P_θ(A^t | x^t, b^t-1)，其中 b^t-1 捕获"all relevant historical context, including observations and actions"。由于理论信念状态难以精确计算，方法学习一个压缩的循环表示 r^t-1，作为"a neural approximation"，从上一时间步动作相关的 LLM 隐藏状态提取，通过 MLP 模块 ℬ 投影。

Active Visual Attention（AVA）模块

AVA 模块依次执行以下操作：

特征编码：视觉与指令特征各自通过模态专用 MLP 压缩到低维空间 d' < d。
FiLM 条件化：将语言指令通过 Feature-wise Linear Modulation 条件化到视觉特征上。
Cross-Attention：以语言条件化的视觉 token 为 query、循环状态为 key/value，计算跨模态注意力。
Self-Attention：进一步精炼 cross-attention 输出。
Importance Scoring：经 FFN 和带 Softmax 的线性层，预测每个视觉 token 的"logits for enhancing or weakening"。
动态注意力调制：软权重 ω^t 作用于 LLM 所有层，修改注意力矩阵： A'^tm_ij = exp(C^tm_ij) · U_ij / Σ_l exp(C^tm_il) · U_il。

训练策略

采用截断反向传播（truncated BPTT），时间窗口 T=4，平衡计算可行性与时序动态学习。同时引入 L2 正则化损失 ℒ_ω^t,n = ‖μ(ω^t,n) − c‖，约束注意力权重均值接近目标常数 c，使模型"focus on task-relevant regions while suppressing distracting background responses"。超参数：LIBERO 中 λ=1.0, c=0.6, γ=[1.9, 0.1]；CALVIN 中 c=0.2。

AVA-VLA 注意力可视化 — **图 3：LIBERO 注意力动态可视化。** 任务"put both moka pots on the stove"，两路视角下 soft 权重随时间步的演化。可以看到注意力权重逐步集中到机械臂接触区域和目标物体上，体现了 AVA 模块的主动聚焦能力。

03 实验

在 LIBERO（4 个套件：Spatial / Object / Goal / Long）、CALVIN（ABC→D 零样本泛化）以及真实 Mobile ALOHA 双臂机械手平台上进行全面评估，主要对比基线为 OpenVLA-OFT。评估指标为任务成功率（SR %）和 CALVIN 平均链长（Avg. len）。

LIBERO 基准——统一策略（4 套件共用一个 policy）

方法	Spatial SR (%)	Object SR (%)	Goal SR (%)	Long SR (%)	Average SR (%)
OpenVLA-OFT	97.7	98.0	96.1	95.3	96.8
AVA-VLA（ours）	97.4	99.4	97.4	97.6	98.0

LIBERO 基准——每套件独立策略

方法	Spatial SR (%)	Object SR (%)	Goal SR (%)	Long SR (%)	Average SR (%)
OpenVLA-OFT	97.6	98.4	97.9	94.5	97.1
AVA-VLA（ours）	99.2	99.6	97.9	96.2	98.2

CALVIN ABC→D 零样本泛化

方法	1 Task	2 Tasks	3 Tasks	4 Tasks	5 Tasks	Avg. len
OpenVLA-OFT	96.9	92.0	85.7	80.4	72.9	4.28
AVA-VLA（ours）	99.6	97.6	94.1	89.9	84.1	4.65

真实机器人实验结果 — **图 4：Mobile ALOHA 真实双臂机器人实验结果。** 在 Pick and Place、Sequenced Instruction Understanding、Flexible Object Folding、Dexterous Action 四类任务上与 UniVLA、OpenVLA-OFT 对比，AVA-VLA 在跨任务平均成功率上均优于基线。图中展示了任务中间状态的代表性帧及各方法任务成功率。

消融实验

组件消融（LIBERO 多任务，Table 4）： 仅使用状态初始化（State-based initialization only）得到 97.5% 平均 SR；仅使用 AVA 模块（AVA module only）同样得到 97.5%；两者结合（AVA module + State init）达到最优 98.0%，说明循环状态初始化与 AVA 模块相互配合缺一不可。

骨干网络泛化性（Table 3，LIBERO-Long）： 在 OpenVLA-7B（+1.7%）、LLaMA2-7B（+2.6%）、Qwen2.5-0.5B（+1.4%）三种骨干上 AVA-VLA 均优于对应的 OpenVLA-OFT 基线，表明方法的骨干无关性。

视觉 token 剪枝（Table 5）： 剪枝比例 ≤70% 时性能保持在 97.3% 以上；剪枝 80% 降至 96.0%；剪枝 90% 降至 93.9%，表明 AVA 学到的权重具有稀疏性，在轻度剪枝下可加速推理而几乎不损性能。

04 局限性

Note：以下局限性部分为论文附录 E 中明确陈述（stated），部分为从方法设计推断（inferred）。

截断 BPTT 时间窗口有限（stated）

论文采用时间窗口 T=4 的截断反向传播（truncated BPTT），这是"practical trade-off"而非最优的时序建模。对需要超长历史推理的任务，有限时间窗口可能无法捕获足够的历史依赖。

轨迹展开的内存需求（stated）

训练时对历史轨迹的展开（trajectory unrolling）带来额外的内存开销，在显存受限的平台上增加了部署难度，可能限制批大小或序列长度。

超参数对任务分布敏感（stated）

方法需要针对不同任务分布手动调整超参数（λ, c, γ），例如 LIBERO 中 c=0.6 而 CALVIN 中 c=0.2。跨域泛化时可能需要重新调参，降低了开箱即用性。

对循环状态初始化敏感（stated）

论文指出方法对循环状态初始化存在一定敏感性，不良的初始化可能影响早期时间步的动作生成质量，尤其在任务开始阶段历史信息缺乏时。

仅在双臂操作场景验证（inferred）

真实机器人实验仅在 Mobile ALOHA 双臂机械手平台上展开，对更广泛的机器人形态（如移动机器人、单臂操作、灵巧手）的泛化能力尚未评估。