LIBERO-Plus: VLA 模型鲁棒性深度分析

01 动机

VLA 模型在标准机器人操作基准上屡创新高，然而这些基准场景高度受控，难以反映真实部署环境中的变化。当摄像头视角、场景光照、背景纹理或语言描述稍作调整，模型性能会如何变化？现有研究缺乏对多维度扰动的系统性探索。

"Visual–Language–Action (VLA) models report impressive success rates on robotic manipulation benchmarks, yet these results may mask fundamental weaknesses in robustness."

LIBERO-Plus framework overview — **图1：LIBERO-Plus 基准框架。**共包含 7 个一级扰动维度（对象布局 O、背景纹理 B、光照条件 L、摄像头视角 C、机器人初始状态、语言指令 R、传感器噪声 N）和 21 个子维度，并按 5 个难度级别（Level-1 最易至 Level-5 最难）分层构建测试集，共生成 10,030 个任务。

95%→<30%典型模型在摄像头视角扰动下的性能骤降范围

10参与评估的最新 VLA 模型数量

10,030LIBERO-Plus 基准任务总数

7扰动维度（含 21 个子维度）

现有机器人操作基准（如 LIBERO、AGNOSTOS、COLOSSEUM 等）在扰动维度覆盖、细粒度分析和自动化生成等方面存在明显不足。LIBERO-Plus 正是为弥补这一空白而设计：在标准 LIBERO 场景基础上，自动化地注入 7 类扰动并按难度分级，从而构建可重复、可扩展的鲁棒性评估框架。

02 方法

LIBERO-Plus 在 LIBERO 模拟环境基础上，系统设计了 7 个扰动维度的注入机制，并引入 5 级难度分层和组合扰动分析框架，用于评估模型的单维度鲁棒性与跨维度泛化能力。

7 个扰动维度设计

视觉类扰动

Objects Layout (O1-O2)：在场景中随机添加 1–5 个干扰物体（从 416 个物体库中采样），或对目标物体施加位姿扰动（x/y/z 位移 + pitch/yaw/roll 旋转）
Background Textures (B1-B2)：替换整体场景主题（950 种纹理库）或桌面/地面材质
Light Conditions (L1-L4)：调整漫反射颜色（RGB 通道）、平行光源方向、镜面高光强度及阴影开关
Camera Viewpoints (C1-C3)：摄像头距离缩放（1.01×–2.00×）、球坐标位置偏移（方位角/仰角 15°–75°）及朝向旋转（yaw/pitch/roll 2°–10°）

控制与语义类扰动

Robot Initial States：对机器人关节角度施加 0.1–0.5 幅度的随机扰动，测试运动初始化的鲁棒性
Language Instructions (R1-R3)：将原始指令改写为更长的对话形式（R1）、常识替换（R2）或推理链变体（R3），保留语义意图但改变表达形式
Sensor Noise (N1-N5)：向图像注入 5 类噪声（运动模糊、高斯模糊、缩放模糊、雾化、玻璃模糊），每类 5 个强度级别（L1–L5）

5 级难度分层

每个扰动维度按扰动强度由弱到强划分为 5 个难度等级（Level-1 至 Level-5）。Level-1 代表最小可感知扰动，所有参考模型均可通过；Level-5 代表最强扰动，所有模型均失败。难度分级保证了基准的区分度，同时便于分析各模型的"鲁棒性边界"。

Difficulty level distribution — **图2：各扰动维度的难度级别（L1–L5）任务比例分布。**饼图展示了 7 个维度下不同难度任务的占比。从中可以看出，摄像头视角（Camera）和机器人初始状态（Robot）维度的高难度任务比例更高，而光照（Light）和背景（Background）维度相对容易。

组合扰动分析框架

为量化不同扰动间的交互效应，本文引入组合泛化差距（Compositional Generalization Gap）指标：

Δᵢⱼ = Cov(Dᵢ, Dⱼ | Y=1)

通过对 2,000 次双维度扰动的试验进行协方差分析，发现一致性负差距（negative gap），说明扰动并非独立叠加，而是存在耦合交互效应，共同暴露了模型表征中的纠缠问题（entanglement in the learned representations）。

03 实验

实验评估了 10 款主流 VLA 模型：OpenVLA、OpenVLA-OFT（3个变体）、π₀、π₀-fast、Nora、WorldVLA、UniVLA、RIPT-VLA，涵盖自回归、扩散、世界模型和强化学习等不同训练范式。每个模型在各扰动维度的多个子任务上运行 100 次。

主要性能对比（单维度扰动，成功率变化 Δ%）

模型	原始成功率	Camera ↓	Robot ↓	Language ↓	Light ↓	Background ↓	Noise ↓	Layout ↓
OpenVLA	76.5%	-75.4	-72.4	-49.7	-72.1	-51.2	-57.2	-44.9
OpenVLA-OFT	97.1%	-37.4	-59.9	-15.6	-11.3	-4.7	-20.4	-20.0
π₀	94.2%	-78.4	-87.6	-33.2	-14.6	-15.7	-14.8	-23.8

关键发现一：视觉扰动是最大威胁

Object layout robustness — **图3：对象布局鲁棒性分析（Figure 1）。**左侧为添加干扰物体（confounding objects）时各模型性能，π₀、π₀-fast、RIPT-VLA 等高性能模型降幅有限；右侧为目标物体位移（target displacement）时的性能，几乎所有模型均大幅下降。这表明模型依赖记忆的位置先验，而非真正理解物体语义。

摄像头视角变化和机器人初始状态扰动导致成功率大幅下降，平均降幅远超其他维度。π₀ 在摄像头扰动下降幅高达 -78.4%，在机器人初始状态扰动下降幅达 -87.6%。相比之下，配备腕部摄像头的 OpenVLA-OFT 在摄像头扰动下仅下降 -37.4%，说明多视角输入可显著提升视觉鲁棒性。

关键发现二：模型几乎忽视语言指令

Language instruction analysis — **图4：语言指令分析实验（Figure 3）。**(a) 将语言输入置空（blank instruction）：OpenVLA-OFT 成功率几乎无变化，证明其实际上是一个 VA（视觉-动作）模型而非 VLA 模型。(b) 目标对象替换实验：将指令中的目标从"alphabet soup"改为"tomato sauce"后，模型仍继续执行原始动作，成功率接近零，说明模型不具备跨对象指令跟随能力。

"VLA models do not possess strong cross-object instruction-following generalization… they rely on fixed vision–action mappings rather than fully exploiting language signals in task decision-making."

语言扰动平均仅导致 -25.3% 的下降（各维度中最小），但这并非因为模型具有语义鲁棒性——空指令实验证明模型根本未有效利用语言输入。语言维度的"低敏感性"实为语言信号被忽视的体现。

关键发现三：光照鲁棒性差异揭示腕部摄像头的作用

Illumination robustness analysis — **图5：光照鲁棒性分析（Figure 2）。**极端消融实验：全黑输入（all-black）下所有模型性能趋近于零；而仅将第三人称视角图像置黑（3rd-black）时，OpenVLA-OFT、RIPT-VLA、π₀ 仍分别维持 43.6%–67.3% 的成功率，证明腕部摄像头提供了对光照变化鲁棒的近距离几何线索。

微调实验：数据增强显著提升鲁棒性

在 20,000+ 条覆盖多种扰动的轨迹数据上对 OpenVLA-OFT 进行微调后（8× A100，100,000 步，学习率 5×10⁻⁴），LIBERO-Plus 总成功率从 67.9% 提升至 79.5%（+11.6pp）。摄像头维度改善最显著（55.6% → 92.8%，+37.2pp），机器人状态维度改善相对有限（21.7% → 30.3%，+8.6pp）。

Performance across difficulty levels — **图6：各难度级别（Level-1 至 Level-5）的模型性能曲线（Figure 5）。**展示了 4 款代表性模型在不同扰动维度下随难度增加的成功率变化趋势，体现出各模型鲁棒性边界的差异。

组合扰动分析

在双维度组合扰动实验（2,000 次试验）中，实际联合成功率始终低于独立假设下的预期值（Δᵢⱼ < 0），证明不同类型的扰动存在负向交互效应。这意味着模型泛化能力具有内在不可分解性（intrinsically non-decomposable），单维度评估无法预测真实场景中的综合性能。

04 局限性

Note：以下局限性部分来自论文明确说明，部分为从方法设计中推断（已标注）。

局限于模拟环境，真实世界迁移性待验证

LIBERO-Plus 完全在 LIBERO 模拟环境中构建，所有扰动（光照、背景、传感器噪声等）均通过仿真生成。真实机器人场景中的物理噪声、光学畸变和未见物体的多样性远超仿真范畴，模拟结论能否迁移至实物部署仍需进一步验证。（论文明确指出为未来工作方向）

评估范围限于 LIBERO 任务集，泛化性受限

所有测试任务均基于 LIBERO 原有的桌面操作场景，场景多样性（物体类别、任务结构、桌面配置）相对有限。对于更复杂的双臂操作、移动机器人或开放世界任务，本基准的结论未必适用。（从任务设计推断）

微调数据分布与测试分布高度重叠

提升鲁棒性的微调实验使用了与测试集同源的 20,000+ 条扰动轨迹。在分布外（out-of-distribution）场景下，这种数据驱动的鲁棒性提升效果可能大幅缩水，且不能说明模型习得了真正可组合的泛化能力。（从训练设置推断）

语言维度评估未触及细粒度语义理解

现有的语言扰动（改写/替换/推理链）主要测试句式层面的鲁棒性，对更复杂的语义组合（新颖物体-动作组合、空间关系理解、多步骤指令）覆盖不足。模型究竟在何种语义粒度上失败仍不明确。（从实验设计推断）