NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

01 动机

现有的 Vision-Language-Action（VLA）系统在性能上表现出色，但普遍面临计算开销过大的问题：主流模型（OpenVLA、TraceVLA、ECOT 等）参数规模接近甚至超过 7B，导致实时部署困难，且无法在消费级 GPU 上直接微调。另一方面，现有方法在精细操作任务（如目标抓取）中的视觉编码能力仍不足。

"Existing VLA models are typically large-scale, with model sizes approaching 7B parameters, such as OpenVLA, and even larger in methods like TraceVLA, ECOT, and EMMA-X."

NORA teaser figure — NORA 总览图：以 3B 参数规模，覆盖从自然语言指令到连续控制动作的完整推理链路，支持零样本（zero-shot）和 out-of-domain 对象抓取。

3B模型参数量（vs. 7B+ 基线）

56.7%真实 WidowX 机器人平均成功率

87.9%LIBERO 四套任务平均成功率（NORA-Long）

~1M训练用真实机器人演示数据量

02 方法

NORA 以 Qwen-2.5-VL-3B 多模态大模型为骨干，引入 FAST+ 动作分词器对连续动作进行高效离散化，并在 Open X-Embodiment（OXE）数据集的近百万条真实机器人演示上预训练，形成通用机器人控制策略。推理时，模型接受视觉观测与自然语言指令，自回归预测动作 token 序列，再解码为连续控制信号。

NORA 架构与推理流程 — 图 1：NORA 整体架构与推理流程。视觉帧经 Vision Encoder 编码，与语言指令拼接后输入 Qwen-2.5-VL-3B，输出经 FAST+ 解码器转换为关节空间连续动作。

FAST+ 动作分词器

FAST+ 对每个时间步的动作维度施加离散余弦变换（Discrete Cosine Transform，DCT），对关节动作分量去相关，再使用字节对编码（Byte-Pair Encoding，BPE）将其压缩为更短的 token 序列。相比直接离散化，FAST+ 保留了高度相关动作之间的结构信息，使模型能以更少的 token 精确表达灵巧操作动作。论文中提出了两种推理变体：

NORA：chunk size = 1，每步单帧推理，适合需要精细控制的真实机器人任务；
NORA-Long：chunk size = 5，一次预测 5 步动作序列（action chunking），适合长时序仿真任务，可在 LIBERO 基准上显著提升性能。

训练配置

预训练数据为 Open X-Embodiment（包含 BridgeV2、DROID 等子集），共约 97 万条真实机器人演示。训练使用 8 张 H100 GPU，总计约 4,000 GPU 小时，batch size 256，梯度更新约 110 万步；优化器为 AdamW，配合线性预热和余弦衰减调度；输入分辨率为 224×224。

03 实验

实验分两部分：（1）真实世界 WidowX 机器人上的 9 项多样化操作任务评估；（2）LIBERO 仿真基准（4 个任务套件共 40 个任务）。基线模型包括 RT-1、OpenVLA、SpatialVLA 及其 action chunking 变体（AC）。

真实机器人任务（WidowX，9 Tasks）

方法	平均成功率 (%)
RT-1	4.4
SpatialVLA	11.1
OpenVLA	40.0
NORA（本文）	56.7

NORA 在 out-of-domain 零样本抓取任务上表现尤为突出，例如"put the carrot in pot"和"put banana in pot"的成功率高达 90%，而 OpenVLA 在香蕉任务上仅为 40%。

真实机器人任务场景 — 图 3：真实 WidowX 机器人评估环境与 9 项任务设置，涵盖 out-of-domain 对象抓取、空间推理任务和多对象操作任务，全面测试模型的指令理解、空间推理和多任务运动规划能力。

LIBERO 仿真基准

方法	LIBERO-Spatial	LIBERO-Object	LIBERO-Goal	LIBERO-Long	平均
OpenVLA fine-tuned	84.7	88.4	79.2	53.7	76.5
TraceVLA fine-tuned	84.6	85.2	75.1	54.1	74.8
NORA fine-tuned	85.6	87.8	77.0	45.0	73.9
SpatialVLA fine-tuned-AC	88.2	89.9	78.6	55.5	78.1
NORA fine-tuned-AC	85.6	89.4	80.0	63.0	79.5
NORA-Long fine-tuned	92.2	95.4	89.4	74.6	87.9

NORA 与基线的案例比较 — 图 7：NORA 与 OpenVLA、SpatialVLA 在真实机器人任务上的案例对比。NORA 能更准确地定位并抓取目标物体，基线方法则频繁失败（无效动作或抓取错误）。

消融实验

论文对 action chunking（chunk size）和推理变体进行了系统消融。在仿真（LIBERO）中，action chunking（NORA-Long）带来大幅提升，LIBERO-Long 成功率从 45.0%（chunk=1）跃升至 74.6%（NORA-Long），提升了 29.6 个百分点。而在真实机器人上，由于物理误差累积，chunk size 增大反而导致性能下降，NORA（chunk=1）优于 NORA-Long。此外，在有干扰物（distractors）的场景下，两种策略的成功率均有显著下降，说明视觉鲁棒性仍是待解难题。

04 局限性

Note: 以下限制均由论文作者明确陈述（stated）。

多目标操作成功率偏低

论文指出："NORA appears much more precarious at below 50% success rate on multi-object tasks, indicating substantial room for improvement in handling multiple objects." 多对象抓取和放置任务中，NORA 成功率不足 50%，表明模型在复杂场景下的泛化能力有限。

Action Chunking 在真实机器人上的抓取姿态问题

NORA-Long 在真实 WidowX 机器人上存在抓取方向估计不准的问题，论文描述为"consistently attempting to grip objects from the side — specifically around the 2 o'clock direction"，即始终从侧面（约 2 点钟方向）尝试抓取，导致小型物体（如香蕉）抓取失败率升高。

真实机器人上的长序列动作执行误差

在真实机器人平台上连续执行预测动作序列时，NORA-Long 产生"excessively large movements"（过大的运动幅度），进一步导致任务失败。仿真环境中的优势无法直接迁移到真实物理系统，sim-to-real gap 问题仍待解决。

视觉鲁棒性不足（干扰物影响）

在引入环境干扰物（distractors）的测试中，NORA 和基线模型的成功率均有显著下降，说明当前模型的视觉语义理解尚未达到在复杂真实场景中稳健运行的水平。