机器人 · Robotics · arXiv 2026

RLDX-1 Technical Report

超越通用智能——面向真实世界灵巧操作的多功能 VLA
Dongyoung Kim, Huiwon Jang, Myungkyu Koo, Suhyeok Jang, Taeyoung Kim, Beomjun Kim 等 68 位作者 · RLwrld

现有 Vision-Language-Action(VLA)模型通过大规模预训练获得了"通用智能"(versatile intelligence),但仍难以应对真实世界中需要运动感知、长时记忆与物理感知的复杂灵巧操作任务。RLDX-1 提出 Multi-Stream Action Transformer(MSAT)架构,通过模态专用流与跨模态联合自注意力统一整合上述三大功能,并结合合成数据管线、三阶段训练流程与推理优化,在仿真与多平台真实机器人实验中全面超越 π₀.₅ 和 GR00T N1.6。

提交:2026-05-05 领域:cs.RO 平台:ALLEX / OpenArm / Franka Research 3 📄 arXiv:2605.03269 PDF
VLA dexterous manipulation humanoid robot motion awareness long-term memory physical sensing MSAT synthetic data 灵巧操作

01 动机

VLA 模型通过继承预训练 Vision-Language Model 的通用理解与语言条件泛化能力,在机器人操作领域取得了显著进步——但这种"通用智能"并不等于"灵巧操作所需的全部能力"。在动态环境(如传送带上的移动物体)、需要记住历史交互状态的任务、以及依赖触觉/力矩反馈的接触丰富场景中,现有 VLA 普遍失效。

"While Vision-Language-Action models (VLAs) have shown remarkable progress toward human-like generalist robotic policies through the versatile intelligence … they still struggle with complex real-world tasks requiring broader functional capabilities (e.g. motion awareness, long-term memory, and physical sensing)."
RLDX-1 overview
图 1:RLDX-1 系统概览。该模型整合三类核心功能能力:运动感知(Motion Awareness)用于动态环境下的物体轨迹追踪;长时记忆(Long-Term Memory)用于基于历史状态的决策;物理感知(Physical Sensing)用于接触丰富任务中的力/触觉推断。(来源:论文 Figure 1)
97.8%LIBERO 平均成功率
(超越 GR00T N1.6 的 96.7%)
91.7%ALLEX 长时记忆任务
(Object-in-Box Selection)
87.5%ALLEX 运动感知任务
(Conveyor Pick-and-Place)
1.63×推理加速比
(71.2ms → 43.7ms)

02 方法

RLDX-1 包含四大核心组件:(1) Multi-Stream Action Transformer(MSAT)神经网络架构;(2) 基于运动一致性过滤的合成数据生成管线;(3) 预训练 → 中训练 → 后训练的三阶段训练流程;(4) 静态图转换与算子融合推理优化。

RLDX-1 architecture
图 2:RLDX-1 架构(MSAT)。模型由 Vision-Language Model(VLM)和动作模型两部分组成。VLM 接收多帧视频观测,通过 Motion Module 捕获时序动态,通过 Memory Module 维护历史认知特征队列;物理信号(触觉/力矩)通过独立的 Physics(P)流输入。各模态流通过跨模态联合自注意力(joint self-attention)交互。(来源:论文 Figure 3)

Multi-Stream Action Transformer(MSAT)

MSAT 在标准 flow-matching VLA 架构(π₀)基础上,为每种模态分配专用流(dedicated stream),通过 joint self-attention 实现跨模态交互,同时保留各模态专属参数。具体地:

合成数据生成与过滤

Synthetic data pipeline
图 3:合成数据生成框架。(1) 数据生成:对源演示进行场景/任务增广,并用逆动力学模型(IDM)标注动作标签;(2) 两阶段过滤:VLM 评估"指令跟随"与"轨迹合理性"(视频质量过滤),再通过轻量级 attentive probe 对比生成视频与仿真回放(运动一致性过滤)。共生成 150K 条合成演示数据。(来源:论文 Figure 4)

合成数据管线共生成 150K 条人形机器人演示数据,用于补充真实数据中稀缺的灵巧操作场景。两阶段过滤机制有效剔除不合格样本,在 GR-1 Tabletop 基准上,加入合成数据后成功率相对仅用真实数据提升了 9.1%(41.0% → 50.1%)。

三阶段训练流程

推理优化

通过两项关键技术实现 1.63× 端到端推理加速(71.2ms → 43.7ms):

03 实验

实验在仿真基准(LIBERO、SIMPLER、RoboCasa、GR-1 Tabletop)和三类真实机器人平台(OpenArm 28-DoF 人形、ALLEX 48-DoF 人形、Franka Research 3 单臂)上进行,主要对比 π₀-FAST、π₀、π₀.₅、GR00T N1.5、GR00T N1.6。

仿真基准(Table 1a:经典基准)

方法LIBERO ShortLIBERO LongLIBERO AvgLIBERO-PlusSIMPLER Google-VMSIMPLER WidowX
π₀-FAST93.960.285.564.261.948.3
π₀97.185.294.154.658.827.1
π₀.₅98.092.096.986.572.746.9
GR00T N1.697.494.496.772.676.157.1
RLDX-1(本文)98.695.397.886.781.571.9

仿真基准(Table 1b:复合挑战基准)

方法RoboCasa KitchenGR-1 TabletopRoboCasa365 Comp.-SRoboCasa365 Comp.-URoboCasa365 Avg
π₀62.513.66.11.114.8
π₀.₅62.115.47.11.216.9
GR00T N1.565.748.09.64.420.0
GR00T N1.666.247.612.62.626.9
RLDX-1(本文)70.658.719.05.632.1

真实机器人:ALLEX 人形基准

ALLEX benchmark results
图 4:ALLEX 人形基准结果。RLDX-1 在所有任务类别上大幅超越基线:运动感知(Conveyor Pick-and-Place)、长时记忆(Object-in-Box Selection)、物理感知(Card Slide-and-Pick, Pot-to-Cup-Pouring)。ALLEX 是一款 48-DoF 上半身人形机器人,配备立体自我中心相机。(来源:论文 Figure 16)

在 ALLEX 人形基准上,关键结果如下(作者原文引用):

消融实验(Ablation Studies)

论文对多个设计维度进行消融验证:

04 局限性

Note:论文原文(Section 8 Conclusion)未设独立 Limitations 章节。以下各条均为从设计与实验中推断(inferred from design and experiments),如有明确陈述会标注。
仅针对特定具身平台专项训练,泛化性有待验证

RLDX-1 的中训练阶段专门针对 ALLEX 人形和 Franka Research 3 两类平台进行具身特化。这意味着应用于其他机器人形态时,需重新采集数据并重复多阶段训练流程,跨具身零样本迁移能力未被系统评估。(inferred)

合成数据质量依赖视频扩散模型与过滤流程的可靠性

合成数据管线基于视频扩散模型生成多样化演示,再通过两阶段过滤(VLM 视频质量过滤 + 运动一致性过滤)筛选有效样本。若扩散模型对特定场景分布外泛化能力不足,或过滤器产生漏判,合成数据的有效性将受限。当前消融仅验证了 GR-1 Tabletop 基准上的效果。(inferred)

推理优化依赖特定硬件环境(NVIDIA GPU + CUDA Graph)

静态图转换与 kernel 融合优化高度依赖 NVIDIA GPU 运行环境。在边缘设备或不同硬件栈(如 ARM CPU、其他加速器)上,所报告的 1.63× 加速收益可能无法复现。(inferred)

长时记忆模块的记忆容量与时序粒度固定

Memory Module 以固定间隔(H+1 时步)采样并维护固定数量(n_mem)的历史认知特征。对于需要跨越更长时间跨度或更细粒度历史状态的任务,该设计的扩展性未被论文深入讨论。(inferred)