机器人 · Robotics · 技术报告 2026

Qwen-RobotNav:面向智能体导航系统的可扩展导航模型

将多任务导航重新定义为「观测上下文建模」问题的统一导航基础模型
Qwen Team(Jiazhao Zhang, Gengze Zhou, Hale Yin, Yiyang Huang 等) · 2026-06-17

Qwen-RobotNav 基于 Qwen3-VL 构建,通过参数化观测编码接口统一处理指令跟随、目标搜索、目标追踪和自动驾驶等多类导航任务,无需推理时重新训练即可动态切换任务模式与观测策略。 在 15.6M 样本上联合训练后,模型在 VLN-CE、EVT-Bench、HM3D、NAVSIM 等主流基准均达到最新最优水平; 结合上层 LLM Planner 构建的智能体导航系统,在三项 Embodied Question Answering 基准上同样刷新记录。

技术报告 · June 2026 模型规模:2B → 8B 训练数据:15.6M 样本 博客 / Blog GitHub
具身导航 vision-and-language navigation 多任务导航 task-adaptive observation encoding agentic navigation VLN object-goal navigation 目标追踪 autonomous driving Qwen3-VL

01 动机

具身导航跨越了极为多样的任务家族——指令跟随、目标导航、目标追踪、自动驾驶——它们共享同一套感知-规划骨干, 却对如何消费视觉流有着根本不同的策略需求。 现有统一导航模型(如 NavFoM、ABot-N0)采用固定的观测上下文策略,无法在推理时被外部代理重新配置; 不同任务需要截然不同的时间上下文:指令跟随需要数十步的全局历史以重新参考远端地标, 而目标追踪则几乎只依赖最近几帧。

"We reframe the central challenge of multi-task navigation as observation context modelling rather than architecture design."
Qwen-RobotNav 系统概览与七项能力展示
图 1(第 1 页):Qwen-RobotNav 系统全景。左侧展示 15.6M 多样化训练数据来源(合成视频、真实视频、生成视频); 中间为两层架构:上层 LLM Planner(如 Qwen3.6-Plus)通过 Navigation Context Protocol 动态调度任务模式与观测配置, 下层 Qwen-RobotNav 高频输出路径点;右侧雷达图对比多个基准上的性能; 底部展示七项核心能力:点目标导航、目标追踪、指令跟随、带记忆的长时任务、具身问答、自动驾驶和模型规模扩展。
76.5%VLN-CE RxR SR(Val-Unseen 全景)
90.0%EVT-Bench STT 追踪率(最高)
75.6%HM3D v2 ObjNav SR(最优)
91.4NAVSIM PDMS 自动驾驶分
各基准性能对比概览
图 2(第 2 页,Figure 1):基准汇总图。Qwen-RobotNav-4B 和 8B 在指令跟随(VLN-CE、VLNVerse)、 目标搜索(MP3D、HM3D-OVON)、目标追踪(EVT-Bench)、具身问答(HM-EQA、MT-EQA、EXPRESS-Bench)和 自动驾驶(NAVSIM)五个维度均达到最优或竞争性性能,奖杯图标标注各组最佳方法。

02 方法

Qwen-RobotNav 将所有导航任务统一为路径点轨迹预测,并通过两个正交维度的参数化接口暴露可配置的观测策略: (1)多任务模式(VLN / PointNav / ObjNav / Tracking)选择导航行为; (2)可控观测参数(视觉 token 预算 B、时间衰减 γ、per-camera 权重 wc、帧采样模式) 控制视觉历史编码方式。训练时对所有参数进行随机化,确保推理时无需任何架构修改即可适应任意配置。

Qwen-RobotNav 模型架构图
图 3(第 4 页,Figure 2):Qwen-RobotNav 整体架构。 上:智能体导航系统中,上层 LLM Planner 将长时任务分解为子目标,通过任务自适应上下文参数(token 预算 B、时间衰减 γ、相机权重 wc、帧采样模式)控制 Qwen-RobotNav。 下:Qwen-RobotNav 接收多路 RGB 图像、嵌入式提示和导航指令; Task-Adaptive Observation Encoding 模块跨相机和时间步分配 token; Viewpoint and Temporal Identification 模块插入自然语言视角与时间戳标签; Qwen3-VL backbone 处理视觉-语言序列;轻量 MLP Action Head 输出 K=8 个路径点 (x, y, θ)。

Task-Adaptive Observation Encoding

导航是部分可观测下的序列决策,不同任务对历史帧的需求截然不同。 Qwen-RobotNav 通过时间权重函数 ωt = exp(γ · t/(T'−1)) 对各帧分配 token, 再结合 per-camera 重要性权重 wc 构建二维权重矩阵 W[t,c], 最后用受约束分配算法在预算 B(2048–4096)内按比例分配每张图片的像素分辨率。 γ=0 对应均匀采样,γ 越大越向最近帧集中——当 γ=2 时,最新帧获得最旧帧约 7.4 倍的 token 预算。 训练时所有参数独立随机采样,令模型对任意推理配置均具鲁棒性。

Viewpoint and Temporal Identification

多相机、多时间步的视觉 token 在输入 LLM 前本质上是不可区分的。 Qwen-RobotNav 在每个时间步组前插入自然语言标签(如 Time step 1 Front View <image> Right View <image> ...), 完全依赖 Qwen3-VL 已有的词汇理解能力,无需额外参数或嵌入,同时保留了开放世界语言先验。

Embodiment-Aware Prompt Design

不同物理平台(室内移动机器人 vs. 自动驾驶汽车)通过系统提示中的自然语言前言区分: 室内机器人以 "Imagine you are a robot programmed for navigation tasks" 开始, 自动驾驶以 "Imagine you are a car programmed for autonomous driving" 开始。 支持新平台仅需定义新提示模板,无需任何架构修改。

联合训练策略

训练目标为轨迹回归损失与视觉-语言对齐损失的组合: L = Ltraj + λ LVL(λ=1.0)。 语料库由 85% 导航轨迹数据和 15% 视觉-语言推理数据混合组成, 联合训练防止模型退化为纯反应式动作序列预测器,保持开放世界感知能力。 8B 模型以批量大小 256 共训练 2,816 H100 GPU 小时

训练数据分布
图 4(第 10 页,Figure 5):训练数据分布。左:各数据集样本量,VLN-CE Multi-View(3.9M)最大; 右:按任务类别聚合,共 15.6M 样本——指令跟随占 38.4%,自动驾驶 20.6%,目标导航 19.1%,目标追踪 9.5%, Vision-Language SFT 6.6%,导航推理 5.6%。

智能体导航系统(Agentic Navigation)

Qwen-RobotNav 作为可被外部调用的导航执行器暴露工具接口: Wi = nav_qwennav(Li, τi, Φi), 其中 Li 为子目标指令、τi 为任务模式、Φi 为观测配置。 上层 LLM Planner(Qwen3.6-Plus)将长时任务分解为子目标并动态切换模式和配置; Navigation Harness 将每次导航执行结果压缩为轨迹证据记录(subgoal、progress、salient landmarks、key_frames), 维护跨回合的证据笔记本,支持长时推理与上下文压缩。

03 实验

评测覆盖视觉-语言导航(VLN-CE R2R/RxR、VLNVerse、VLN-PE)、开放词汇目标导航(MP3D、HM3D-OVON)、 主动视觉追踪(EVT-Bench STT)、具身问答(HM-EQA、MT-EQA、EXPRESS-Bench)和自动驾驶(NAVSIM、AlpaSim)五大类别, 与 NavFoM、ABot-N0 等导航基础模型及各专项方法对比。

VLN-CE 指令跟随

方法R2R SR↑R2R SPL↑RxR SR↑RxR nDTW↑
NavFoM(全景)72.161.764.465.8
ABot-N0(全景)70.864.369.3
AstraNav-World(全景)73.967.972.9
Qwen-RobotNav-4B(全景)77.269.575.271.9
Qwen-RobotNav-8B(全景)78.572.176.572.5

全景设置下,Qwen-RobotNav-8B 在 R2R 达到 72.1% SR 和 76.5% SR(RxR), 分别超越 NavFoM 10.4% SR 和 ABot-N0 5.7% SR(R2R)。 单目设置下,Qwen-RobotNav-4B 在 R2R 达到 66.9% SR 和 60.5% SPL, 超越最强单目基线 DualVLN 2.6% SR 和 2.0% SPL。

目标导航(ObjNav)

方法MP3D SR↑HM3D v2 SR↑HM3D-OVON Seen SR↑HM3D-OVON Unseen SR↑
CogNav46.6
ABot-N055.454.0
NavFoM45.445.2
Qwen-RobotNav-4B52.275.657.753.1
Qwen-RobotNav-8B48.871.256.151.2

HM3D v2 上,Qwen-RobotNav-4B 达到 75.6% SR,距离目标仅 1.72 m, 超越即便是基于 HM3D v1(更简单版本)的所有先前方法。 在 HM3D-OVON(开放词汇),Qwen-RobotNav-4B 仅使用单目前向摄像头便超越使用全景多视图的 ABot-N0, 在 Seen 和 Synonyms 两个划分上分别领先 2.4% 和 4.7% SR。

目标追踪(EVT-Bench STT)

方法TR↑(追踪率)CR↓(碰撞率)SR↑(成功率)
TrackVLA++81.02.1086.0
NavFoM80.585.0
ABot-N087.68.5486.9
Qwen-RobotNav-4B90.06.4077.4
Qwen-RobotNav-8B89.75.7078.6

Qwen-RobotNav-4B 以 90.0% TR 在所有方法中取得最高追踪率, 比 ABot-N0 高 2.4%、比 NavFoM 高 9.5%; 8B 版本碰撞率最低(5.70%)。成功率略低于专项追踪器(ABot-N0 86.9%), 论文认为广泛多任务训练引入了更保守的停止策略——追踪行为与停止判断之间存在权衡。

具身问答(EQA)

方法HM-EQA Acc↑HM-EQA Steps↓MT-EQA Acc↑EXPRESS-Bench LLM Score↑
FAST-EQA69.20.6550.568.7
Qwen3.5-Plus+QwenRobotNav-8B74.10.1752.177.66
Qwen3.6-Plus+QwenRobotNav-8B76.70.1554.479.27

智能体系统在 EQA 三项基准全面超越现有方法。与 FAST-EQA 对比:HM-EQA +7.5 点,MT-EQA +3.9 点,EXPRESS-Bench +10.57 分, 同时导航步数减少 77%(0.65 → 0.15)。

自动驾驶(NAVSIM)

方法NC↑DAC↑TTC↑PDMS↑
NavFoM97.793.592.384.3
ReCogDrive97.997.394.990.8
ReflectDrive97.799.393.591.1
Qwen-RobotNav-4B99.890.998.591.4
Qwen-RobotNav-8B99.896.998.290.9

Qwen-RobotNav-4B 在 NAVSIM 达到 91.4 PDMS,超越 NavFoM 7.1 分; NC(99.8)和 TTC(98.5)均领先所有方法,显示出强安全性约束遵从能力。

数据规模与消融分析

数据规模扩展行为与 token 预算/时间衰减消融
图 5(第 26 页,Figure 14–15): 上:数据比例从 12.5% 增至 100%,指令跟随(VLN-CE RxR)和驾驶(NAVSIM)收益最显著;追踪任务(EVT-Bench)在较少数据下即饱和。 下左:固定 γ=2.0 时,token 预算 B 从 2048 增至 4608,SR 从 70.8% 升至 74.6%,OSR 在 B=3584 时达峰值 82.7%; 下右:固定 B=3072 时,γ 从 0.5 增至 3.5,OSR 持续改善(78.8% → 82.6%),SR 在 γ=3.0 时达峰 72.5%。

消融结论:保留更多视觉上下文整体有益,但超出某阈值后分配不当会带来收益递减; 较大 γ 使模型更聚焦近期帧、增强场景解析能力,但代价是丢失早期历史上下文, 对严格依赖全局历史的成功率指标产生轻微负面影响。

真实机器人部署

Qwen-RobotNav 在四足机器人(Unitree Go2)上实现零样本迁移: 在真实展览大厅(21.78 m 路程)通过纯自然语言指令完成跨区域导航, 并在接到「倒退」指令时精确沿原路返回起始位置。 在室内公寓场景,模型在卧室、客厅、浴室间多房间穿行,响应精细空间指令。 推理时延:远程服务器 196 ms(5.1 Hz),板端 TensorRT 加速 204 ms(4.9 Hz)。

04 局限性

说明:论文无独立 Limitations 章节。以下第 1 条为作者在实验分析中明确陈述的权衡,第 2–4 条为从设计与实验结果推断的局限(标注「推断」)。
目标追踪的成功率-追踪率权衡(作者明确指出)

EVT-Bench 上追踪率(TR)最高,但成功率(SR)低于专项追踪器 ABot-N0(77.4% vs. 86.9%)和 TrackVLA++(77.4% vs. 86.0%)。 论文原文:"We hypothesise that the broader multi-task training of Qwen-RobotNav introduces a trade-off where the model maintains tighter following behaviour (superior TR) while being more conservative in declaring episode success."

路径效率(SPL)低于专项探索模型(作者在 ObjNav 分析中指出)

HM3D-OVON 上,Qwen-RobotNav 的 SPL 低于 NavFoM 和 ABot-N0,反映骨架探索训练轨迹倾向于逐房间系统性搜索(提高目标发现率),但路径更长。 论文原文:"The lower SPL of Qwen-RobotNav relative to NavFoM and ABot-N0 reflects a reach-first exploration behaviour."

AlpaSim 封闭循环自动驾驶泛化不足(推断)

在 AlpaSim(PhysicalAI-AV NuRec 数据集)零样本评测中,Qwen-RobotNav-4B/8B 的 AlpaSim Score(0.15/0.17) 显著低于专项模型 Alpamayo-R1-10B(0.72),Off-Road Rate 也更高。 这表明跨场景迁移至专用封闭循环自动驾驶仍存在显著差距,需要领域适应。

token 分配算法的理论最优性有限(作者注释)

论文原文:"We believe this strategy could be further improved by a more principled token allocation algorithm." 当前 token 预算分配基于经验启发式,并非最优;消融实验也显示过大预算带来收益递减甚至略有下降。