Qwen-RobotNav：面向智能体导航系统的可扩展导航模型

01 动机

具身导航跨越了极为多样的任务家族——指令跟随、目标导航、目标追踪、自动驾驶——它们共享同一套感知-规划骨干，却对如何消费视觉流有着根本不同的策略需求。现有统一导航模型（如 NavFoM、ABot-N0）采用固定的观测上下文策略，无法在推理时被外部代理重新配置；不同任务需要截然不同的时间上下文：指令跟随需要数十步的全局历史以重新参考远端地标，而目标追踪则几乎只依赖最近几帧。

"We reframe the central challenge of multi-task navigation as observation context modelling rather than architecture design."

Qwen-RobotNav 系统概览与七项能力展示 — **图 1（第 1 页）：**Qwen-RobotNav 系统全景。左侧展示 15.6M 多样化训练数据来源（合成视频、真实视频、生成视频）；中间为两层架构：上层 LLM Planner（如 Qwen3.6-Plus）通过 Navigation Context Protocol 动态调度任务模式与观测配置，下层 Qwen-RobotNav 高频输出路径点；右侧雷达图对比多个基准上的性能；底部展示七项核心能力：点目标导航、目标追踪、指令跟随、带记忆的长时任务、具身问答、自动驾驶和模型规模扩展。

76.5%VLN-CE RxR SR（Val-Unseen 全景）

90.0%EVT-Bench STT 追踪率（最高）

75.6%HM3D v2 ObjNav SR（最优）

91.4NAVSIM PDMS 自动驾驶分

各基准性能对比概览 — **图 2（第 2 页，Figure 1）：**基准汇总图。Qwen-RobotNav-4B 和 8B 在指令跟随（VLN-CE、VLNVerse）、目标搜索（MP3D、HM3D-OVON）、目标追踪（EVT-Bench）、具身问答（HM-EQA、MT-EQA、EXPRESS-Bench）和自动驾驶（NAVSIM）五个维度均达到最优或竞争性性能，奖杯图标标注各组最佳方法。

02 方法

Qwen-RobotNav 将所有导航任务统一为路径点轨迹预测，并通过两个正交维度的参数化接口暴露可配置的观测策略：（1）多任务模式（VLN / PointNav / ObjNav / Tracking）选择导航行为；（2）可控观测参数（视觉 token 预算 B、时间衰减 γ、per-camera 权重 w_c、帧采样模式）控制视觉历史编码方式。训练时对所有参数进行随机化，确保推理时无需任何架构修改即可适应任意配置。

Qwen-RobotNav 模型架构图 — **图 3（第 4 页，Figure 2）：**Qwen-RobotNav 整体架构。上：智能体导航系统中，上层 LLM Planner 将长时任务分解为子目标，通过任务自适应上下文参数（token 预算 B、时间衰减 γ、相机权重 *w_c*、帧采样模式）控制 Qwen-RobotNav。下：Qwen-RobotNav 接收多路 RGB 图像、嵌入式提示和导航指令； Task-Adaptive Observation Encoding 模块跨相机和时间步分配 token； Viewpoint and Temporal Identification 模块插入自然语言视角与时间戳标签； Qwen3-VL backbone 处理视觉-语言序列；轻量 MLP Action Head 输出 K=8 个路径点 (x, y, θ)。

Task-Adaptive Observation Encoding

导航是部分可观测下的序列决策，不同任务对历史帧的需求截然不同。 Qwen-RobotNav 通过时间权重函数 ω_t = exp(γ · t/(T'−1)) 对各帧分配 token，再结合 per-camera 重要性权重 w_c 构建二维权重矩阵 W[t,c]，最后用受约束分配算法在预算 B（2048–4096）内按比例分配每张图片的像素分辨率。 γ=0 对应均匀采样，γ 越大越向最近帧集中——当 γ=2 时，最新帧获得最旧帧约 7.4 倍的 token 预算。训练时所有参数独立随机采样，令模型对任意推理配置均具鲁棒性。

Viewpoint and Temporal Identification

多相机、多时间步的视觉 token 在输入 LLM 前本质上是不可区分的。 Qwen-RobotNav 在每个时间步组前插入自然语言标签（如 Time step 1 Front View <image> Right View <image> ...），完全依赖 Qwen3-VL 已有的词汇理解能力，无需额外参数或嵌入，同时保留了开放世界语言先验。

Embodiment-Aware Prompt Design

不同物理平台（室内移动机器人 vs. 自动驾驶汽车）通过系统提示中的自然语言前言区分：室内机器人以 "Imagine you are a robot programmed for navigation tasks" 开始，自动驾驶以 "Imagine you are a car programmed for autonomous driving" 开始。支持新平台仅需定义新提示模板，无需任何架构修改。

联合训练策略

训练目标为轨迹回归损失与视觉-语言对齐损失的组合： L = L_traj + λ L_VL（λ=1.0）。语料库由 85% 导航轨迹数据和 15% 视觉-语言推理数据混合组成，联合训练防止模型退化为纯反应式动作序列预测器，保持开放世界感知能力。 8B 模型以批量大小 256 共训练 2,816 H100 GPU 小时。

**图 4（第 10 页，Figure 5）：**训练数据分布。左：各数据集样本量，VLN-CE Multi-View（3.9M）最大；右：按任务类别聚合，共 15.6M 样本——指令跟随占 38.4%，自动驾驶 20.6%，目标导航 19.1%，目标追踪 9.5%， Vision-Language SFT 6.6%，导航推理 5.6%。

智能体导航系统（Agentic Navigation）

Qwen-RobotNav 作为可被外部调用的导航执行器暴露工具接口： W_i = nav_qwennav(L_i, τ_i, Φ_i)，其中 L_i 为子目标指令、τ_i 为任务模式、Φ_i 为观测配置。上层 LLM Planner（Qwen3.6-Plus）将长时任务分解为子目标并动态切换模式和配置； Navigation Harness 将每次导航执行结果压缩为轨迹证据记录（subgoal、progress、salient landmarks、key_frames），维护跨回合的证据笔记本，支持长时推理与上下文压缩。

03 实验

评测覆盖视觉-语言导航（VLN-CE R2R/RxR、VLNVerse、VLN-PE）、开放词汇目标导航（MP3D、HM3D-OVON）、主动视觉追踪（EVT-Bench STT）、具身问答（HM-EQA、MT-EQA、EXPRESS-Bench）和自动驾驶（NAVSIM、AlpaSim）五大类别，与 NavFoM、ABot-N0 等导航基础模型及各专项方法对比。

VLN-CE 指令跟随

方法	R2R SR↑	R2R SPL↑	RxR SR↑	RxR nDTW↑
NavFoM（全景）	72.1	61.7	64.4	65.8
ABot-N0（全景）	70.8	64.3	69.3	–
AstraNav-World（全景）	73.9	67.9	72.9	–
Qwen-RobotNav-4B（全景）	77.2	69.5	75.2	71.9
Qwen-RobotNav-8B（全景）	78.5	72.1	76.5	72.5

全景设置下，Qwen-RobotNav-8B 在 R2R 达到 72.1% SR 和 76.5% SR（RxR），分别超越 NavFoM 10.4% SR 和 ABot-N0 5.7% SR（R2R）。单目设置下，Qwen-RobotNav-4B 在 R2R 达到 66.9% SR 和 60.5% SPL，超越最强单目基线 DualVLN 2.6% SR 和 2.0% SPL。

目标导航（ObjNav）

方法	MP3D SR↑	HM3D v2 SR↑	HM3D-OVON Seen SR↑	HM3D-OVON Unseen SR↑
CogNav	46.6	–	–	–
ABot-N0	–	–	55.4	54.0
NavFoM	–	–	45.4	45.2
Qwen-RobotNav-4B	52.2	75.6	57.7	53.1
Qwen-RobotNav-8B	48.8	71.2	56.1	51.2

HM3D v2 上，Qwen-RobotNav-4B 达到 75.6% SR，距离目标仅 1.72 m，超越即便是基于 HM3D v1（更简单版本）的所有先前方法。在 HM3D-OVON（开放词汇），Qwen-RobotNav-4B 仅使用单目前向摄像头便超越使用全景多视图的 ABot-N0，在 Seen 和 Synonyms 两个划分上分别领先 2.4% 和 4.7% SR。

目标追踪（EVT-Bench STT）

方法	TR↑（追踪率）	CR↓（碰撞率）	SR↑（成功率）
TrackVLA++	81.0	2.10	86.0
NavFoM	80.5	–	85.0
ABot-N0	87.6	8.54	86.9
Qwen-RobotNav-4B	90.0	6.40	77.4
Qwen-RobotNav-8B	89.7	5.70	78.6

Qwen-RobotNav-4B 以 90.0% TR 在所有方法中取得最高追踪率，比 ABot-N0 高 2.4%、比 NavFoM 高 9.5%； 8B 版本碰撞率最低（5.70%）。成功率略低于专项追踪器（ABot-N0 86.9%），论文认为广泛多任务训练引入了更保守的停止策略——追踪行为与停止判断之间存在权衡。

具身问答（EQA）

方法	HM-EQA Acc↑	HM-EQA Steps↓	MT-EQA Acc↑	EXPRESS-Bench LLM Score↑
FAST-EQA	69.2	0.65	50.5	68.7
Qwen3.5-Plus+QwenRobotNav-8B	74.1	0.17	52.1	77.66
Qwen3.6-Plus+QwenRobotNav-8B	76.7	0.15	54.4	79.27

智能体系统在 EQA 三项基准全面超越现有方法。与 FAST-EQA 对比：HM-EQA +7.5 点，MT-EQA +3.9 点，EXPRESS-Bench +10.57 分，同时导航步数减少 77%（0.65 → 0.15）。

自动驾驶（NAVSIM）

方法	NC↑	DAC↑	TTC↑	PDMS↑
NavFoM	97.7	93.5	92.3	84.3
ReCogDrive	97.9	97.3	94.9	90.8
ReflectDrive	97.7	99.3	93.5	91.1
Qwen-RobotNav-4B	99.8	90.9	98.5	91.4
Qwen-RobotNav-8B	99.8	96.9	98.2	90.9

Qwen-RobotNav-4B 在 NAVSIM 达到 91.4 PDMS，超越 NavFoM 7.1 分； NC（99.8）和 TTC（98.5）均领先所有方法，显示出强安全性约束遵从能力。

数据规模与消融分析

数据规模扩展行为与 token 预算/时间衰减消融 — **图 5（第 26 页，Figure 14–15）：** 上：数据比例从 12.5% 增至 100%，指令跟随（VLN-CE RxR）和驾驶（NAVSIM）收益最显著；追踪任务（EVT-Bench）在较少数据下即饱和。 *下左：*固定 γ=2.0 时，token 预算 B 从 2048 增至 4608，SR 从 70.8% 升至 74.6%，OSR 在 B=3584 时达峰值 82.7%； *下右：*固定 B=3072 时，γ 从 0.5 增至 3.5，OSR 持续改善（78.8% → 82.6%），SR 在 γ=3.0 时达峰 72.5%。

消融结论：保留更多视觉上下文整体有益，但超出某阈值后分配不当会带来收益递减；较大 γ 使模型更聚焦近期帧、增强场景解析能力，但代价是丢失早期历史上下文，对严格依赖全局历史的成功率指标产生轻微负面影响。

真实机器人部署

Qwen-RobotNav 在四足机器人（Unitree Go2）上实现零样本迁移：在真实展览大厅（21.78 m 路程）通过纯自然语言指令完成跨区域导航，并在接到「倒退」指令时精确沿原路返回起始位置。在室内公寓场景，模型在卧室、客厅、浴室间多房间穿行，响应精细空间指令。推理时延：远程服务器 196 ms（5.1 Hz），板端 TensorRT 加速 204 ms（4.9 Hz）。

04 局限性

说明：论文无独立 Limitations 章节。以下第 1 条为作者在实验分析中明确陈述的权衡，第 2–4 条为从设计与实验结果推断的局限（标注「推断」）。

目标追踪的成功率-追踪率权衡（作者明确指出）

EVT-Bench 上追踪率（TR）最高，但成功率（SR）低于专项追踪器 ABot-N0（77.4% vs. 86.9%）和 TrackVLA++（77.4% vs. 86.0%）。论文原文："We hypothesise that the broader multi-task training of Qwen-RobotNav introduces a trade-off where the model maintains tighter following behaviour (superior TR) while being more conservative in declaring episode success."

路径效率（SPL）低于专项探索模型（作者在 ObjNav 分析中指出）

HM3D-OVON 上，Qwen-RobotNav 的 SPL 低于 NavFoM 和 ABot-N0，反映骨架探索训练轨迹倾向于逐房间系统性搜索（提高目标发现率），但路径更长。论文原文："The lower SPL of Qwen-RobotNav relative to NavFoM and ABot-N0 reflects a reach-first exploration behaviour."

AlpaSim 封闭循环自动驾驶泛化不足（推断）

在 AlpaSim（PhysicalAI-AV NuRec 数据集）零样本评测中，Qwen-RobotNav-4B/8B 的 AlpaSim Score（0.15/0.17）显著低于专项模型 Alpamayo-R1-10B（0.72），Off-Road Rate 也更高。这表明跨场景迁移至专用封闭循环自动驾驶仍存在显著差距，需要领域适应。

token 分配算法的理论最优性有限（作者注释）

论文原文："We believe this strategy could be further improved by a more principled token allocation algorithm." 当前 token 预算分配基于经验启发式，并非最优；消融实验也显示过大预算带来收益递减甚至略有下降。