Learning to Model the World with Language

01 动机

现有具身 AI 智能体在处理语言时存在严重局限——它们往往只能接受简单的任务指令（如"拿起苹果"），却无法利用更丰富的语言形式：状态描述（"碗在厨房里"）、动态解释（"这个按钮会关掉电视"）、以及纠错反馈。当这些多样化语言信号涌入时，model-free 的基线方法（如 R2D2）甚至会出现性能退化的现象。

"We argue that agents should interpret such diverse language as a signal that helps them predict the future — what they will observe and what reward they will receive — rather than as a direct command to execute."

Dynalang 预测示意图 — **Figure 1：**Dynalang 在 HomeGrid 环境中对真实世界模型预测的可视化。Agent 接收不同类型的语言提示（任务、状态描述、动态解释），并据此更新对未来帧的预测——这一自监督信号驱动语言与视觉的联合理解，无需额外标注。

4评测环境 (HomeGrid / Messenger / VLN-CE / LangRoom)

4语言类型 (task / state / dynamics / corrections)

500MTinyStories tokens 用于文本预训练

S3唯一能在 Messenger Stage 3 取得非零成绩的方法

**Figure 2：**四个评测环境概览。HomeGrid：格子世界，含多类语言提示；Messenger：阅读随机化游戏手册完成消息传递；VLN-CE：在 Matterport3D 真实感房屋中执行自然语言导航指令；LangRoom：具身问答，Agent 需导航探索并生成文字回答。

02 方法

Dynalang 以 DreamerV3 为基础，将其扩展为多模态世界模型：每个时间步同时编码一帧图像和一个语言 token，通过 GRU 序列模型在潜空间中进行未来预测，再由 Actor-Critic 在世界模型的"想象"轨迹中学习策略——语言理解完全由未来预测的自监督信号驱动。

Dynalang 架构图 — **Figure 3：**（左）世界模型学习：每步输入一帧图像与一个文字 token，GRU 序列模型预测下一状态的离散 latent 表示，解码器重建图像、语言、奖励和 episode 终止信号，整体以变分自编码目标训练。（右）策略学习：Actor-Critic 完全在世界模型的想象 rollout 中训练，无需与真实环境额外交互。

多模态序列建模

图像帧与文字 token 被编码为离散 latent 表示，投影到同一潜空间，无需显式的时序对齐。序列模型（GRU）在此空间上联合预测下一时刻的视觉与语言表示，解码器分别重建：

图像（视觉一致性）
文字 token（语言预测）
奖励信号
Episode 终止标志

策略学习与文本预训练

Actor-Critic 仅在世界模型想象的 rollout 中训练，最大化预测的累计奖励。得益于多模态生成目标，模型可在无 action 、无 reward 的纯文本数据上预训练，再迁移到下游 RL 任务。在大词表（10,000 token）场景下，用语言 action 的世界模型预测做正则，有效防止策略坍塌到特定词汇。

设计亮点：语言作为预测信号

核心洞察在于将语言的监督角色与行动角色解耦：语言提示经由未来预测损失自监督地嵌入世界模型，无需人工标注语言含义。这使得动态解释（"按下蓝色按钮会打开门"）和纠错（"你走错方向了"）这类在传统 instruction-following 范式中难以处理的语言类型，自然地融入统一框架。

03 实验

在四个具有代表性的语言-具身任务上评测 Dynalang，基线包括 model-free 方法（IMPALA、R2D2）与 model-based 方法（多种语言条件化 DreamerV3 变体），以及任务专用架构 EMMA。

HomeGrid — 多样化语言提示

格子世界中，Agent 需完成物体操纵任务，并接收四类语言：仅任务（task only）、加状态描述（+ state）、加动态解释（+ dynamics）、加纠错（+ corrections）。关键发现：

Dynalang 随语言类型增多单调提升；
R2D2 在语言变多时性能退化（无法利用多样化语言）；
IMPALA 无法完成任务。

HomeGrid 实验结果 — **Figure 5：**HomeGrid 各语言条件下任务完成率曲线。Dynalang（蓝线）在所有语言条件下均优于基线，且能随语言丰富程度持续提升；R2D2（橙线）在多类语言下性能下滑，佐证了传统 instruction-following 方案的局限。

Messenger — 游戏手册阅读

Agent 需阅读描述随机化实体角色与规则的游戏手册，完成消息传递并规避敌人。难度分三阶段（S1/S2/S3）。

S1：Dynalang 大幅领先所有 model-based 基线，尽管从零训练 token 嵌入；
S3：其他方法完全失败（零成绩），Dynalang 唯一取得非零性能；
文本预训练（in-domain 手册或 TinyStories ~500M tokens）进一步提升 S2 成绩，且 TinyStories 预训练超越 T5 嵌入基线的最终性能。

Messenger 实验结果 — **Figure 6：**Messenger 三阶段训练曲线。S3 阶段（最难）仅 Dynalang 取得非零得分，验证了多模态世界模型在高复杂度语言推理任务上的优越性。

VLN-CE — 真实感室内导航

在 Matterport3D 真实感房屋中，Agent 须跟随自然语言指令导航至目标位置（success rate 衡量）。Dynalang 在 success rate 上显著超越 R2D2 model-free 基线，但与使用演示数据或专用架构的 SOTA 方法仍有差距（paper 明确承认）。

LangRoom — 具身问答与文本生成

Agent 需导航找到颜色目标，并通过生成语言 action 回答问题。在大词表（10,000 token）下：

One-hot token 编码从零训练失败；
用世界模型预测正则化语言 action 后，性能恢复；
预训练（in-domain 或 TinyStories）进一步超越 T5 嵌入基线，体现多模态生成模型的迁移学习潜力。

消融分析

在 Messenger S1 上，作者系统对比了多种语言条件化策略（GRU 嵌入、SentenceBERT、T5 + image adapter、cross-attention、two-way cross-attention 等变体），Dynalang 在无需专用对齐模块的情况下全面超越所有变体，验证了"语言作为预测信号"这一核心设计的有效性。

04 局限性

注：本文没有独立的 Limitations 章节。以下条目中，标注"论文明确指出"者来自正文；其余为根据方法设计推断的潜在局限。

VLN-CE 与 SOTA 仍有差距（论文明确指出）

作者在 VLN-CE 实验中明确写道："performance is not yet competitive with state-of-the-art VLN methods"，这些 SOTA 方法往往使用人类演示、大型预训练视觉-语言编码器或专用导航架构，Dynalang 均未采用。

大词表语言生成的不稳定性（推断自设计）

LangRoom 实验显示，词表扩大至 10,000 时 one-hot 训练直接失败，需要额外的正则化（世界模型预测约束）或预训练才能恢复稳定性。这限制了 Dynalang 在开放域语言生成任务上的直接应用。

每步单 token 的语言处理假设（推断自设计）

Dynalang 每个时间步仅处理一个视频帧和一个语言 token，不依赖时序对齐，但这也意味着长句描述被拆散到多步处理，可能丢失句子级别的语义连贯性，在需要理解长篇指令的任务中存在潜在风险。

计算量与模型复杂度（推断自设计）

在世界模型想象空间中训练 Actor-Critic 需要维护和展开完整的 GRU 世界模型，计算成本高于 model-free 基线。论文未提供与基线方法的训练时间或 FLOPs 对比数据。