NeurIPS 2025 · 机器人 · Robotics

ThinkAct

Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
Chi-Pin Huang · Yueh-Hua Wu · Min-Hung Chen · Yu-Chiang Frank Wang · Fu-En Yang

ThinkAct 提出一个双系统框架,将多模态大语言模型(MLLM)的高层推理与下游动作模型的低层执行联结起来:MLLM 通过强化学习生成动作对齐的视觉推理计划,计划被压缩为视觉潜变量(visual plan latent)后条件化动作模型,从而在复杂具身 AI 任务中实现少样本自适应、长时域规划与自我纠错。

NeurIPS 2025Qwen2.5-VL 7B · DiT-based Action (432M)SimplerEnv · LIBERO · EgoPlan-Bench2 📄 arXiv:2507.16815 PDF
VLA vision-language-action embodied reasoning reinforcement learning visual plan latent dual-system framework 机器人操作 long-horizon planning few-shot adaptation self-correction

01 动机

现有 VLA 模型通常以端到端方式将多模态输入直接映射到低层动作,缺乏显式推理过程,导致在多步规划和复杂任务变体上表现不足。尽管思维链(Chain-of-Thought, CoT)方法有所改进,但依赖昂贵的人工标注;基于问答(QA)风格的强化学习奖励则难以支撑具身规划的视觉基础。

"Existing approaches typically train VLA models in an end-to-end fashion, directly mapping inputs to actions without explicit reasoning, which hinders their ability to plan over multiple steps or adapt to complex task variations."
ThinkAct teaser
图 1:ThinkAct 的"先思考,后行动"双系统框架概览。通过动作对齐的视觉反馈进行强化,使模型具备少样本自适应、长时域规划与自我纠错三大关键能力。
71.5%SimplerEnv Google-VM 成功率
(DiT-Policy:56.0%)
84.4%LIBERO 综合成功率
(DiT-Policy:76.8%)
48.2%EgoPlan-Bench2 准确率
(Qwen2.5-VL*:45.7%)
+9.5%LIBERO-Spatial 10-shot
超越 Magma 的提升幅度

02 方法

ThinkAct 包含两个协同工作的子系统:推理 MLLM(Qwen2.5-VL 7B)负责在视觉观测与语言指令输入下生成具身推理计划,并通过动作对齐的视觉奖励进行强化训练;DiT-based Action Model(432M 参数)以视觉计划潜变量为条件,在目标环境中预测可执行动作序列。

ThinkAct architecture
图 2:ThinkAct 架构总览。(a) 推理 MLLM 接收观测与指令,预测轨迹计划,通过基于目标完成度和轨迹一致性的视觉奖励进行 GRPO 强化训练;(b) DiT-based 动作模型以视觉计划潜变量为条件,输出可执行的低层动作序列。

动作对齐的视觉奖励(Action-Aligned Visual Rewards)

ThinkAct 设计了两类视觉奖励取代传统 QA-style 奖励:

综合奖励公式为:r = 0.9·rvisual + 0.1·rformat,其中 rvisual = 0.5·rgoal + 0.5·rtraj

训练策略(Training Strategy)

训练分两阶段进行:

03 实验

实验涵盖机器人操作基准(SimplerEnv、LIBERO)和具身推理基准(EgoPlan-Bench2、RoboVQA、OpenEQA),与 DiT-Policy、CoT-VLA、Magma 等基线对比,并考察少样本自适应(10-shot)和自我纠错能力。

机器人操作(SimplerEnv)

场景DiT-PolicyCoT-VLAThinkAct(本文)
Google-VM56.0%71.5%
Google-VA48.2%65.1%
Bridge-VM32.4%43.8%

LIBERO 综合成功率

子集DiT-PolicyCoT-VLAThinkAct(本文)
Spatial88.3%
Object91.4%
Goal87.1%
Long70.9%
Overall76.8%83.9%84.4%

具身推理基准

基准Qwen2.5-VL*(基线)ThinkAct(本文)
EgoPlan-Bench2(Acc.)45.7%48.2%
RoboVQA(BLEU-4)55.759.8
OpenEQA(Overall%)52.0%56.2%
qualitative results
图 3:在 SimplerEnv 和 LIBERO 上的定性操作示例,展示中间推理分解(intermediate reasoning decomposition)和任务执行过程中的轨迹可视化。

少样本自适应(10-shot)

few-shot adaptation results
图 4:在 LIBERO 任务上使用每任务 10 个演示的少样本自适应性能。ThinkAct 在 LIBERO-Spatial 上比 Magma 高 +9.5%,在 LIBERO-Goal 上高 +7.3%。

消融实验(Ablations,SimplerEnv)

配置综合得分
ThinkAct(Full)60.1
w/o rtraj59.2
w/o rgoal59.1
w/o both rewards56.9
SFT baseline56.4

消融结果表明,目标奖励和轨迹奖励均对最终性能有正向贡献;移除任一奖励均导致性能下降,完全去除视觉奖励后性能下降最为明显(60.1 → 56.9)。

04 局限性

Note: 以下局限性中,第一条为论文作者明确陈述(stated),第二和第三条为基于设计的推断(inferred from the design)。
MLLM 幻觉(Hallucination)问题(stated)

论文明确指出,该框架"inherits limitations from pretrained MLLMs, particularly hallucinations in visual or spatial reasoning",即预训练 MLLM 在视觉或空间推理中存在幻觉,可能生成引用"incorrect object attributes or spatial relationships"的计划,从而影响下游动作执行质量。

对演示数据的依赖(inferred)

虽然 ThinkAct 展示了 10-shot 适应能力,但动作模型的训练仍依赖 OXE 等大规模机器人数据集进行预训练,在全新形态或环境中的零样本泛化能力尚不明确。

计算开销较大(inferred)

推理阶段需要先运行 Qwen2.5-VL 7B 生成视觉推理计划,再驱动 432M 参数的 DiT-based 动作模型,双系统的串联推理对实时控制场景的延迟要求构成挑战;GRPO fine-tuning(batch 64,rollout 5)的训练成本也不可忽视。