ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

01 动机

现有 VLA 模型通常以端到端方式将多模态输入直接映射到低层动作，缺乏显式推理过程，导致在多步规划和复杂任务变体上表现不足。尽管思维链（Chain-of-Thought, CoT）方法有所改进，但依赖昂贵的人工标注；基于问答（QA）风格的强化学习奖励则难以支撑具身规划的视觉基础。

"Existing approaches typically train VLA models in an end-to-end fashion, directly mapping inputs to actions without explicit reasoning, which hinders their ability to plan over multiple steps or adapt to complex task variations."

ThinkAct teaser — 图 1：ThinkAct 的"先思考，后行动"双系统框架概览。通过动作对齐的视觉反馈进行强化，使模型具备少样本自适应、长时域规划与自我纠错三大关键能力。

71.5%SimplerEnv Google-VM 成功率
（DiT-Policy：56.0%）

84.4%LIBERO 综合成功率
（DiT-Policy：76.8%）

48.2%EgoPlan-Bench2 准确率
（Qwen2.5-VL*：45.7%）

+9.5%LIBERO-Spatial 10-shot
超越 Magma 的提升幅度

02 方法

ThinkAct 包含两个协同工作的子系统：推理 MLLM（Qwen2.5-VL 7B）负责在视觉观测与语言指令输入下生成具身推理计划，并通过动作对齐的视觉奖励进行强化训练；DiT-based Action Model（432M 参数）以视觉计划潜变量为条件，在目标环境中预测可执行动作序列。

ThinkAct architecture — 图 2：ThinkAct 架构总览。(a) 推理 MLLM 接收观测与指令，预测轨迹计划，通过基于目标完成度和轨迹一致性的视觉奖励进行 GRPO 强化训练；(b) DiT-based 动作模型以视觉计划潜变量为条件，输出可执行的低层动作序列。

动作对齐的视觉奖励（Action-Aligned Visual Rewards）

ThinkAct 设计了两类视觉奖励取代传统 QA-style 奖励：

Goal Reward (r_goal)：将 MLLM 预测的轨迹起止位置与检测器提取的真实轨迹点进行基于距离的相似度对比，衡量目标完成程度。
Trajectory Reward (r_traj)：使用动态时间规整距离（Dynamic Time Warping, DTW）正则化预测轨迹分布，提升轨迹一致性。

综合奖励公式为：r = 0.9·r_visual + 0.1·r_format，其中 r_visual = 0.5·r_goal + 0.5·r_traj。

训练策略（Training Strategy）

训练分两阶段进行：

Cold-start SFT：在 20K 轮次（batch size 32）的监督微调中初始化轨迹解读能力，使模型具备基础的视觉计划生成能力。
GRPO Fine-tuning：在 6K 轮次（batch size 64，rollout 5）的强化训练中，利用动作对齐视觉奖励优化推理质量。动作模型则在 OXE 数据上以模仿学习方式训练，推理模块在此阶段保持冻结。

03 实验

实验涵盖机器人操作基准（SimplerEnv、LIBERO）和具身推理基准（EgoPlan-Bench2、RoboVQA、OpenEQA），与 DiT-Policy、CoT-VLA、Magma 等基线对比，并考察少样本自适应（10-shot）和自我纠错能力。

机器人操作（SimplerEnv）

场景	DiT-Policy	CoT-VLA	ThinkAct（本文）
Google-VM	56.0%	—	71.5%
Google-VA	48.2%	—	65.1%
Bridge-VM	32.4%	—	43.8%

LIBERO 综合成功率

子集	DiT-Policy	CoT-VLA	ThinkAct（本文）
Spatial	—	—	88.3%
Object	—	—	91.4%
Goal	—	—	87.1%
Long	—	—	70.9%
Overall	76.8%	83.9%	84.4%

具身推理基准

基准	Qwen2.5-VL*（基线）	ThinkAct（本文）
EgoPlan-Bench2（Acc.）	45.7%	48.2%
RoboVQA（BLEU-4）	55.7	59.8
OpenEQA（Overall%）	52.0%	56.2%

qualitative results — 图 3：在 SimplerEnv 和 LIBERO 上的定性操作示例，展示中间推理分解（intermediate reasoning decomposition）和任务执行过程中的轨迹可视化。

少样本自适应（10-shot）

few-shot adaptation results — 图 4：在 LIBERO 任务上使用每任务 10 个演示的少样本自适应性能。ThinkAct 在 LIBERO-Spatial 上比 Magma 高 +9.5%，在 LIBERO-Goal 上高 +7.3%。

消融实验（Ablations，SimplerEnv）

配置	综合得分
ThinkAct（Full）	60.1
w/o r_traj	59.2
w/o r_goal	59.1
w/o both rewards	56.9
SFT baseline	56.4

消融结果表明，目标奖励和轨迹奖励均对最终性能有正向贡献；移除任一奖励均导致性能下降，完全去除视觉奖励后性能下降最为明显（60.1 → 56.9）。

04 局限性

Note: 以下局限性中，第一条为论文作者明确陈述（stated），第二和第三条为基于设计的推断（inferred from the design）。

MLLM 幻觉（Hallucination）问题（stated）

论文明确指出，该框架"inherits limitations from pretrained MLLMs, particularly hallucinations in visual or spatial reasoning"，即预训练 MLLM 在视觉或空间推理中存在幻觉，可能生成引用"incorrect object attributes or spatial relationships"的计划，从而影响下游动作执行质量。

对演示数据的依赖（inferred）

虽然 ThinkAct 展示了 10-shot 适应能力，但动作模型的训练仍依赖 OXE 等大规模机器人数据集进行预训练，在全新形态或环境中的零样本泛化能力尚不明确。

计算开销较大（inferred）

推理阶段需要先运行 Qwen2.5-VL 7B 生成视觉推理计划，再驱动 432M 参数的 DiT-based 动作模型，双系统的串联推理对实时控制场景的延迟要求构成挑战；GRPO fine-tuning（batch 64，rollout 5）的训练成本也不可忽视。