论文海报合集

每篇一页图文海报，含动机 / 方法 / 实验 / 局限性四节，配论文真实插图，页眉页脚均链原文。

共 293 篇 · 每日新增

标签：机器人操作117VLA102imitation learning57flow matching42Vision-Language-Action40world model39robot manipulation35具身智能28diffusion policy25diffusion transformer22LIBERO19reinforcement learning18cross-embodiment15robotic manipulation14策略学习14action chunking14dexterous manipulation13机器人操控13video generation13世界模型11diffusion model11扩散策略10模仿学习10embodied AI10bimanual manipulation10behavior cloning10灵巧操作9video diffusion9

🆕 最新提交 · Daily Snapshot 4

AHA: A Vision-Language-Model for Detecting and Reasoning Over Failures in Robotic Manipulation

AHA 是一个开源 VLM，将机器人操作失败检测重新定义为自由形式推理任务，通过 FailGen 自动生成 49K 失败轨迹数据集进行指令微调，在多项评测中超越 GPT-4o ICL 达 10.3%，并将三类下游操作任务的平均成功率提升…

failure detectionfailure reasoningrobotic manipulationvision-language modelinstruction tuning

arXiv:2410.00371

Contrastive Action-Image Pre-training for Visuomotor Control

CAIP 以大规模人类第一视角视频中的 3D 手部姿态为末端执行器动作的代理，通过 SigLIP 风格对比损失将动作嵌入与文本条件图像嵌入对齐，在 32,041 小时自我中心视频上预训练视觉编码器，于真实灵巧操纵任务上实现 76% 平均…

对比预训练视觉运动控制自我中心视频手部姿态代理视觉编码器

arXiv:2606.17256

ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

ENPIRE 是一个面向编程智能体的框架，通过物理反馈闭环让前沿代码智能体自主迭代机器人策略，在 Push-T、插针、GPU 插拔、切扎带等真实灵巧操作任务上达到 99% pass@8 成功率，无需人工监督。

agentic robotpolicy self-improvementcoding agent机器人灵巧操作reinforcement learning

原文

Fast-dVLA: Accelerating Discrete Diffusion VLA to Real-Time Performance

Fast-dVLA 揭示离散扩散 VLA 隐含的逐块自回归解码趋势，通过分块因果注意力实现 KV 缓存复用，结合扩散强迫（diffusion forcing）支持块间并行去噪，并以非对称蒸馏高效训练，将 dVLA 推理速度提升 2.8–…

discrete diffusion VLAKV cache reuseblock-wise diffusion推理加速机器人操控

arXiv:2603.25661

机器人 · Robotics 229

Fast-dVLA: Accelerating Discrete Diffusion VLA to Real-Time Performance

Fast-dVLA 揭示离散扩散 VLA 隐含的逐块自回归解码趋势，通过分块因果注意力实现 KV 缓存复用，结合扩散强迫（diffusion forcing）支持块间并行去噪，并以非对称蒸馏高效训练，将 dVLA 推理速度提升 2.8–…

discrete diffusion VLAKV cache reuseblock-wise diffusion推理加速机器人操控

arXiv:2603.25661

ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

ENPIRE 是一个面向编程智能体的框架，通过物理反馈闭环让前沿代码智能体自主迭代机器人策略，在 Push-T、插针、GPU 插拔、切扎带等真实灵巧操作任务上达到 99% pass@8 成功率，无需人工监督。

agentic robotpolicy self-improvementcoding agent机器人灵巧操作reinforcement learning

原文

Contrastive Action-Image Pre-training for Visuomotor Control

CAIP 以大规模人类第一视角视频中的 3D 手部姿态为末端执行器动作的代理，通过 SigLIP 风格对比损失将动作嵌入与文本条件图像嵌入对齐，在 32,041 小时自我中心视频上预训练视觉编码器，于真实灵巧操纵任务上实现 76% 平均…

对比预训练视觉运动控制自我中心视频手部姿态代理视觉编码器

arXiv:2606.17256

AHA: A Vision-Language-Model for Detecting and Reasoning Over Failures in Robotic Manipulation

AHA 是一个开源 VLM，将机器人操作失败检测重新定义为自由形式推理任务，通过 FailGen 自动生成 49K 失败轨迹数据集进行指令微调，在多项评测中超越 GPT-4o ICL 达 10.3%，并将三类下游操作任务的平均成功率提升…

failure detectionfailure reasoningrobotic manipulationvision-language modelinstruction tuning

arXiv:2410.00371

Spline Policy: A Structured Representation for Robot Policies

Spline Policy（SP）将机器人策略的动作块输出替换为样条参数，在保持策略主干不变的前提下，赋予策略紧凑轨迹解码、约束处理、不确定性传播，以及基于解析距离场的闭环流场执行等结构化能力，在仿真操控基准和真实机器人任务中验证了其与…

Spline Policy模仿学习movement primitive样条轨迹表示flow field

arXiv:2606.07386

Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

Qwen-RobotWorld 以自然语言为统一动作接口，通过60层双流MMDiT扩散模型将机器人操作、自动驾驶、室内导航和人到机器人迁移统一为语言条件视频生成任务，配合8.6M视频-文本对的EWK数据集和通用+专家渐进课程训练，在EW…

embodied world modellanguage-conditioned video generationDouble-stream MMDiT具身智能human-to-robot transfer

原文

Qwen-RobotNav Technical Report: A Scalable Navigation Model Designed for an Agentic Navigation System

Qwen-RobotNav 基于 Qwen3-VL 构建，通过参数化观测编码接口（token 预算、时间衰减、相机权重）统一处理指令跟随、目标搜索、目标追踪和自动驾驶等多类导航任务，在 15.6M 样本上联合训练后于 VLN-CE、EV…

具身导航vision-and-language navigation多任务导航task-adaptive observation encodingagentic navigation

原文

Qwen-RobotManip Technical Report: Alignment Unlocks Scale for Robotic Manipulation Foundation Models

Qwen-RobotManip 以「先对齐、后扩展」为核心，在表示、运动、行为三维引入统一对齐框架，基于 ~38,100 小时全开源数据构建可泛化 VLA 基础模型，在多项 OOD 基准上大幅超越 π₀.₅ 等 SOTA，并在 Robo…

VLA机器人操作cross-embodiment alignment人机数据合成flow matching

原文

MemoryWAM: Efficient World Action Modeling with Persistent Memory

MemoryWAM 提出混合记忆机制（近期帧 + 事件边界锚帧 + 压缩 gist token），将 WAM 推理复杂度从 O(N) 降至 O(N/d)，在 RMBench 仿真基准及真实双臂机器人任务上超越强 VLA/WAM 基线，同…

world action modelhybrid memorygist tokennon-Markovian机器人操作

arXiv:2606.20562

RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark

RoboMemArena 是一个包含 26 项仿真任务与 5 项真实任务的大规模机器人记忆基准，平均轨迹超 1000 步，68.9% 子任务依赖记忆；配套提出双系统 VLA PrediMem（high-level VLM planner…

robotic memory benchmarklong-horizon manipulationVLAPrediMempredictive coding

arXiv:2605.10921

OSCAR: Omni-Embodiment Action-Conditioned World Model for Robotics

OSCAR 是一个跨机器人形态的动作条件视频世界模型，以 2D 运动骨骼渲染为统一条件表示，在大规模多源数据集（含四种机器人形态与人体手部数据，共 180K 条清洗片段）上微调 Cosmos-Predict2.5-2B，在动作跟随、外观…

world modelaction-conditioned video generationcross-embodimentskeleton renderingpolicy evaluation

arXiv:2606.04463

MemER: Scaling Up Memory for Robot Control via Experience Retrieval

MemER 是一个分层策略框架，通过在线关键帧筛选（keyframe selection）为机器人策略赋予长时程视觉记忆能力。High-level policy 基于 Qwen2.5-VL-7B-Instruct 微调，负责从历史观测中…

长时程机器人操作experience retrievalkeyframe selectionhierarchical policyVLA

arXiv:2510.20328

VLSA: Vision-Language-Action Models with Plug-and-Play Safety Constraint Layer

在已有 VLA 模型的动作输出后面，外接一个基于 VLM 感知和 CBF-QP 控制的安全约束层（AEGIS），让机器人在尽量保留原始任务动作的同时，实时修正可能碰撞的动作，障碍物回避率提升 59.16%，任务成功率提升 17.25%。

VLA safetycontrol barrier functionCBF-QP机器人安全VLM perception

arXiv:2512.11891

UF-OPS: Update-Free On-Policy Steering via Verifiers

UF-OPS 利用策略自身的成功/失败 rollout 训练轻量级 verifier，在执行时将冻结的 base policy 引导向更可能成功的动作，无需修改策略参数，在 5 个真实 Aloha 双臂任务上平均提升成功率 49%。

test-time policy steeringverifierbehavior cloningdiffusion policymanipulation

arXiv:2603.10282

Training-Time Action Conditioning for Efficient Real-Time Chunking

把 RTC 里原本推理时做的 action-prefix inpainting，变成在训练阶段的学习：训练时随机模拟推理延迟 d，将 ground-truth prefix 动作作为条件（τ=1.0，无噪声），只对 postfix 做去…

实时动作块执行action chunkingreal-time chunkingVLAflow matching

arXiv:2512.05964

Steering Your Diffusion Policy with Latent Space Reinforcement Learning

DSRL 不修改扩散策略权重，而是在其潜在噪声空间（latent noise space）中运行强化学习，通过学习最优初始噪声来引导预训练策略，实现黑盒、高样本效率的真实机器人策略适配。

diffusion policyreinforcement learninglatent noise space机器人操控policy adaptation

arXiv:2506.15799

SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

不再为每个工具、每个任务单独设计 reward 和训练，而是训练一个通用的 goal-conditioned object-centric RL policy，让它在程序生成的 primitive objects 上学会抓取、手内重定向…

灵巧操作dexterous manipulationgoal-conditioned policysim-to-real transfer工具操作

arXiv:2602.16863

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

提出统一 token 空间来连接人体动作与机器人动作，通过在网络规模（42M参数）、数据量（700小时 mocap）和计算量（21k GPU 小时）三轴同步 scaling，构建能自然稳健执行全身运动的 humanoid 基础模型，支持…

humanoid controlmotion trackingunified token spacecross-embodimentteleoperation

arXiv:2511.07820

Real-Time Execution of Action Chunking Flow Policies

把实时执行做成 prefix freezing + suffix inpainting：一边执行旧 chunk，一边生成与其连续的新 chunk，解决 action chunking 的卡顿和边界跳变。

action chunkingflow matchingVLA推断时算法inpainting

arXiv:2506.07339

RL Token: Bootstrapping Online RL with Vision-Language-Action Models

把 VLA 中与任务相关的知识压缩成可供小型 actor-critic 快速利用的状态表征（RL token），从而不用整体重训 VLA 就能用少量真机交互做高效在线 RL，在螺钉安装等精密任务上实现最高 3× 速度提升与显著成功率提升。

VLAonline reinforcement learningRL tokenactor-criticrobot manipulation

arXiv:2604.23073

RISE: Self-Improving Robot Policy with Compositional World Model

RISE 将世界模型重构为 RL 训练环境：动态模型负责生成未来多视角观测，价值模型负责评估未来状态，两者组合为 policy 提供 advantage 信号，实现无需物理交互的机器人自我提升，在三项真实双臂操作任务上较最优基线分别提升…

world modelreinforcement learningdynamics modelvalue modeladvantage signal

arXiv:2602.11075

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

HIL-SERL 将人类示范与在线实时纠错融入高效 off-policy RL（RLPD），配合预训练视觉骨干，在真实机器人上仅需 1–2.5 小时即可学会 13 项精密或动态操作任务，平均成功率达 100%，超越模仿学习基线 2 倍。

human-in-the-loop reinforcement learning真实世界机器人RLRLPD灵巧操作演示引导

arXiv:2410.21845

OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control

先用 DAgger-based flow matching 学到可扩展的统一运动先验，再用 actuation-aware residual RL 把它修到真机可执行，从而打破高动态 humanoid tracking 里的 fidel…

humanoid whole-body controlflow matchingresidual RLactuation-awaremotion tracking

arXiv:2602.23843

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

将 multi-scale memory 引入 VLA：视觉短期记忆处理局部操作细节，压缩后的语言长期记忆跟踪任务进展与高层上下文，从而提升长时程任务表现。

VLAmulti-scale memorylong-horizon manipulationvideo encoderlanguage memory

arXiv:2603.03596

Diffusion Guidance Is a Controllable Policy Improvement Operator

把 classifier-free guidance 的思想扩展到强化学习/策略优化中，通过条件与无条件信号的组合增强策略引导能力，无需显式学习 value function 即可在 offline RL 和 goal-conditio…

classifier-free guidancereinforcement learningpolicy improvementoffline RLdiffusion policy

arXiv:2505.23458

Breaking Lock-In: Preserving Steerability under Low-Data VLA Post-Training

低数据 VLA post-training 后策略会「锁死」于训练分布、丧失对新指令的响应能力。DeLock 用 L2 正则化保护视觉编码器的预训练 grounding，并在推理时用 contrastive prompt guidanc…

VLA post-traininglock-in failurevisual groundingcontrastive prompt guidanceinstruction following

arXiv:2604.23121

EgoEngine: From Egocentric Human Videos to High-Fidelity Dexterous Robot Demonstrations

EgoEngine 将第一视角人类操作视频转化为高保真机器人示范，通过数字孪生构建、MCTS-style 自适应动作优化与遮挡感知视觉融合，同时弥合视觉差距与动作差距，实现无需真实机器人遥操作数据的零样本灵巧策略学习。

以自我为中心视频imitation learning灵巧操作digital twinvisual gap

arXiv:2606.12604

我们应该从基于采样的规划器中学习接触丰富操作策略吗？

本文揭示RRT等基于采样的规划器生成的高熵演示数据会严重降低模仿学习效果，提出以低熵贪婪搜索/PRM规划器结合扩散模型目标条件行为克隆的方案，在双臂操作和灵巧手重定向任务上实现了零样本sim-to-real迁移。

contact-rich manipulationsampling-based plannerbehavior cloningdemonstration entropydiffusion policy

arXiv:2412.09743

基于关键点 EKF 的无纹理物体感知-控制耦合视觉伺服

本文提出将基于关键点EKF的位姿估计与概率控制律紧密耦合的闭环视觉伺服框架，专门解决工业无纹理物体在遮挡和光照变化等不利条件下的鲁棒控制问题，在真实7-DOF机械臂上验证了显著优于传统IBVS/PBVS基准方法的性能。

visual servoing无纹理物体扩展卡尔曼滤波6D位姿估计keypoint detection

arXiv:2602.06834

利用不确定性估计加速残差强化学习

本文提出利用不确定性估计引导残差策略聚焦于基础策略低置信区域进行探索，并通过非对称Actor-Critic架构支持GMM和Diffusion Policy等随机基础策略的off-policy残差强化学习，在稀疏奖励机器人操纵任务上超越现…

残差强化学习residual policy不确定性估计uncertainty-guided exploration随机基础策略

arXiv:2506.17564

几何基础模型对视觉-语言-动作模型的影响分析

本文系统分析了将几何基础模型（VGGT）注入视觉-语言-动作模型（GR00T-N1.5）的三种融合策略（Early Fusion、Late Fusion、Spatial Forcing），通过线性探针量化了VLA的"几何差距&…

geometric foundation modelVision-Language-ActionVLA机器人操作几何感知融合

arXiv:2605.24642

不确定性免费获得：基于扩散模型的人机协作策略

本文提出利用扩散策略去噪过程中固有的不确定性信号，无需额外训练或人工标注，即可识别机器人何时需要请求人工干预，构建高效半自主Human-in-the-Loop系统，并将干预数据用于策略微调以持续提升自主性能。

Human-in-the-Loopdiffusion policy不确定性估计机器人操控去噪不确定性

arXiv:2503.01876

π₀：面向通用机器人控制的视觉-语言-动作流模型

π₀ 将预训练视觉-语言模型与流匹配动作专家相结合，在 7 种机器人平台、68 个任务上联合训练，实现叠衣物、清桌等复杂长时序灵巧操作任务的通用机器人控制。

vision-language-action modelflow matchingrobot foundation modeldexterous manipulationcross-embodiment training

arXiv:2410.24164

π₀.₅: a Vision-Language-Action Model with Open-World Generalization

π₀.₅ 通过在多机器人、网页数据、语义子任务标注等异构数据上进行联合训练，首次实现了端到端机器人学习系统在全新家庭中完成清洁厨房、整理卧室等长时域灵巧操作任务。

vision-language-action modelopen-world generalizationmobile manipulationco-trainingflow matching

arXiv:2504.16054

π₀.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

π₀.7 通过多样化上下文条件训练（子任务指令、子目标图像、episode 元数据），使 ~50亿参数的 VLA 模型在灵巧操作、指令跟随、跨形态迁移和组合泛化上全面超越 π₀.5/π₀.6，部分任务匹配 RL 专家模型和人类遥操作基线。

robotic foundation modelVLAflow matchingcross-embodiment组合泛化

arXiv:2604.15483

π*₀.₆：能从经验中学习的视觉-语言-动作模型

本文提出 Recap 框架，通过优势条件化策略让大型视觉-语言-动作模型 π*₀.₆ 从真实部署经验（含失败轨迹与专家干预）中迭代自我提升，在洗衣折叠、咖啡制作、盒子组装等家庭与工业任务上实现吞吐量翻倍、失败率减半的显著性能提升。

VLA视觉-语言-动作模型机器人强化学习advantage-conditioned policyoffline RL

arXiv:2511.14759

mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs

mimic-video 将预训练视频模型（Cosmos-Predict2）与 flow-matching 动作解码器配对，充当逆动力学模型，在仿真和真实机器人操作任务上实现 10× 样本效率提升和 2× 收敛加速，超越主流 VLA 方法。

Video-Action Model机器人操作flow matchinginverse dynamics model样本效率

arXiv:2512.15692

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

X-VLA 提出以可学习软提示（soft prompt）为每个数据源分配形态标识，解决跨形态异构联合训练难题，0.9B 参数在 5 个仿真基准达 SOTA，仅 9M PEFT 参数可媲美 3B 模型 π₀。

VLAcross-embodimentsoft promptflow matching机器人操作

arXiv:2510.10274

WorldVLA: Towards Autoregressive Action World Model

WorldVLA 将视觉-语言-动作模型与世界模型统一在单一自回归框架中，并引入选择性 attention mask 策略解决 action chunk 生成中的误差累积，在 LIBERO 基准上实现 81.8% 平均成功率，优于 Op…

VLAworld modelautoregressiveaction chunkingattention mask

arXiv:2506.21539

WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models

WorldArena 提出首个统一评测框架，从视频感知质量（16 项指标）与具身任务功能性（数据引擎、策略评估器、动作规划器）两个维度系统评估 14 个具身世界模型，并通过 EWMScore 揭示”高视觉质量不等于强任务能力”的核心鸿沟。

embodied world modelsbenchmarkvideo generationpolicy evaluationdata engine

arXiv:2602.08971

World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy

通过闭环迭代共同优化视频世界模型（SANS数据集 + 状态感知奖励头）与VLA策略（GRPO强化学习），显著降低真实机器人交互代价，操作成功率大幅提升。

VLA policyvideo world modelreinforcement learningrobot manipulationclosed-loop learning

arXiv:2602.06508

World-Env: Leveraging World Model as a Virtual Environment for VLA Post-Training

World-Env 将扩散式世界模型作为虚拟环境，通过 Leave-One-Out PPO 强化学习后训练，配合 VLM 奖励模块，仅需每任务 5 条示例即可在 LIBERO 基准上将 VLA 模型平均成功率从 74.85% 提升至 7…

VLA post-trainingworld modelreinforcement learning机器人操作diffusion simulator

arXiv:2509.24948

World Guidance: World Modeling in Condition Space for Action Generation

WoG 将未来观测压缩为紧凑条件向量注入 VLA 动作推理流水线，通过两阶段训练在仿真与真实机器人任务上超越现有 world model 基线，并可从无标注人类操作视频中高效学习。

Vision-Language-Actionworld modelcondition spaceQ-Former机器人操控

arXiv:2602.22010

World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry

WAV 将动作条件预测验证分解为状态合理性与动作可达性两个独立因子，利用前向-逆向不对称性（稀疏逆动力学模型 + 子目标生成器）构建循环一致性验证机制，在九个机器人任务上实现 2× 采样效率提升与超过 22% 的下游策略性能改善。

world modelinverse dynamicsaction reachabilityself-improvingsample efficiency

arXiv:2604.01985

World Action Models are Zero-shot Policies

DreamZero 是一个 14B 参数的 World Action Model，基于预训练视频扩散骨干联合预测视频帧与机器人动作，在未见任务和环境中实现 2× 以上的零样本泛化提升，并以 38× 推理加速达到 7Hz 实时闭环控制。

World Action Model机器人操作zero-shot generalizationvideo predictionflow matching

arXiv:2602.15922

What Matters in Building Vision-Language-Action Models for Generalist Robots

通过 600 余组对照实验系统研究构建通用机器人 VLA 模型的三大关键要素——VLM backbone 选择、策略架构制定与跨机体数据整合——发现 KosMos/PaliGemma + policy-head + continuous…

VLAVision-Language-Action机器人操作VLM backbonepolicy architecture

arXiv:2412.14058

WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

WMPO 利用像素级视频扩散世界模型代替真实机器人交互，实现 VLA 的 on-policy GRPO 强化学习，在仿真和真实机器人实验中显著超越 DPO 等基线，并展现出自我纠错与持续学习能力。

VLAworld modelGRPOrobotic manipulationon-policy RL

arXiv:2511.09515

VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

VoxPoser 利用大语言模型的代码生成能力，通过调用视觉语言模型在三维体素空间中组合语言条件的 affordance/avoidance value map，驱动运动规划器零样本合成六自由度闭环机器人轨迹，在真实机器人上取得 88%…

robotic manipulationlarge language models3D value mapszero-shot trajectory synthesisvision-language models

arXiv:2307.05973

Vision-Language-Action (VLA) Models: Concepts, Progress, Applications and Challenges

系统综述80余个VLA模型，覆盖架构创新、训练策略、推理加速及农业/医疗/人形机器人等应用领域，梳理从2022至2025年四个演化阶段，并展望九大未来研究方向。

VLAvision-language-action具身智能机器人操作多模态融合

arXiv:2505.04769

Vision-Language Foundation Models as Effective Robot Imitators

RoboFlamingo 在开源 OpenFlamingo 模型上解耦视觉-语言感知与决策，添加轻量 policy head 并仅用语言标注的机器人演示数据进行模仿学习微调，在 CALVIN 长视野操作基准上以 Avg Len 4.09…

RoboFlamingoVLM for Roboticsimitation learninglanguage-conditioned manipulationCALVIN benchmark

arXiv:2311.01378

Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

VPP 利用视频扩散模型（Stable Video Diffusion）的预测性 latent 表征训练通用机器人策略，在 CALVIN 跨环境泛化基准上比先前 SOTA 提升 18.6%，在真实灵巧手操作任务中成功率提升 31.6%。

video prediction policyvideo diffusion modelpredictive visual representationdiffusion policyrobot manipulation

arXiv:2412.14803

Video Language Planning

VLP 将 vision-language model（VLM）与 text-to-video model 通过树搜索组合，在视频与语言联合空间中规划长时序机器人操作任务，大幅超越 PaLM-E、RT-2 等强基线。

video language planninglong-horizon planningtree searchvision-language modeltext-to-video model

arXiv:2310.10625

Video Generators are Robot Policies

Video Policy 将视频生成作为机器人策略学习的代理任务，通过联合扩散视频帧与动作序列，利用无动作标注视频数据实现对未见物体、背景和任务的强泛化能力，在 RoboCasa 与 Libero10 上均超越传统 behavior c…

视频生成机器人策略visuomotor policyvideo diffusionimitation learning

arXiv:2508.00795

VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model

VLAW 通过迭代协同优化 VLA 策略与世界模型，利用少量真实回滚数据接地预训练视频生成模型，再由接地模型批量生成合成训练轨迹，在 DROID 平台五类接触密集型任务中实现平均 39.2% 的成功率绝对提升。

VLAworld model机器人操作迭代协同优化合成数据

arXiv:2602.12063

VLASH：基于未来状态感知异步推理的实时 VLA

VLASH 通过将推理与执行并行化、并利用运动学滚动预测未来执行时刻的机器人状态来消除时序错位，配合时序偏移增强微调和动作量化，使 VLA 模型在不损失精度的前提下实现最高 17.4× 反应延迟降低和 2.03× 执行速度提升。

Vision-Language-ActionVLA实时控制异步推理未来状态预测时序错位

arXiv:2512.01031

VLANeXt: Recipes for Building Strong VLA Models

VLANeXt 系统梳理了构建强大 VLA 模型的 12 条关键设计准则，以 2.5B 参数规模在 LIBERO-plus 基准上超越 7B 级别的 OpenVLA-OFT 约 14%，并在真实机器人操作任务上取得领先结果。

VLAvision-language-action策略学习flow matchingaction chunking

arXiv:2602.18532

VLA-Reasoner: Empowering Vision-Language-Action Models with Reasoning via Online Monte Carlo Tree Search

VLA-Reasoner 是一个即插即用框架，通过在线蒙特卡洛树搜索与学习型世界模型，赋予 VLA 模型测试时长视野规划能力，在真实机器人任务上将 OpenVLA 成功率从 22% 提升至 41%，将 π0-FAST 从 64% 提升至…

Vision-Language-ActionMonte Carlo Tree Searchtest-time computeworld modelKDE sampling

arXiv:2509.22643

VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning

VLA-RL 通过轨迹级 PPO 与机器人过程奖励模型在线微调预训练 VLA，在 LIBERO 40 任务上将 OpenVLA-7B 提升 4.5%，并首次展示机器人操作中的推理阶段缩放规律。

VLAreinforcement learningrobotic manipulationprocess reward modelPPO

arXiv:2505.18719

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

VLA-JEPA 通过隐空间世界模型预训练消除像素级偏置与信息泄漏，让视觉-语言-动作策略对相机运动和背景变化保持鲁棒，在 LIBERO 上取得 97.2% 平均成功率，LIBERO-Plus 鲁棒性评估 79.5%，超越 OpenVL…

VLAJEPAlatent world model机器人操作预训练

arXiv:2602.10098

VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

VLA-Adapter 提出带有 Bridge Attention 的轻量化 Policy 模块，通过系统分析 bridging paradigm 并设计可学习条件注入机制，仅用 0.5B 参数骨干即在 LIBERO 和 CALVIN …

VLAVision-Language-ActionBridge Attention机器人操作轻量级策略

arXiv:2509.09372

VLA-0: Building State-of-the-Art VLAs with Zero Modification

VLA-0 将机器人连续动作归一化为整数文本序列，完全不修改 VLM 架构，在 LIBERO 基准上以平均成功率 94.7% 超越所有同等训练数据量的 VLA 方法，并在真实机器人上超越 SmolVLA 12.5 个百分点。

VLAVision-Language-Action机器人操作text action representationaction ensembling

arXiv:2510.13054

Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation

GR-1 将大规模视频生成预训练（Ego4D，80万段视频）与机器人操作微调相结合，在 CALVIN 基准上将成功率从 88.9% 提升至 94.9%，零样本未见场景泛化从 53.3% 跃升至 85.4%。

robot manipulationvideo predictiongenerative pre-trainingGPT transformerCALVIN benchmark

arXiv:2312.13139

Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

UMI 用手持鱼眼夹爪在野外采集人类演示，通过视觉惯性 SLAM、推理时延迟匹配和相对轨迹动作表示，训练出可在多款机器人上零样本部署的硬件无关操作策略，成功覆盖动态投掷、双臂折衣、长时序洗碗等复杂任务。

机器人操作imitation learningin-the-wild demonstrationdiffusion policyhand-held gripper

arXiv:2402.10329

Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

将 action diffusion 与 video diffusion 融合在同一 Transformer 架构中，通过对每个模态独立采样扩散时间步实现策略、前向动力学、逆向动力学与视频预测四种推断，在真实机器人操作中显著超越 Dif…

world modelvideo diffusionaction diffusion机器人预训练策略学习

arXiv:2504.02792

Unified Video Action Model

UVA 构建联合视频-动作潜在表征，通过解耦轻量扩散头同时支持策略学习、视频生成及正/逆向动力学建模，在 PushT Multitask 上超越最优基线 20%，推理时无需视频生成仅需 95ms。

robot policy learningvideo generationaction predictionmasked autoencoderdiffusion policy

arXiv:2503.00200

Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training

GenieReasoner 提出 ERIQ 具身推理基准（6,052 条问答）与 FACT 流匹配动作分词器，在统一序列空间中联合优化 VLM 推理与离散动作预测，在 ERIQ 上达到 82.72% 准确率（基线 58.64%），轨迹重…

VLAembodied reasoningaction tokenizerflow matchingERIQ

arXiv:2512.24125

UniVLA: Unified Vision-Language-Action Model

UniVLA 将视觉、语言与动作信号统一为离散 token 序列，通过在 622K 视频上进行无动作监督的世界模型后训练捕获环境因果动态，再对下游任务微调，在 LIBERO 基准上以 95.5% 平均成功率超越 π₀-FAST 的 85…

VLAvision-language-action机器人操作世界模型自回归建模

arXiv:2506.19850

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

UniVLA 通过从视频中无监督提取任务中心潜在动作，使机器人策略可利用无动作标注的多体态视频预训练，以不足 OpenVLA 1/20 的计算量在 LIBERO 操作基准上达到 95.2% 成功率，并在 VLN-CE 导航任务上取得 4…

VLAlatent actioncross-embodimentinverse dynamics modelVQ-VAE

arXiv:2505.06111

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent

UP-VLA 将多模态理解（MMU）与未来视觉预测（PRE）统一训练，弥补 VLM 在低层空间感知上的不足，在 Calvin ABC-D 基准上以 Avg. Length 4.08 超越上一最优 GR-1 达 33%，真实 Franka…

VLAvision-language-action具身智能future prediction机器人操作

arXiv:2501.18867

TwinVLA: Data-Efficient Bimanual Manipulation with Twin Single-Arm Vision-Language-Action Models

TwinVLA 将两个预训练单臂 VLA 模型通过 Joint Attention 组合为双臂策略，仅需 25 H100 GPU-days 和少量双臂演示，即可在真实与模拟双臂任务上达到或超越 RDT-1B 的性能。

bimanual manipulationVLA双臂操作joint attentiondata efficiency

arXiv:2511.05275

TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

TraceVLA 通过将 Co-Tracker 提取的历史点轨迹叠加到当前观测图像上（visual trace prompting），在不改变模型结构的前提下增强 VLA 的空间时序感知，在 SimplerEnv 提升约 10%，真实机…

VLAvisual trace prompting机器人操作Co-TrackerOpenVLA

arXiv:2412.10345

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

TinyVLA 采用轻量级 VLM（70M–1.4B 参数）结合 Diffusion Policy 解码器，无需大规模机器人预训练，推理速度比 OpenVLA 快 20 倍，真实机械臂平均成功率超越 OpenVLA 达 25.7 个百分点。

VLAvision-language-action机器人操作diffusion policydata efficiency

arXiv:2409.12514

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

ThinkAct 提出双系统框架，通过强化视觉潜在规划将 MLLM 高层推理与 DiT-based 动作模型低层执行联结，在 SimplerEnv、LIBERO 和具身推理基准上实现少样本自适应、长时域规划与自我纠错。

VLAvision-language-actionembodied reasoningreinforcement learningvisual plan latent

arXiv:2507.16815

The Great March 100: 100 Detail-oriented Tasks for Evaluating Embodied AI Agents

GM-100 提出 100 个系统性设计的机器人操作任务，覆盖多样化交互与长尾行为，通过两个真实平台和超过 13K 条轨迹，为 VLA 等具身 AI 模型提供全面且具区分度的评估基准。

GM-100embodied AI benchmark机器人操作评估VLA evaluationlong-tail behaviors

arXiv:2601.11421

Tactile-VLA: Unlocking Vision-Language-Action Model's Physical Knowledge for Tactile Generalization

Tactile-VLA 将触觉感知深度融合进 VLA 模型，通过混合位置-力控制器和 Chain-of-Thought 推理模块，发现并激活 VLM 中隐式编码的物理交互先验，以少量示范实现接触密集型操作任务中的零样本力控泛化。

tactile sensingVLAforce control触觉泛化contact-rich manipulation

arXiv:2507.09160

TGRPO: Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization

TGRPO 提出轨迹级 Group Relative Policy Optimization，通过 LLM 生成多阶段密集奖励与步骤/轨迹双层优势估计融合，在 LIBERO 基准上将 VLA 模型平均成功率提升至 80.7%，超越 SF…

VLAVision-Language-Action强化学习微调GRPOtrajectory grouping

arXiv:2506.08440

SymSkill：符号与技能协同发明，用于数据高效的反应式长视野操作

SymSkill 从少量无标签演示中联合学习符号谓词、算子和 SE(3) LPV-DS 运动技能，将模仿学习的反应性与任务规划的可组合性相结合，仅需 1–10 条演示即可完成多步骤操作并实现实时故障恢复。

long-horizon manipulationimitation learning符号规划task and motion planningLPV-DS

arXiv:2510.01661

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing

StarVLA 是面向具身智能研究的开源模块化 VLA 框架，通过 backbone–action head 双向解耦架构和统一 I/O 接口，支持 VLM/世界模型骨干与四种动作解码范式的自由组合，并统一接入五大主流仿真评测基准，以 …

VLAVision-Language-Action模块化框架embodied AI机器人操作

arXiv:2604.05014

StarVLA-α: Reducing Complexity in Vision-Language-Action Systems

StarVLA-α 通过极简架构与统一多 benchmark 训练，证明强大 VLM 主干加最少设计已足以在 LIBERO、SimplerEnv、RoboTwin、RoboCasa 上高度竞争，并在真实 RoboChallenge 榜单…

VLAVision-Language-Action机器人操作action modeling简化基线

arXiv:2604.11757

SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model

SpatialVLA 通过 Ego3D 位置编码将深度感知三维空间信息融入视觉 token，并用自适应动作网格将连续 7D 动作离散化为跨机器人可迁移的空间 token，在 1.1M 真实机器人数据预训练后于 SimplerEnv 和 …

VLA机器人操作Ego3D Position EncodingAdaptive Action Grids空间理解

arXiv:2501.15830

Solving New Tasks by Adapting Internet Video Knowledge

通过将互联网预训练视频模型与少量机器人领域数据相结合，提出 Inverse Probabilistic Adaptation 方法，在 MetaWorld 等机器人任务中实现对新任务的泛化，即使只有次优演示数据也表现稳健。

video model adaptation机器人操作inverse probabilistic adaptationpolicy supervisionvisual planning

arXiv:2504.15369

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics

SmolVLA 是一个仅 0.45B 参数的紧凑型 VLA 模型，通过 layer skipping、flow matching action expert 和异步推理三项设计，在单卡 GPU 上可训练、CPU 上可部署，LIBERO …

VLAvision-language-action机器人操作异步推理flow matching

arXiv:2506.01844

SimpleVLA-RL：通过强化学习扩展 VLA 训练

SimpleVLA-RL 将 LLM 强化学习框架 veRL 扩展至 VLA 模型，通过二值结果奖励与探索增强策略，在 LIBERO 和 RoboTwin 基准上显著超越 SFT 基线，并在无真实机器人数据条件下实现 sim-to-re…

Vision-Language-Action强化学习机器人操控sim-to-real迁移在线策略优化

arXiv:2509.09674

SimVLA: A Simple VLA Baseline for Robotic Manipulation

SimVLA 是一个极简 VLA 基线：严格解耦感知与控制，规范化关键训练动态（data shuffling、action normalization、学习率），仅 0.5B 参数在 LIBERO 等标准基准上超越数十亿参数模型，并在真…

VLAvision-language-actionrobotic manipulationflow matchingaction chunking

arXiv:2602.18224

SceneComplete: 机器人操作中的开放世界3D场景补全

SceneComplete 通过串联VLM、分割、图像修复、Image-to-3D、密集对应及6D位姿估计六个预训练模块，从单张RGB-D图像生成杂乱场景中所有物体的完整三维网格，显著提升机器人抓取与放置的成功率。

3D scene completionrobot manipulationopen-world reconstructionImage-to-3Dimage inpainting

arXiv:2410.23643

Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment

CoVer 通过测试时分层验证（语言层 rephrase 选择 + 动作层对比验证）提升 VLA 指令对齐能力，在 SIMPLER 基准上实现 22% 域内、13% 域外提升，真实机器人实验提升 45%，效率远优于单纯扩大策略预训练规模。

VLA机器人操作test-time scalingcontrastive verifier指令对齐

arXiv:2602.12281

Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

HPT 提出通过异构预训练 Transformer 将多种机器人形态的本体感知与视觉输入统一对齐为 token 序列，在 52 个数据集上预训练后，未见任务上性能提升超过 20%。

heterogeneous pre-trainingproprioception跨形态迁移robot policy learningmulti-embodiment

arXiv:2409.20537

Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses

首篇系统梳理具身智能全链路安全风险的综述，涵盖558篇论文，建立感知→认知→规划→行动→智能体五层分类体系，揭示对抗攻击、越狱攻击、后门攻击和硬件级攻击的全链路威胁与防御，并指出多模态感知融合脆弱性、越狱攻击下规划不稳定性、开放场景人机…

embodied AI safetyadversarial attacksjailbreak attacksbackdoor attacks具身智能

arXiv:2605.02900

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

SRPO 利用模型自身 batch 内成功轨迹作为自参照基准，结合 V-JEPA 2 潜在世界表征计算细粒度进度奖励，仅需 200 步 RL 训练即可将 VLA 成功率从 48.9% 提升至 99.2%，无需人工奖励设计或额外专家演示。

VLAreinforcement learning机器人操作world model进度奖励

arXiv:2511.15605

SAPIEN: A SimulAted Part-based Interactive ENvironment

SAPIEN 是一个真实物理感知的仿真平台，提供 46 类 14,068 个关节体模型（PartNet-Mobility 数据集），集成 PhysX 物理仿真、多模态渲染和 ROS 接口，支持机器人部件感知与交互任务的研究。

机器人仿真关节体PartNet-Mobility部件感知articulated objects

arXiv:2003.08515

RynnVLA-002: A Unified Vision-Language-Action and World Model

将 VLA 模型与 World Model 统一于同一 Chameleon 式自回归主干，在共享 token 空间内互相增强，无需大规模预训练即在 LIBERO 仿真基准达到 97.4% 成功率，真实机器人整体成功率提升 50%。

VLAworld model机器人操作action chunkingautoregressive

arXiv:2511.17502

Robot Learning with Sensorimotor Pre-training

RPT 是一种基于 Transformer 的感知运动预训练框架，通过掩码预测在 20,000 条真实机器人轨迹上自监督学习，再以 behavior cloning fine-tune 到下游操作任务，在所有任务上持续优于从零训练并展现…

sensorimotor pre-trainingrobot learningmasked predictionTransformer机器人操作

arXiv:2306.10007

RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

RoboTwin 2.0 通过 MLLM 驱动的闭环专家代码生成、五维域随机化和机器人本体感知抓取适配，构建大规模双臂操作合成数据集，在 50 任务基准上预生成超过 10 万条专家轨迹，并以 10 条真实样本实现 367% 相对增益的 …

双臂机器人操作合成数据生成域随机化sim-to-realbimanual manipulation

arXiv:2506.18088

RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation

RoboMIND 是覆盖单臂、双臂、人形、桌面四类机器人的大规模标准化操作数据集，含 107k 条遥操作示范轨迹、479 种任务、5k 条失败案例及 Isaac Sim 数字孪生，为通用机器人操作策略研究提供基准。

机器人操作多机体模仿学习VLAbenchmark

arXiv:2412.13877

RoboMIND 2.0: A Multimodal, Bimanual Mobile Manipulation Dataset for Generalizable Embodied Intelligence

RoboMIND 2.0 收录超过 310K 条双臂操作轨迹（六种机器人本体、759 项任务），首次同时支持双臂协调、移动操作、灵巧手与触觉传感；配套 MIND-2 层级化双系统（VLM 规划 + VLA + IQL 后训练）在长时域协…

机器人操作数据集bimanual manipulationVLAimitation learningmobile manipulation

arXiv:2512.24653

RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies

RoboChallenge 构建了首个大规模真实机器人在线评测平台，通过 10 台跨 4 种平台的机器人和 30 项桌面操作任务（Table30），系统评测 VLA 模型的真实能力，揭示时序推理与精细操作是当前 VLA 的核心瓶颈。

real-robot evaluationVLA benchmarkembodied AITable30manipulation

arXiv:2510.17950

RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots

RoboCasa 是面向通用机器人的大规模厨房仿真框架，提供 120 个场景、2,509 个 3D 资产与 100 项任务，结合 AI 生成工具和 MimicGen 合成数据，实现可扩展的模仿学习并验证了 sim-to-real 迁移效果。

机器人仿真household robotkitchen tasksimitation learningMimicGen

arXiv:2406.02523

RoboCOIN: An Open-Sourced Bimanual Robotic Data Collection for Integrated Manipulation

RoboCOIN 是首个覆盖 15 种机器人平台、含 18 万余条示教轨迹的大规模双臂操作数据集，配套三级分层能力金字塔标注体系与 RTML 质量过滤框架，在仿真与真实双臂机器人上均显著提升策略学习性能。

bimanual manipulationrobotic datasetteleoperationcapability pyramidRTML

arXiv:2511.17441

RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies

RoboArena 借鉴 Chatbot Arena 思路，通过分布式双盲成对比较在真实机器人上评测通用策略，任务感知 Bradley-Terry 排名比传统集中式评测更准确，仅需约 100 次成对比较即可收敛。

机器人评测generalist robot policypairwise evaluationBradley-Terry modeldistributed benchmark

arXiv:2506.18123

ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

ReconVLA 通过隐式重建”凝视区域”驱动 VLA 模型将视觉注意力精准对准目标操作物体，在 CALVIN ABC→D 基准上以平均序列长度 3.95 超越所有现有方法，并在真实机器人精细操作和未见目标泛化中展现出显著优势。

VLA机器人操作implicit grounding视觉注意力diffusion transformer

arXiv:2508.10333

Reactive Diffusion Policy: Slow-Fast Visual-Tactile Policy Learning for Contact-Rich Manipulation

提出 TactAR（低成本 AR 触觉遥操作系统）与 Reactive Diffusion Policy（RDP，slow-fast 双频视觉-触觉策略），慢策略以低频 diffusion 建模复杂轨迹，快策略以高频（<1 ms）…

reactive diffusion policy触觉感知slow-fast hierarchydiffusion policyimitation learning

arXiv:2503.02881

ReWiND：语言引导奖励无需新示范即可训练机器人策略

ReWiND 提出一种语言引导的进度预测奖励函数，结合视频回绕数据增强和离线/在线强化学习，使机器人无需为新任务收集额外示范即可通过语言指令泛化到未见过的操作任务。

language-conditioned reward learningrobot policy learningreinforcement learning机器人操作少样本示范

arXiv:2505.10911

ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

ReKep 将机器人操作任务表示为作用于三维语义关键点的关系约束函数，由 GPT-4o 自动生成，经分层优化求解机器人动作，无需任务专属训练数据即可完成多阶段单臂与双臂操作，总体成功率 68.6%。

relational keypoint constraintsrobotic manipulationspatio-temporal reasoningoptimization-based controlGPT-4o

arXiv:2409.01652

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

RT-2 将机器人动作表示为文本 token，与互联网规模视觉-语言数据联合微调大型 VLM，使单一端到端模型同时具备操作能力与突现式语义推理，在 6000+ 次真实评估中实现约 2× 泛化提升和超 3× 突现能力提升。

VLAvision-language-action机器人操作co-fine-tuningemergent capabilities

arXiv:2307.15818

RT-1: Robotics Transformer for Real-World Control at Scale

RT-1 是谷歌提出的大规模机器人 Transformer 模型，以 13 台机器人 17 个月收集的 ~130k 真实演示训练，覆盖 700+ 任务指令，在已见任务上达到 97% 成功率，并对未见任务实现 76% 的零样本泛化，大幅超…

机器人学习transformer模仿学习多任务机器人zero-shot 泛化

arXiv:2212.06817

RLDX-1 Technical Report

RLDX-1 是一款通用灵巧操作 VLA，通过 Multi-Stream Action Transformer（MSAT）统一整合运动感知、长时记忆与物理感知三大功能，结合合成数据管线、三阶段训练与推理优化，在仿真与真实人形机器人任务上…

VLAdexterous manipulationhumanoid robotmotion awarenesslong-term memory

arXiv:2605.03269

RLBench: The Robot Learning Benchmark & Learning Environment

RLBench 提出了包含 100 个手工设计任务的大规模机器人操作基准与学习环境，内置运动规划器可无限生成专家演示，支持强化学习、模仿学习、多任务学习和首个大规模机器人小样本挑战。

RLBenchrobot manipulation benchmarkimitation learningreinforcement learningfew-shot learning

arXiv:1909.12271

RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot

RH20T 是首个超过 11 万条序列的大规模多模态机器人操控数据集，同步采集视觉、力觉、音频和动作信息，覆盖 147 项任务，旨在支持单样本模仿学习与 contact-rich 技能泛化。

机器人操控数据集one-shot imitation learningmulti-modal perceptioncontact-rich manipulationforce-torque sensing

arXiv:2307.00595

RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

RDT-1B 是 12 亿参数的扩散 Transformer 基础模型，专为双臂机器人操作设计，通过物理可解释统一动作空间在 46 个多机器人数据集上预训练，在未见物体、场景、语言指令及 few-shot 新技能等多类挑战任务上比 AC…

bimanual manipulationdiffusion modelfoundation model双臂机器人zero-shot generalization

arXiv:2410.07864

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

Qwen-VLA 将操作、导航与轨迹预测统一到单一 VLA 模型，基于 Qwen3.5-4B 骨干和 DiT 流匹配动作解码器，通过形态感知提示和四阶段训练（T2A→CPT→SFT→RL），作为通才策略在 LIBERO（97.9%）、S…

VLA具身智能机器人操作视觉语言导航DiT flow matching

arXiv:2605.30280

Predictive Inverse Dynamics Models are Scalable Learners for Robotic Manipulation

Seer 将视觉预测（conditional visual foresight）与逆动力学预测端到端统一在 Transformer 框架中，在 DROID 上预训练后于 CALVIN ABC-D（4.28 平均任务数 SOTA）、LIB…

robotic manipulationinverse dynamics modelvisual foresightimitation learningpre-training

arXiv:2412.15109

PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

PokeVLA 是一个仅 1.22B 参数的轻量级 VLA 模型，通过两阶段训练——含 2.4M 条样本的具身多模态预训练与目标感知语义分割、几何对齐的后训练——在 LIBERO-Plus 鲁棒性基准和真实机器人操作中取得最先进性能。

VLArobot manipulationembodied AIgoal-aware segmentationgeometry alignment

arXiv:2604.20834

PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

PointWorld 以 3D 点流为统一状态-动作表示，在约 200 万条真实与仿真混合轨迹上预训练大规模三维世界模型（PTv3，最大 1B 参数），验证了 log-linear scaling law，并实现单一检查点零示范驱动真实…

3D world modelpoint flowrobotic manipulationRGB-Dscaling law

arXiv:2601.03782

PointACT：多尺度点云-动作交互的视觉-语言-动作模型

PointACT 通过分层 Bottleneck 窗口自注意力机制，将 Point Transformer v3 提取的多尺度三维点云几何特征与动作 token 深度融合进 VLA 模型的动作解码阶段，在 RLBench（82.3%）和…

Vision-Language-Action modelpoint cloudrobot manipulationmulti-scale interactionBottleneck Window Self-Attention

arXiv:2605.21414

Planning with Diffusion for Flexible Behavior Synthesis

Diffuser 将轨迹优化直接嵌入扩散概率模型，使采样即规划，通过 classifier-guided sampling 与 inpainting 实现灵活的长视野行为合成，在 Maze2D、D4RL 及 Block Stacking…

diffusion modeltrajectory planningoffline RLclassifier-guided sampling扩散规划

arXiv:2205.09991

Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation

PerAct 是一个语言条件化的 behavior cloning agent，采用 PerceiverIO Transformer 对体素化 RGB-D 场景与自然语言目标进行联合编码，通过检测「下一个最优体素动作」输出离散化 6-D…

robotic manipulationbehavior cloninglanguage-conditionedvoxel representationPerceiver Transformer

arXiv:2209.05451

OpenVLA: An Open-Source Vision-Language-Action Model

OpenVLA 是首个开源的 70 亿参数视觉-语言-动作模型，在 970k 真实机器人演示上训练，以更少参数超越闭源 RT-2-X 16.5%，并支持消费级 GPU 上的 LoRA 参数高效微调与 int4 量化推理。

VLAVision-Language-Action机器人操作open-sourceLoRA fine-tuning

arXiv:2406.09246

Open X-Embodiment: Robotic Learning Datasets and RT-X Models

汇聚21个机构22种机器人的60个数据集（超百万条轨迹）构建OXE数据集，训练RT-1-X与RT-2-X模型，验证跨机器人正向迁移，RT-2-X在涌现技能任务上相比单一机器人训练取得约3倍提升（75.8% vs 27.3%）。

Open X-EmbodimentRT-Xcross-embodiment transfer机器人学习vision-language-action model

arXiv:2310.08864

Octo: An Open-Source Generalist Robot Policy

Octo 是首个可有效微调到新观测空间与动作空间的开源通用机器人策略，基于 Transformer 在 80 万条 Open X-Embodiment 轨迹上预训练，零样本性能优于 RT-1-X 29%，微调后平均成功率 72%。

generalist robot policyOpen X-Embodimentdiffusion policytransformerimitation learning

arXiv:2405.12213

NitroGen: An Open Foundation Model for Generalist Gaming Agents

NitroGen 是在 40,000 小时、1,000+ 款游戏视频上训练的开放式视觉-动作基础模型，通过自动提取手柄动作进行大规模行为克隆，迁移至未见过的游戏时任务完成率最高提升 52%。

游戏智能体行为克隆视觉-动作模型flow matchingdiffusion transformer

arXiv:2601.02427

Navigation World Models

NWM 是一个基于 Conditional Diffusion Transformer（CDiT）的可控视频生成模型，通过想象未来轨迹实现视觉导航规划，支持动态约束融入与陌生环境泛化，规模扩展至 10 亿参数，在 RECON 数据集上 …

导航世界模型world model视觉导航video generationdiffusion transformer

arXiv:2412.03572

NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

NORA 是一个 3B 参数的轻量 VLA 模型，基于 Qwen-2.5-VL-3B 骨干和 FAST+ 动作分词器，在近百万条真实机器人演示上训练，在真实 WidowX 机器人和 LIBERO 仿真基准上均超越 7B 量级的 Open…

VLA具身智能机器人操作FAST+ tokenizerOpen X-Embodiment

arXiv:2504.19854

Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals

MDT 提出多模态扩散 Transformer，通过 Masked Generative Foresight 和 Contrastive Latent Alignment 两个自监督辅助任务，在仅 2% 语言标注下实现多任务机器人操作，…

multimodal diffusion policyrobot manipulationlanguage conditioningmasked generative foresightcontrastive alignment

arXiv:2407.05996

Motus: A Unified Latent Action World Model

Motus 通过 Mixture-of-Transformers 架构将视频生成、动作预测与视觉语言理解统一为单一世界模型，以 optical flow 为跨具身运动先验，在 RoboTwin 2.0 仿真中成功率 88.66%，超越 …

世界模型VLAlatent actionoptical flowMixture-of-Transformers

arXiv:2512.13030

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation from Videos

Moto 将视频帧对压缩为离散隐运动 token，以自回归预训练方式在无标注视频上学习动作先验，再通过 co-fine-tuning 迁移到机器人操控，仅 98M 参数即在 SIMPLER 基准上达到 61.4% 成功率，媲美 55B …

latent motion tokenrobot manipulation视频预训练VQ-VAEautoregressive prediction

arXiv:2412.04445

MolmoAct: Action Reasoning Models that can Reason in Space

MolmoAct 通过深度感知 token、2D 轨迹推理与动作预测三阶段流水线将空间推理引入机器人基础模型，在 SimplerEnv 零样本达 70.5%、LIBERO 平均 86.6%，真实场景双臂操作超越 π₀-FAST 22.7%。

VLAAction Reasoning Model机器人操作空间推理trajectory trace

arXiv:2508.07917

MolmoAct2: Action Reasoning Models for Real-World Deployment

MolmoAct2 是完全开源的具身动作推理模型，基于专为空间推理定制的 Molmo2-ER 骨干，结合 per-layer KV conditioning 架构与自适应深度推理变体 MolmoAct2-Think，在 7 个基准上全面…

Vision-Language-ActionVLA机器人操作action reasoningflow matching

arXiv:2605.02881

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

MergeVLA 通过稀疏任务掩码激活 LoRA 参数并将 action expert 重设计为纯 cross-attention 结构，首次实现多技能 VLA 专家的高质量合并，在 LIBERO 基准上达到 90.2% 平均成功率（与…

model mergingVLArobot manipulationLoRA task maskingcross-attention action expert

arXiv:2511.18810

MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation

MemoryVLA 通过感知-认知双流记忆库（PCMB），赋予 VLA 模型类脑记忆能力，在 SimplerEnv-Bridge 上达到 71.9%（+14.6 pts），真实长时程任务上达到 83%（+26 pts），推理开销仅增加 …

VLA机器人操作时序建模episodic memoryperceptual-cognitive memory

arXiv:2508.19236

Mastering Diverse Domains through World Models

DreamerV3 用单一固定超参数配置在 150+ 个不同领域任务上超越专用调参算法，通过 RSSM 世界模型、symlog 压缩和收益归一化实现跨域鲁棒性，并成为首个从零在 Minecraft 中收集钻石的算法。

world modelDreamerV3model-based RLRSSMsymlog 压缩

arXiv:2301.04104

Masked World Models for Visual Control

MWM 将视觉表征学习与动态学习解耦，利用卷积特征掩码自编码器和辅助奖励预测学习高质量表征，再在冻结表征空间训练隐动态模型，在 Meta-world 50 任务上实现 81.7% 成功率，显著超越 DreamerV2 的 67.9%。

masked world modelvisual model-based RLconvolutional feature maskingvision transformerlatent dynamics

arXiv:2206.14244

ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation

ManiGaussian 通过动态 Gaussian Splatting 构建 Gaussian 世界模型，预测机器人操控后的未来场景，以此为监督信号让策略理解场景时空动态，在 RLBench 10 个任务上以 44.8% 平均成功率超…

robotic manipulationGaussian splattingworld model动态场景建模多任务学习

arXiv:2403.08321

MM-ACT: Learn from Multimodal Parallel Generation to Act

MM-ACT 将文本、图像与动作统一于共享 token 空间，通过 Context-Shared Multimodal Learning 和并行解码策略实现跨模态协同训练，在 LIBERO 达到 96.3%、真实 Franka 达到 7…

Vision-Language-Action多模态并行生成parallel decoding机器人操作context-shared learning

arXiv:2512.00975

METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model

METIS 通过构建多源自视角数据集 EgoAtlas（343K 轨迹、89.72M 图像-动作对）和运动感知动态表征（VQ-VAE 视觉动态 + RQ-VAE 运动动态），训练出能在真实世界执行灵巧手操作的 VLA 模型，在 6 个任…

vision-language-action modeldexterous manipulationegocentric datamulti-source pretrainingmotion-aware dynamics

arXiv:2511.17366

Learning to Model the World with Language

Dynalang 将多样化语言（指令、状态描述、动态解释、纠错）统一视为预测未来观测的信号，扩展 DreamerV3 构建多模态世界模型，在想象空间中训练 Actor-Critic 策略，在 HomeGrid、Messenger、VLN…

world modellanguage grounding多模态世界模型reinforcement learningembodied AI

arXiv:2308.01399

Learning to Act from Actionless Videos through Dense Correspondences

AVDC 从无动作标签的 RGB 视频中学习机器人策略：扩散模型生成想象执行视频，再通过稠密光流对应关系以闭合形式解算 SE(3) 变换，实现操控与导航任务的跨平台零样本迁移，无需环境交互或动作标注。

actionless videodense correspondencesoptical flowvideo diffusionrobot manipulation

arXiv:2310.08576

Learning Universal Policies via Text-Guided Video Generation

UniPi 将序列决策问题转化为文本条件视频生成问题，利用扩散模型合成未来视频帧作为规划，再通过 inverse dynamics 模型从相邻帧提取控制动作，实现跨环境、跨任务的通用策略学习，并支持从互联网视频预训练迁移到真实机器人。

universal policytext-conditioned video generationdiffusion model机器人操作inverse dynamics

arXiv:2302.00111

Learning Native Continuation for Action Chunking Flow Policies

Legato 将平滑续接能力内嵌到 flow-based VLA 策略中，通过 schedule-shaped 引导与速度场重塑消除 action chunk 边界的不连续性，在五项真实双臂操作任务上将轨迹平滑度与完成时间均提升约 10%。

action chunkingflow policyVLA视觉语言动作模型trajectory smoothness

arXiv:2602.12978

Learning Latent Dynamics for Planning from Pixels

PlaNet 提出 RSSM（兼含确定性与随机性转移分量的隐状态空间模型）并结合 latent overshooting 训练目标，在隐空间中用 CEM 进行在线规划，仅需 model-free 方法约 1/50 的环境交互即可在六个连…

model-based RLlatent dynamicsRSSMlatent overshootingCEM planning

arXiv:1811.04551

Learning Interactive Real-World Simulators

UniSim 通过视频扩散模型统一整合机器人、人类活动、导航等多源异构数据，学习一个可交互的真实世界通用仿真器，支持高层语言指令与底层连续控制，训练所得策略可零样本迁移至真实机器人。

world modelvideo diffusioninteractive simulator机器人策略action-conditioned generation

arXiv:2310.06114

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

提出 ALOHA 低成本双臂遥操作系统（<$20k）与 ACT（Action Chunking with Transformers）算法，将未来 k 步动作作为整体预测以缓解复合误差，配合 CVAE 建模人类演示多模态性，仅需 1…

bimanual manipulationimitation learningaction chunkingtransformerCVAE

arXiv:2304.13705

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

以光流作为形态无关动作表征预训练视觉世界模型，再通过少量目标形态演示微调，并在推理时用隐空间价值引导 diffusion policy 选择最优动作规划，在真实机器人上以 30–50 条演示实现相对行为克隆 70% 的相对提升。

latent policy steeringworld modeloptical flowembodiment-agnosticdiffusion policy

arXiv:2507.13340

Latent Action Pretraining from Videos

LAPA 通过 VQ-VAE 从无标注视频中学习离散 latent action，无需人工动作标注即可预训练 VLA 模型，在真实机器人操作上以约 30× 更高效率超越 OpenVLA（50.1% vs. 43.9%）。

VLAlatent action视频预训练VQ-VAE机器人操作

arXiv:2410.11758

Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

无需任何额外训练，通过语义动作翻译、自回归轨迹修正和动态示例选取三项推理时技术，将 GPT-3/Codex 生成的自由文本动作计划转化为 VirtualHome 中可执行的具身动作序列，可执行率从约 8–18% 大幅提升至约 73–79%。

zero-shot planninglarge language modelsembodied agentsaction groundingsemantic translation

arXiv:2201.07207

LP-DS: 拉格朗日扰动扩散引导 — 生成策略的潜在空间强化学习

LP-DS 通过在冻结扩散/流匹配策略的潜在噪声空间中学习状态条件残差扰动，并以拉格朗日信任域约束防止分布外漂移，实现了轻量级在线强化学习微调，在多个机器人操控基准及真实 Franka 机器人上显著提升了任务成功率。

扩散策略强化学习微调latent space perturbationLagrangian trust-regionbehavior cloning

arXiv:2606.01151

LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning

LIBERO 是专为机器人操作中终身学习设计的基准，包含 130 个跨越四个任务套件的操作任务，系统研究陈述性知识与程序性知识的迁移效率，并揭示顺序微调在前向迁移上优于现有终身学习算法、监督预训练反而会损害后续学习性能等反直觉结论。

lifelong learningrobot manipulationknowledge transfercontinual learningbenchmark

arXiv:2306.03310

LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

LIBERO-Plus 对 10 款主流 VLA 模型在 7 个扰动维度（对象布局、光照、背景、摄像头视角、机器人状态、语言指令、传感器噪声）下的鲁棒性进行系统评估，发现成功率从 95% 骤降至 30% 以下，且模型几乎忽视语言输入，依…

VLA robustnessVision-Language-Actionrobotic manipulationperturbation benchmarkLIBERO-Plus

arXiv:2510.13626

LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion

LDA-1B 是一个十亿参数机器人基础模型，通过多模态扩散 Transformer 对策略、前向/逆向动力学与视觉预测联合训练，并提出通用具身数据摄取框架将 30,000+ 小时异质数据统一利用，在真实机器人抓取、灵巧操作和长视野任务中…

robot foundation modellatent dynamicsdiffusion transformerDINO具身智能

arXiv:2602.12215

LAPO: Learning to Act without Actions

LAPO 从纯视频（无动作标签）中通过联合训练 IDM 与 FDM 并以 VQ 作为信息瓶颈，自动恢复结构化隐动作空间，再以少量标注数据或在线 RL 微调即可在 Procgen 16 个游戏中快速达到专家水平。

latent action无标注视频学习inverse dynamics modelvector quantization策略预训练

arXiv:2312.10812

LAP: Language-Action Pre-Training Enables Zero-shot Cross-Embodiment Transfer

LAP 将机器人底层动作表示为结构化自然语言（如 ”move forward 5 cm”），使动作监督与 VLM 预训练分布对齐，从而让 LAP-3B 在 3 个从未见过的机械臂上实现平均超 50% 的零样本成功率，较最强基线提升约 2…

language-action pre-trainingVLAzero-shot cross-embodiment具身智能robot manipulation

arXiv:2602.10556

Interactive Post-Training for Vision-Language-Action Models

RIPT-VLA 在预训练与 SFT 之后引入第三个强化交互式后训练阶段，利用稀疏二元奖励与 dynamic sampling 过滤机制，大幅提升 VLA 模型在多任务操作中的成功率，仅需极少量演示即可实现高效泛化。

VLAreinforcement learning post-training机器人操作few-shot imitationsparse reward

arXiv:2505.17016

Imitating Latent Policies from Observation

ILPO 提出两阶段模仿学习框架：先从专家状态观测离线学习隐空间策略和前向动力学模型，再通过少量真实环境交互对齐 latent action 与真实动作，无需任何专家动作标注即可完成行为模仿，在 Cartpole、Acrobot、Mou…

imitation learningimitation from observationlatent policyforward dynamics modelaction remapping

arXiv:1805.07914

Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration

Humanoid-VLA 将语言理解、第一人称视觉感知与全身运动控制融为一体，通过语言-动作预对齐和视觉条件微调两阶段训练及自监督数据增强，实现具有自主感知能力的通用人形机器人控制，在 Unitree G1 上验证了物体交互等多类真实任务。

humanoid robotVLA视觉语言动作egocentric visionmotion generation

arXiv:2502.14795

Humanoid Everyday: A Comprehensive Robotic Dataset for Open-World Humanoid Manipulation

Humanoid Everyday 是一个包含 10.3k 条轨迹、260 个任务、超过 300 万帧的大规模多模态类人机器人操作数据集，采集自真实 Unitree G1/H1 机器人，提供 RGB、深度、LiDAR、触觉等多传感器数据…

humanoid robotmanipulation datasetteleoperationimitation learningdexterous manipulation

arXiv:2510.08807

HoloBrain-0 Technical Report

HoloBrain-0 是一个融合视觉、语言与动作的通用机器人基础模型，通过 Perspective-aware Spatial Enhancer 与 Embodiment-Aware Action Expert 将相机参数和运动学信息…

具身智能VLA机器人操作cross-embodimentimitation learning

arXiv:2602.12062

Hierarchical Latent Action Model

HiLAM 提出层次化 Latent Action Model，通过动态分块机制从无标签视频中自动提取可变长度的高层技能，并用层次化策略实现显著数据效率提升，在 LIBERO-Long 上仅用 10% 数据即达到 BAKU 使用 100…

latent action modelhierarchical policydynamic chunkingskill discoveryrobot learning

arXiv:2603.05815

HBVLA: Pushing 1-Bit Post-Training Quantization for Vision-Language-Action Models

HBVLA 通过 policy-aware rectified Hessian 分区权重显著性、稀疏正交变换优化权重几何、混合 Haar 域量化，将 VLA 模型压缩至 1.08 bit，在 LIBERO（OpenVLA-OFT）保留 …

1-bit quantizationpost-training quantizationVision-Language-ActionVLAHessian saliency

arXiv:2602.13710

Green-VLA：面向通用机器人的分阶段视觉-语言-动作模型

Green-VLA 提出五阶段课程式训练框架，结合统一动作空间、DataQA 数据质量管线和强化学习对齐，将大规模视觉-语言模型转化为可跨异构机器人本体泛化的操控策略，在多项真实机器人任务中达到领先水平。

Vision-Language-ActionVLA课程式训练统一动作空间强化学习对齐

arXiv:2602.00919

GigaWorld-Policy: An Efficient Action-Centered World-Action Model

GigaWorld-Policy 提出以动作为中心的世界-动作模型，通过因果注意力掩码将视频生成解耦为动作学习的辅助监督，在 RoboTwin 2.0 上达到 0.86 成功率，推理速度比 Motus 快 9×，真实机器人平均成功率 0…

世界-动作模型机器人操作策略diffusion transformer因果注意力掩码具身预训练

arXiv:2603.17240

Gemini Robotics: Bringing AI into the Physical World

Google DeepMind 提出 Gemini Robotics 模型体系：基于 Gemini 2.0 构建具身推理 VLM（Gemini Robotics-ER）及直接控制机器人的 VLA 主干，实现灵巧操作、零样本控制、快速迁移…

VLA具身智能robot manipulationVision-Language-Actionembodied reasoning

arXiv:2503.20020

Galaxea Open-World Dataset and G0 Dual-System VLA Model

Galaxea Open-World Dataset 在真实人居环境中采集 500 小时、100K 条单体机器人演示轨迹，配合细粒度子任务语言标注；G0 双系统框架以 VLM 慢规划 + VLA 快执行，通过三阶段训练（跨具身预训练→单…

VLA双系统框架open-world dataset单体具身预训练机器人操作

arXiv:2509.00576

GRAPE: Generalizing Robot Policy via Preference Alignment

GRAPE 通过轨迹级偏好优化（TPO）和自动引导代价偏好生成（GCPG），让 VLA 模型同时从成功与失败轨迹中学习，在领域内和未见任务上分别提升成功率 51.79% 和 58.20%，并支持安全、效率等多样化对齐目标。

VLA偏好对齐机器人操作preference optimizationtrajectory-level reward

arXiv:2411.19309

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

GR00T N1 是 NVIDIA 发布的面向通用仿人机器人的开放 VLA 基础模型，采用双系统架构（VLM + Diffusion Transformer），结合数据金字塔与神经轨迹增强，在仿真和真实机器人任务上均超越最先进模仿学习基线。

humanoid robotVision-Language-Actiondiffusion transformer双系统架构flow matching

arXiv:2503.14734

GR-2: Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation

GR-2 在3800万互联网视频上进行视频生成预训练，再用机器人轨迹微调，同时预测未来帧和动作序列，在105项操作任务上达到97.7%成功率，并展现对未见场景的强泛化能力。

robot manipulationvideo-language-action modelvideo generation pre-training机器人操作多任务学习

arXiv:2410.06158

GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework for Robot Manipulators

GELLO 通过构建目标机械臂的缩小版运动等效结构，以不到 $300 的成本提供直觉式双臂遥操作体验，在五项任务的用户研究中平均成功率 0.92，显著优于 VR 控制器（0.72）和 SpaceMouse（0.63），并为 Franka…

teleoperationrobot manipulationimitation learningdata collectionDYNAMIXEL

arXiv:2309.13037

FurnitureBench: Reproducible Real-World Benchmark for Long-Horizon Complex Manipulation

FurnitureBench 以家具组装为载体，提出首个可复现的真实世界长时域复杂操作基准，配套 3D 可打印家具模型、219.6 小时遥操作演示数据及 FurnitureSim 模拟器，评测结果表明现有 BC 和 IQL 算法在该基准…

furniture assemblylong-horizon manipulationrobotic benchmarkimitation learningoffline RL

arXiv:2305.12821

From Pixels to Tokens: A Systematic Study of Latent Action Supervision for Vision-Language-Action Models

在统一 VLA baseline 下系统对比四种 latent action 监督策略：图像型策略擅长长视野推理（LIBERO-Long +10.8%），动作型策略适合复杂运动协调（RoboTwin +17.5%），直接离散 token…

VLAlatent actiondiscrete token机器人操作策略学习

arXiv:2605.04678

From Demonstrations to Safe Deployment: Path-Consistent Safety Filtering for Diffusion Policies

PACS 通过将扩散策略的 action chunk 转化为路径一致性刹车轨迹，借助集合可达性分析提供形式化安全保证，在真实人机交互任务中实现 0% 安全违规率同时保持 80% 任务成功率。

Diffusion Policy安全过滤Reachability Analysis机器人操作Human-Robot Interaction

arXiv:2511.06385

ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation

ForceVLA 将 6 轴力-扭矩反馈作为核心模态引入 VLA 框架，通过 FVLMoE（Force-aware Mixture-of-Experts）模块在 VLM 编码之后动态融合力特征，在五类接触密集型操作任务中平均成功率较基线…

VLAforce sensingMixture-of-Expertscontact-rich manipulation机器人操作

arXiv:2505.22159

FlowVLA: Visual Chain of Thought-based Motion Reasoning for Vision-Language-Action Models

FlowVLA 提出视觉思维链范式，在预测未来帧前先显式推断光流（运动动态），解决 VLA 世界模型的物理不一致和领域鸿沟问题，在 LIBERO、SimplerEnv 及真实机器人基准上均达到最优性能，低数据场景下成功率比基线高 55%。

VLAoptical flowvisual chain-of-thoughtworld model机器人操作

arXiv:2508.18269

Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

提出 OpenVLA-OFT 微调配方，结合并行解码、动作分块、连续动作表示与 L1 回归，使 VLA 在 LIBERO 仿真上成功率达 97.1%、推理吞吐量提升 26×，并在双臂 ALOHA 机器人上超越 π₀ 和 RDT-1B 达…

VLA fine-tuningparallel decodingaction chunkingcontinuous actionsL1 regression

arXiv:2502.19645

Fast-WAM: Do World Action Models Need Test-time Future Imagination?

Fast-WAM通过在训练时保留视频联合训练、推理时跳过未来帧生成，实现4倍加速同时维持竞争性操作性能，揭示WAM中视频预测的真正价值在于训练时的表征学习而非推理时的未来想象。

World Action Models机器人操作视频预测扩散策略flow matching

arXiv:2603.16666

FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

FLOWER 通过中间模态融合（截断 VLM 中间层特征）和 Global-AdaLN 条件化（跨层共享调制权重+LoRA）构建了仅需 200 H100 GPU 小时的 950M 参数 VLA flow 策略，在 CALVIN ABC …

Vision-Language-Actionflow matchingintermediate-modality fusionGlobal-AdaLN机器人操作

arXiv:2509.04996

FLARE: Robot Learning with Implicit World Modeling

FLARE 在扩散变换器策略内嵌入隐式潜在世界模型，通过余弦对齐损失将中间层 future tokens 特征与未来观测嵌入对齐，使机器人策略隐式地预见未来状态，在多任务操作基准上最高超越现有方法 26%，并可利用无动作标注的人类视频提…

隐式世界模型机器人操作diffusion transformerVLAimitation learning

arXiv:2505.15659

FIPER: Failure Prediction at Runtime for Generative Robot Policies

FIPER 提出一种无需失效数据的运行时失效预测框架，通过融合观测域 OOD 检测（RND-OE）与动作块熵评分（ACE），并用 conformal prediction 标定阈值，在五个多样化机器人任务上以平均 TWA 0.65、Ac…

失效预测生成式策略Diffusion PolicyOOD DetectionRandom Network Distillation

arXiv:2510.09459

FAST：面向视觉-语言-动作模型的高效动作分词

FAST 提出基于DCT与BPE的动作分词方案，将机器人动作序列转换到频域后压缩为少量低相关性token，使自回归VLA模型在高频灵巧操作任务上性能媲美扩散基线，同时将训练GPU时间压缩至1/5。

action tokenizationVLA模型离散余弦变换字节对编码机器人操作

arXiv:2501.09747

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization

FASTer 通过 Transformer 残差向量量化分词器（FASTerVQ）和块级自回归解码（FASTerVLA），在保持高重建保真度的同时大幅提升 VLA 推理效率，LIBERO 成功率达 97.9%，推理延迟仅 112 ms。

VLAaction tokenizationautoregressive decodingresidual vector quantization机器人操作

arXiv:2512.04952

F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions

F₁ 通过 Mixture-of-Transformer 架构将视觉前瞻生成整合入机器人动作决策，以预测引导的逆动力学范式在真实任务和 LIBERO、SimplerEnv 等基准上显著超越 π₀ 等现有 VLA 模型。

Vision-Language-ActionMixture-of-Transformervisual foresightinverse dynamics机器人操作

arXiv:2509.06951

Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization

提出 AGNOSTOS 基准（23 个未见操作任务，双难度级别）与 X-ICM 方法，通过动态引导示例选择和 LLM 上下文预测，实现 VLA 模型的零样本跨任务机器人操作泛化，Overall 成功率达 30.1%，超越 π0 等基线约…

VLAcross-task generalizationX-ICMAGNOSTOS benchmarkdynamics-guided selection

arXiv:2505.15660

Evaluating Real-World Robot Manipulation Policies in Simulation

SIMPLER 通过系统辨识消除控制间隙、Visual Matching 消除视觉间隙，在仿真中对真实训练的机器人操作策略进行可扩展、可复现的评估，实现与真实世界的强相关性（Pearson r=0.924, MMRV=0.056）。

real-to-sim evaluationrobot manipulationsystem identificationvisual matching仿真评估

arXiv:2405.05941

Emergence of Human to Robot Transfer in Vision-Language-Action Models

研究发现当 VLA 模型在多样化机器人数据上进行预训练后，利用人类视频数据迁移技能到机器人的能力会自然涌现，无需显式对齐机制，co-training 人类数据可将泛化任务成功率最高提升 39%。

human-to-robot transfervision-language-action modelco-trainingembodiment-agnostic representationcross-embodiment

arXiv:2512.22414

EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data

EgoScale 在逾 2 万小时第一视角人类操作视频上预训练 VLA，发现数据规模与验证损失之间的对数线性 scaling law（R²=0.9983），通过轻量 mid-training 在 22 自由度灵巧手上实现 54% 成功率…

dexterous manipulationegocentric videoVLAhuman-to-robot transferscaling law

arXiv:2602.16710

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

EgoDex 是一个使用 Apple Vision Pro 采集的大规模第一视角灵巧操作数据集，包含 829 小时视频、338,000 个任务演示、194 种桌面操作任务及完整的手部骨骼追踪数据，并建立了手部轨迹预测与逆动力学预测两个新…

dexterous manipulationegocentric videoimitation learning灵巧手操作hand tracking

arXiv:2505.11709

EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models

EVOLVE-VLA 通过环境反馈驱动的 test-time training，结合学习式进度估计器（VLAC）、累积进度估计和渐进式视野扩展，使 VLA 模型无需额外示范即可持续提升操作能力，在 LIBERO-Long 达到 +8.6…

VLAtest-time training具身智能GRPO机器人操作

arXiv:2512.14666

DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

DynamicVLA 是一个 0.4B 参数的 VLA 模型，通过 Continuous Inference 与 Latent-aware Action Streaming 消除推理-执行时序错位，在自建 DOM 基准上实现 47.06…

VLA动态物体操作continuous inferencelatent-aware action streaming机器人操作

arXiv:2601.22153

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

DreamVLA 通过在动作生成前显式预测动态区域、深度图与语义特征（DINOv2+SAM）作为”世界知识”，并采用 block-wise structured attention 防止信息泄露，在 CALVIN ABC-D 上取得 4…

VLAvision-language-action机器人操作world knowledge predictiondynamic regions

arXiv:2507.04447

DreamGen: Unlocking Generalization in Robot Learning through Video World Models

DreamGen 提出四阶段流水线，通过视频世界模型生成带伪动作标注的合成”神经轨迹”，仅凭单一 pick-and-place 任务的遥操作数据，便可训练出能在 22 种新行为和未见环境中泛化的机器人策略。

video world modelneural trajectorypseudo action labelingbehavior generalizationenvironment generalization

arXiv:2505.12705

DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

DreamDojo 从 44k 小时以自我为中心的人类视频中训练通用机器人世界模型，通过连续潜在动作解决动作标注稀缺问题，经蒸馏后实现 10.81 FPS 实时推理，支持策略评估（r=0.995）、基于模型的规划和实时遥操作。

world model机器人操作egocentric videolatent action策略评估

arXiv:2602.06949

Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow

Dream2Flow 以 3D object flow 为中间表示，将预训练视频生成模型产生的操作预测转换为可执行的机器人控制指令，无需任务专属演示即可在刚性、关节式、可变形和颗粒状物体上实现零样本操控。

3D object flowvideo generationrobotic manipulationzero-shottrajectory tracking

arXiv:2512.24766

Dream to Manipulate: 组合式世界模型赋能机器人模仿学习

DreMa 将场景分解为物体级 2D Gaussian Splatting 表示并结合 PyBullet 物理仿真器构建组合式世界模型，通过等变变换生成合成示范数据，使机器人在真实 Franka Emika Panda 上实现每任务变体…

robot manipulationimitation learningworld modelGaussian Splattingcompositional scene representation

arXiv:2412.14957

Do You Need Proprioceptive States in Visuomotor Policies?

State-free 策略去除本体感知状态输入，仅凭视觉观测（双广角腕部相机）加相对末端执行器动作空间，在三种真实机器人平台上实现大幅空间泛化提升，同时保持域内性能不变并降低对大量数据的依赖。

visuomotor policyproprioceptionrelative end-effector actionspatial generalizationwrist camera

arXiv:2509.18644

Do World Action Models Generalize Better than VLAs? A Robustness Study

系统对比 WAM 与 VLA 在七类视觉和语言扰动下的鲁棒性：WAM 凭借视频预训练的时空先验在噪声、光照和布局扰动上显著领先（LingBot-VA 综合 74.2%、Cosmos-Policy 82.2%），但摄像机和初始位姿扰动仍是…

world action modelVLArobustness benchmarkvideo pre-trainingrobot manipulation

arXiv:2603.22078

Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining

DeFI 将视觉前向动力学（GFDM，利用无标注视频预训练）与逆向动力学（GIDM，自监督推断潜在动作）解耦预训练后融合为端到端架构，在 CALVIN ABC-D 达到 4.51 平均任务链长度、SimplerEnv-Fractal 5…

Vision-Language-Action机器人操作前向动力学预训练逆向动力学预训练解耦学习

arXiv:2604.16391

Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

将离散扩散建模引入 VLA 动作解码，在统一 transformer 主干内以掩码交叉熵训练动作 token，通过 Adaptive Decoding 和 Secondary Re-Masking 实现渐进式精炼，在 LIBERO 达到…

VLAdiscrete diffusionaction tokenizationmasked diffusionadaptive decoding

arXiv:2508.20072

Diffusion for World Modeling: Visual Details Matter in Atari

DIAMOND 首次将扩散模型用作在线强化学习的世界模型，在像素连续空间建模环境动态，保留离散压缩方案丢失的视觉细节，在 Atari 100k 基准上以 Mean HNS 1.46 创下世界模型内训练智能体的最优纪录。

diffusion world modelreinforcement learningAtari 100kEDMvisual fidelity

arXiv:2405.12399

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

Diffusion Policy 将去噪扩散过程引入机器人策略学习，把动作生成建模为条件扩散过程，在 15 个操作任务上平均超越现有方法 46.9%，并在真实 Push-T 任务中以 95% 成功率接近人类示范水平。

diffusion policyvisuomotor policyimitation learningbehavior cloningrobot manipulation

arXiv:2303.04137

DiLA: Disentangled Latent Action World Models

DiLA 通过内容-结构解耦将视频帧分为结构通道（运动）和内容通道（外观），在无动作标注的自监督训练下同时实现高级动作抽象与高保真视频生成，在视觉规划基准 VP² 上聚合成功率达 41.44%，远超基线 AdaWorld 的 21.54%。

latent action modelworld modelcontent-structure disentanglementvideo generationvisual planning

arXiv:2605.15725

DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation

DexUMI 利用可穿戴外骨骼和 robot hand inpainting 视觉适应流水线，将人类灵巧操作技能高效迁移至多款机器人手，在两个平台上实现平均 86% 的任务成功率，数据采集效率是传统遥操作的 3.2 倍。

dexterous manipulationuniversal manipulation interfaceexoskeleton灵巧手robot hand inpainting

arXiv:2505.21864

DayDreamer: World Models for Physical Robot Learning

将 Dreamer 世界模型算法直接部署到四款真实机器人（四足、双机械臂、轮式）上，无需仿真器，实现从零开始的快速在线强化学习：四足 1 小时学会行走，机械臂 8–10 小时达到接近人类的抓放性能，轮式机器人 2 小时完成纯视觉导航。

world modelmodel-based RLDreamer四足机器人 locomotionvisual pick-and-place

arXiv:2206.14176

DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

DROID 是一个包含 76,000 条演示轨迹（350 小时）、跨 564 个真实场景的大规模机器人操作数据集，由 50 名采集者在三大洲 18 个机构采集，联合训练后分布内/外成功率分别提升 22%/17%。

robot manipulation datasetin-the-wild 采集imitation learningdiffusion policyscene diversity

arXiv:2403.12945

CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling

CronusVLA 通过单帧预训练与多帧后训练两阶段框架，将 VLA 模型扩展至多帧范式：跨帧解码器以线性复杂度汇聚历史帧的可学习特征，在 SimplerEnv 达到 70.9% 成功率、LIBERO 较 OpenVLA 提升 26.8…

VLA多帧建模机器人操作cross-frame decoderfeature chunking

arXiv:2506.19816

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

通过单阶段 fine-tuning 将大型预训练视频生成模型（Cosmos-Predict2-2B）转化为机器人控制策略，将动作编码为 diffusion latent frames，并支持 model-based planning，在…

video generation modelvisuomotor controlrobot policydiffusion modelmodel-based planning

arXiv:2601.16163

Contact-Grounded Policy：具有生成式接触锚定的灵巧视触觉策略

CGP 提出通过联合预测机器人实际状态与触觉反馈的耦合轨迹，并借助学习到的接触一致性映射将预测结果转化为柔顺控制器目标，从而在多指灵巧操作中实现显式的多点接触锚定，在仿真与真实机器人任务上均显著超越视触觉 diffusion polic…

dexterous manipulationvisuotactile policycontact groundingdiffusion policytactile sensing

arXiv:2603.05687

CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games

CombatVLA 是一个面向3D动作角色扮演游戏战斗任务的3B参数高效VLA模型，通过三阶段渐进式学习和 Action-of-Thought 推理链，以1.85秒推理延迟（比 VARP 快50倍）在 CUBench 战斗理解基准上超越…

Vision-Language-Action Model游戏AI3D动作游戏Action-of-Thought实时决策

arXiv:2503.09527

CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation

CogACT 提出组件化 VLA 架构，将视觉语言认知（LLaMA-2）与专用扩散 Transformer 动作模块解耦，在 5 种机器人平台上成功率比 OpenVLA 高出 35%–55%，并超越 RT-2-X 18%。

VLAVision-Language-Actiondiffusion transformerrobotic manipulation机器人操作

arXiv:2411.19650

Code as Policies: Language Model Programs for Embodied Control

利用在代码上训练的大语言模型，通过少样本提示将自然语言指令直接转化为可执行 Python 机器人策略代码，无需额外训练即可在多类机器人平台上完成空间推理、泛化新指令等复杂任务。

code generationlanguage modelrobot policyfew-shot promptingembodied control

arXiv:2209.07753

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

CoT-VLA 在视觉语言动作模型中引入显式视觉思维链推理，先自回归生成未来子目标图像帧，再预测动作序列，在真实机器人操作任务上超越 SOTA 17%，仿真 benchmark 超越 6%。

视觉思维链VLA机器人操作子目标图像生成VILA-U

arXiv:2503.22020

CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning

CoMo 通过时序差分机制与时序对比学习，从互联网视频中无监督学习连续潜在运动表示，生成零样本伪动作标签以扩展机器人策略训练数据，在 LIBERO 和 CALVIN 上超越现有离散运动方法。

continuous latent motioninternet video机器人学习temporal differencecontrastive learning

arXiv:2505.17006

Co-Evolving Latent Action World Models

CoLA-World 用 world model 替代 latent action model 中的 forward dynamics model，通过 warm-up + 端到端联合训练消除 codebook collapse，实现 …

latent action modelworld model联合训练codebook collapsevideo generation

arXiv:2510.26433

ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model

ChatVLA 通过分阶段对齐训练（先专注控制再引入理解）与混合专家架构（共享注意力 + 独立 MLP Expert），同时解决 VLA 模型中的伪遗忘与任务干扰问题，在 MMMU 上达到 37.4（ECoT 仅 5.4），同时在真实机…

vision-language-action modelVLAMixture-of-Expertsphased alignment trainingspurious forgetting

arXiv:2502.14420

Chameleon: 面向视觉运动操作的控制索引前瞻性记忆

Chameleon 提出控制索引前瞻性记忆模块，通过选择性状态空间模型实现可分离、可寻址的历史轨迹检索，并以 Control-JEPA 训练目标赋予记忆前瞻性，解决视觉运动操作中的观测-动作延迟问题，在真实机器人任务中将决策成功率从 2…

visuomotor manipulationprospective memorycontrol-indexed retrieval非马尔可夫决策observation-action delay

arXiv:2603.24576

Causal World Modeling for Robot Control

LingBot-VA 是一个自回归扩散框架，通过因果视频世界建模与动作预测的联合学习，利用 KV-cache 保留完整历史上下文，在长时域操作、样本效率和泛化能力三个维度上全面超越现有 VLA 方法，LIBERO 平均成功率达 98.5…

world modelautoregressive diffusionVLArobot manipulationMixture-of-Transformers

arXiv:2601.21998

CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation

CaP-X 系统性地评测并提升「代码即策略」机器人操控智能体：提出CaP-Gym交互环境与CaP-Bench八层次基准（12模型×7任务），发现前沿模型与人类专家仍存在显著差距；训练无关的CaP-Agent0（VDM+技能库+并行推理）…

Code-as-Policyrobot manipulationbenchmarkembodied AICaP-Agent0

arXiv:2603.22435

CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks

CALVIN 是一个开源仿真基准，要求智能体仅凭自然语言指令和板载传感器在四个训练环境与一个零样本测试环境中完成 34 种长序列机器人操控任务，揭示现有 imitation learning 方法在长序列语言条件控制上的严重不足。

language-conditioned policylong-horizon manipulationrobot benchmarkmulti-context imitation learningzero-shot generalization

arXiv:2112.03227

AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models

AsyncVLA 提出异步流匹配框架，通过置信度评估器识别低质量 action token 并用 AFM 选择性重生成，赋予 VLA 模型自校正能力，在 LIBERO、WidowX 及真实机器人任务上全面超越 π0.5 等基线。

VLAflow matching异步推理机器人操作confidence rating

arXiv:2511.14148

Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance

ATE 框架通过两阶段非对称 VAE 将异构机器人动作空间对齐到统一隐空间，再利用 classifier guidance 引导扩散/流式 VLA 的 fine-tuning 过程，在仿真与真实跨机器人场景中分别实现最高 9.8% 与 …

VLAVision-Language-Action机器人操作cross-embodiment 迁移diffusion policy

arXiv:2509.02055

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

AgiBot World 提供超过 100 万条轨迹、217 项任务的大规模操作数据集，并推出三阶段 GO-1（ViLLA）泛化策略，在域内与分布外评估中均比 Open X-Embodiment 基线平均提升 30%，验证了机器人操作领…

机器人操作大规模数据集latent action modeldiffusion policyVLA

arXiv:2503.06669

Action-Conditional Video Prediction using Deep Networks in Atari Games

提出 feedforward 和 recurrent 两种深度编码-变换-解码架构，通过乘性动作条件变换层将动作变量融入视频预测，在 5 个 Atari 游戏中实现超 100 步逼真帧预测，并将预测模型用于知情探索策略以改善 DQN 训…

action-conditional predictionvideo predictionAtari gamesDQNreinforcement learning

arXiv:1507.08750

AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention

AVA-VLA 将 VLA 策略学习重新表述为 POMDP，引入循环历史状态与主动视觉注意力（AVA）模块，根据指令与执行历史动态重加权视觉 token，在 LIBERO（98.0% 平均 SR）和 CALVIN（avg. len 4.…

VLAActive Visual AttentionPOMDP机器人操作LIBERO

arXiv:2511.18960

ASkDAgger：面向交互式模仿学习的主动技能级数据聚合

ASkDAgger 是一个交互式模仿学习框架，通过自适应查询门控（SAG）、计划动作复用示范（FIER）和优先经验回放（PIER）三个组件，充分利用机器人策略在不确定时提交的计划动作信息，在减少人类标注量的同时提升语言条件化机器人操作策…

interactive imitation learningDAgger主动学习机器人操作covariate shift

原文

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

ACoT-VLA 提出在动作空间中直接进行链式推理，通过 Explicit Action Reasoner 合成粗粒度参考轨迹、Implicit Action Reasoner 提取隐式动作先验，协同引导最终策略解码，在 LIBERO …

Action Chain-of-ThoughtVLA机器人操作扩散策略链式推理

arXiv:2601.11404

ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

ABot-M0 提出 Action Manifold Learning 将机器人动作预测约束在低维流形上以提升速度与稳定性，并构建 UniACT（600 万轨迹、9500+ 小时、20+ 形态）大规模统一数据集，在 LIBERO（98.…

VLA机器人操作Action Manifold Learning具身智能扩散策略

arXiv:2602.11236

A Survey on Vision-Language-Action Models for Embodied AI

首篇系统综述 VLA（视觉-语言-动作）模型，提出层级化分类框架（组件 / 低层控制策略 / 高层任务规划器），梳理 50+ 代表性方法及 8 大未来挑战，发表于 IEEE TNNLS 2026。

vision-language-actionVLAembodied AI具身智能robot manipulation

arXiv:2405.14093

A Pragmatic VLA Foundation Model

LingBot-VLA 在约 2 万小时来自 9 种双臂机器人配置的真实遥操作数据上预训练，采用 Mixture-of-Transformers 架构与 Flow Matching 动作预测，在 GM-100 百任务真实基准上以 17.…

VLAvision-language-action双臂机器人imitation learningflow matching

arXiv:2601.18692

4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration

4D-VLA 通过引入深度感知空间视觉 token 与记忆库时序采样，解决多机器人数据集联合预训练中的坐标系混乱与状态混乱问题，在 LIBERO（88.6% vs 76.5%）与真实操作（85.63% vs 27.70%）任务上大幅超越…

VLA机器人预训练RGB-D4D表征spatiotemporal reasoning

arXiv:2506.22242

3D-VLA: A 3D Vision-Language-Action Generative World Model

3D-VLA 通过生成式世界模型将三维感知、语言推理与机器人动作统一在同一框架内，引入交互token与具身扩散模型，支持RGB-D目标图像和点云生成，并在RoboVQA问答、RLBench操控和CALVIN长程规划上全面超越2D VLA…

3D-VLAembodied world model视觉-语言-动作robot manipulationgoal generation

arXiv:2403.09631

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

DP3 将稀疏点云编码的紧凑 3D 表征与 Diffusion Policy 结合，仅需少量演示即可在 72 个仿真任务和 4 个真实灵巧操作任务上大幅超越 2D 基线，并展现出跨空间、视角、外观与实例的强泛化能力。

3D Diffusion Policypoint cloudimitation learningvisuomotor policydiffusion model

arXiv:2403.03954

3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks

3D CAVLA 通过链式推理分解、轻量级点云深度编码器和任务感知 ROI 池化三种机制微调 OpenVLA-OFT，在 LIBERO 仿真基准达到 98.1% 成功率，未见任务提升 8.8%，真实 Franka 机器臂实验提升 25%…

VLAVision-Language-Action机器人操作chain-of-thought深度感知点云

arXiv:2505.05800

10 Open Challenges Steering the Future of Vision-Language-Action Models

系统梳理 VLA 模型面临的十大开放性挑战，涵盖多模态感知、推理、数据、评估、跨机器人泛化、效率、全身协调、安全、智能体框架与人机协作，并提出空间理解、世界模型、通用动作表征与数据合成四类新兴解决路径。

Vision-Language-ActionVLA模型体化AI跨机器人泛化多模态感知

arXiv:2511.05936

计算机视觉 · Computer Vision 21

VGGT-Segmentor: Geometry-Enhanced Cross-View Segmentation

VGGT-Segmentor 以 VGGT 几何感知特征为基础，引入三阶段 Union Segmentation Head（Mask Prompt Fusion、Point-Guided Prediction、Iterative Mas…

跨视角分割cross-view segmentationegocentricexocentricVGGT

arXiv:2604.13596

几何遇见视觉：重新审视蒸馏辐射场中的预训练语义

本文系统对比了几何感知视觉特征（VGGT）与纯视觉特征（DINOv2/DINOv3）在蒸馏辐射场中的表现，发现几何特征虽具有更高几何保真度，却在语义目标定位和辐射场反演任务上不及纯视觉特征，并提出了无需初始猜测的语义辐射场反演框架 SP…

语义蒸馏辐射场Gaussian SplattingNeRF位姿估计

arXiv:2510.03104

VGGT-Ω — 将前馈三维重建扩展到前所未有的规模

VGGT-Ω 是一个可扩展的前馈 Transformer 重建基础模型，通过寄存器注意力、轻量级解码头和大规模动态视频标注管线将训练显存降至 VGGT 的 30%，同时以 15 倍数据量在静态与动态场景的相机位姿估计和深度估计上全面超越…

feed-forward 3D reconstruction前馈重建相机位姿估计深度估计动态场景重建

arXiv:2605.15195

Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

Puffin 将相机参数视为语言模态，通过”Thinking with Camera”机制统一实现单图相机几何理解与可控图像生成，在 MegaDepth 等多个基准上超越专用方法，同时发布包含 400 万 vision-language…

camera calibration相机理解与生成多模态模型thinking with cameradiffusion model

arXiv:2510.08673

The "something something" video database for learning and evaluating visual common sense

Something-Something 是一个包含 108,499 条短视频、174 个细粒度动作类别的大规模众包视频数据集，通过让工作者主动表演模板驱动的动作并录制视频，捕捉人类与物体之间的基础物理交互，专为训练和评估神经网络的视觉常…

video datasetcommon senseaction recognitioncrowd-sourcing视频数据库

arXiv:1706.04261

SyncHuman: 同步 2D 与 3D 生成模型的单视图人体重建

SyncHuman 提出双向像素对齐同步注意力机制，在扩散去噪过程中联合训练多视图 2D 生成模型与 3D 原生生成模型，配合多视图引导解码器将 DINOv2 特征注入 FlexiCubes 解码过程，实现从单张图像重建几何精确、纹理丰…

单视图人体重建3D human reconstruction2D-3D联合生成扩散模型同步多视图一致性

arXiv:2510.07723

SAM 3D: 3Dfy Anything in Images — 海报（中文）

SAM 3D 是 Meta 提出的生成式模型，仅从单张自然图像即可联合预测任意物体的 3D 几何、纹理与场景布局，通过人机协作数据引擎与 LLM 式多阶段训练（预训练→中训练→SFT→DPO），在真实遮挡场景下的人工偏好测试中以 5:1…

single-view 3D reconstructionimage-to-3D3D generationflow matching transformer单张图像重建

arXiv:2511.16624

SAM 3D Body：全身人体网格重建 | 中文海报

SAM 3D Body 提出基于 Momentum Human Rig（MHR）参数化表示与双解码器可提示架构，从单张图像实现稳健的全身（含手部）三维人体网格恢复，并通过大规模高质量数据引擎在多个标准基准上达到业界最优性能。

human mesh recovery3D human pose estimation全身人体重建parametric body modelencoder-decoder

arXiv:2602.15989

SAM 3: Segment Anything with Concepts

SAM 3 在 SAM 2 基础上引入 Promptable Concept Segmentation 任务，通过文本名词短语或图像范例提示，结合 DETR 检测器与内存式追踪器及新颖的 Presence Token 机制，实现图像和视…

Promptable Concept Segmentationopen-vocabulary instance segmentation视频实例追踪DETRimage exemplar

arXiv:2511.16719

Playable Environments: Video Manipulation in Space and Time

从单帧图像构建可交互三维”可玩环境”，通过组合式非刚性 NeRF 与无监督离散动作模块，支持相机操控、多对象动作控制与外观风格切换，无需任何动作标注。

playable environmentsneural radiance fieldsvideo generationcamera controlaction learning

arXiv:2203.01914

OMG4：优化的最小化 4D Gaussian Splatting

OMG4 提出一套四阶段渐进式压缩框架（Sampling、Pruning、Merging、Attribute Compression），将 4D Gaussian Splatting 动态场景模型从 2 GB 压缩至约 3.6 MB（约…

4D Gaussian Splatting动态场景重建模型压缩Gaussian PruningSub-Vector Quantization

arXiv:2510.03857

NeuROK: 生成式 4D 神经物体运动学

NeuROK 提出基于数据驱动的神经运动学状态参数化方法，通过学习低维潜空间并结合 Lagrangian 力学方程，无需类别特定物理标注即可从静态 3D mesh 生成弹性体、布料、铰接体等多类动态物体的逼真 4D 时序变形序列。

4D generationneural kinematicsLagrangian dynamics数据驱动运动学变分自编码器

arXiv:2605.30347

INSID3: Training-Free In-Context Segmentation with DINOv3

INSID3 仅用单个冻结 DINOv3 backbone，通过 positional debiasing + agglomerative clustering + seed-cluster 聚合，免训练实现 one-shot 语义、p…

in-context segmentationtraining-freeDINOv3positional debiasingagglomerative clustering

arXiv:2603.28480

Global Structure-from-Motion Meets Feedforward Reconstruction

GlueMap 通过将经典 SfM 的全局精度与前馈神经网络在低纹理、低重叠度和对称场景下的鲁棒性相结合，在 5 个基准数据集上实现全面最优，并可扩展至上万张图像的大规模场景。

Structure-from-Motion3D重建feedforward reconstructionview graphbundle adjustment

arXiv:2605.26103

G3T Up! 重力对齐坐标系简化点图处理

G3T 提出在重力对齐坐标系中预测点图，将跨视角旋转自由度从 3 DoF 降至 1 DoF（仅 yaw），并通过 GA-Procrustes 子图拼接实现增量式三维重建，在室内场景中显著减少垂直漂移并提升姿态估计精度。

gravity-aligned coordinate framepointmap prediction前馈式三维重建VGGT fine-tuningGA-Procrustes alignment

arXiv:2605.27372

G2VLM：几何感知视觉语言模型，统一 3D 重建与空间推理

G2VLM 提出基于 Mixture-of-Transformer-Experts 的双流架构，将几何感知专家（DINOv2 + 全局注意力）与语义感知专家（Qwen2-VL）统一在同一模型中，以 2B 参数仅用 2D 图像输入即可同时…

视觉语言模型3D重建空间推理Mixture-of-Experts几何感知

arXiv:2511.21688

Flow3r：面向可扩展视觉几何学习的因子化光流预测

Flow3r 提出因子化光流预测头，将源视图几何特征与目标视图相机特征融合以预测稠密光流，从而以无标注视频为监督信号实现可扩展的静态与动态场景前馈式三维/四维重建，在8个基准测试中均达到 SOTA。

factored optical flowvisual geometry learning无标注视频监督前馈式三维重建相机位姿估计

arXiv:2602.20157

Ego4D: Around the World in 3,000 Hours of Egocentric Video

Ego4D 是迄今规模最大的第一视角（egocentric）视频数据集与基准套件，收录 3,670 小时来自全球 74 地、9 国、931 名拍摄者的日常活动视频，配套五大基准任务（情景记忆、手-物交互、音视频说话人分析、社交互动、行为…

egocentric videofirst-person perceptionepisodic memoryhand-object interactionaction forecasting

arXiv:2110.07058

DEUA: Diffusion Epistemic Uncertainty with Asymmetric Learning for Diffusion-Generated Image Detection

DEUA 通过 Last-Layer Laplace Approximation 估计扩散模型的认识论不确定性（DEU），结合非对称对比损失解决真实类 sink class 问题，在 GenImage 和 DRCT-2M 基准上分别超越…

Diffusion Generated Image DetectionEpistemic UncertaintyLaplace ApproximationAsymmetric Contrastive LossDeepfake Detection

arXiv:2601.14625

D4RT — 用「按需查询」高效重建动态四维场景

D4RT 是 Google DeepMind 提出的前馈编码器-解码器模型，通过创新的「按需查询」机制，从单段视频中统一高效地推断深度、3D 点轨迹、点云与相机参数，速度比前作快 18–300 倍并在多项 4D 重建与跟踪基准上达到 S…

4D reconstruction动态场景重建3D point trackingon-demand queryingfeed-forward

arXiv:2512.08924

ComPose: A Unified Completion-Pose Framework for Robust Category-Level Object Pose Estimation

ComPose 将点云补全与类别级物体姿态估计统一在单一网络中，通过关键点渐进补全恢复完整几何、几何关系编码及一致性约束，在 REAL275 depth-only 设置下以 38.4 FPS 实现 77.8% 的 10°2cm 精度，较…

category-level pose estimationpoint cloud completion关键点渐进补全NOCS 坐标几何关系一致性

arXiv:2605.25553

生成模型 · Generative Models 24

Flow-GRPO: Training Flow Matching Models via Online RL

Flow-GRPO 首次将在线策略梯度 RL（GRPO）引入 flow matching 文本到图像模型，通过 ODE-to-SDE 转换注入随机性，并采用 Denoising Reduction 加速训练采样，使 SD3.5-M 的 …

flow matchingGRPO在线强化学习ODE-to-SDEreward hacking

arXiv:2505.05470

MeshFlow: Efficient Artistic Mesh Generation via MeshVAE and Flow-based Diffusion Transformer

MeshFlow 提出 MeshVAE（连续隐空间压缩网格几何与拓扑）+ Rectified Flow DiT（并行去噪所有 latent token），约 1.2 秒生成 artist-like 三角网格，比最快 AR 方法快 18 …

mesh generationMeshVAEflow matchingdiffusion transformer三维网格生成

arXiv:2606.04621

扩散作为自蒸馏：单模型端到端潜变量扩散

本文提出 Diffusion as Self-Distillation（DSD）框架，通过 Stop-Gradient 解耦、损失变换和 EMA 目标编码器三项设计，将 VAE 编解码器与扩散网络统一为单一可训练模型，解决联合训练中的潜…

latent diffusion modelend-to-end trainingself-distillation潜空间坍塌VAE联合训练

arXiv:2511.14716

一步扩散生成：Shortcut Models（捷径模型）

Shortcut Models 在流匹配框架中引入"目标步长"条件，通过自一致性训练目标实现单阶段端到端训练，使扩散模型在单步推理时即可生成高质量图像（CelebA-HQ FID 20.5）并达到100步扩散策略的机…

one-step diffusionflow matchingshortcut models一步生成自一致性蒸馏

arXiv:2410.12557

Yume: An Interactive World Generation Model

Yume 提出量化相机运动、Masked Video Diffusion Transformer、无训练 Anti-Artifact Mechanism 与 TTS-SDE 采样器四大组件，以单张图像为输入、键盘为控制接口，自回归生成理…

interactive world generationvideo diffusion量化相机运动 QCMMasked Video Diffusion Transformerautoregressive video

arXiv:2507.17744

WorldMem: Long-term Consistent World Simulation with Memory

WorldMem 通过引入记忆库与状态感知 cross-attention，让视频扩散模型在生成超长序列时仍能忠实重建先前观测的场景，在 Minecraft 超窗口基准上 PSNR 较基线提升 6.66，LPIPS 降低至三分之一。

world simulationmemory banklong-term consistencyvideo diffusion状态感知注意力

arXiv:2504.12369

Towards Uncertainty Quantification in Generative Model Learning

本文首次形式化生成模型评估中的不确定性量化问题，提出基于集成 Precision-Recall 曲线的方法，通过多次随机初始化训练的模型集合来捕获学习分布近似目标分布时的置信区间，并在合成 DDPM 实验中验证了该方法可有效揭示模型复杂…

不确定性量化Generative ModelsPrecision-Recall CurvesEpistemic UncertaintyEnsemble Methods

arXiv:2511.10710

The Matrix: Infinite-Horizon World Generation with Real-Time Moving Control

首个可在实时交互控制下生成无限长高保真720p视频流的世界模拟器，结合AAA级游戏训练数据（Forza Horizon 5、Cyberpunk 2077）、Swin-DPM滑动窗口无限生成与Stream Consistency Mode…

world modelvideo generationreal-time controlinfinite-horizon世界模型

arXiv:2412.03568

Quantifying Epistemic Uncertainty in Diffusion Models

FLARE 方法通过 Fisher 信息将认知不确定性从扩散模型的随机采样噪声中显式分离，在三个合成时间序列基准上以最高 93.08% Gap-Closure 大幅优于 BayesDiff 和 LLLA 等现有方法。

扩散模型Epistemic UncertaintyLaplace ApproximationFisher InformationFLARE

arXiv:2602.09170

PlayerOne: Egocentric World Simulator

PlayerOne 是首个以真实人体运动（SMPL）为条件的第一人称世界模拟器，基于 Diffusion Transformer，通过 Part-Disentangled Motion Injection 和 Scene-Frame R…

egocentric world simulator自我中心视角生成diffusion transformermotion injectionSMPL 人体姿态

arXiv:2506.09995

Playable Video Generation

CADDY 在完全无标注视频上自监督学习离散动作空间，让用户像玩游戏一样逐帧控制视频生成，CVPR 2021 Oral，在 BAIR、Atari Breakout 和 Tennis 三个数据集上全面超越基线。

playable video generationunsupervised action learning可交互视频生成discrete action spaceCADDY

arXiv:2101.12195

PhyCo：面向生成式运动的可控物理先验学习

PhyCo 通过构建大规模物理仿真数据集、ControlNet 像素对齐属性条件调节与 VLM 奖励优化三者结合，实现了对摩擦、弹性、形变及外力等物理属性的连续可控视频生成，在 Physics-IQ 基准上达到新 SOTA。

物理先验视频生成ControlNetVLM奖励优化物理仿真数据集

arXiv:2604.28169

Nano World Models: A Minimalist Implementation of Future Video Prediction

NanoWM 是以 diffusion forcing 为核心的极简视频预测世界模型框架，通过统一接口系统研究预测目标、模型规模、动作注入与潜在空间对视频预测质量和长程自回归行为的影响，并完整开源代码、权重与数据。

world modeldiffusion forcing视频预测action conditioninglong-horizon rollout

arXiv:2605.23993

Matrix-Game: Interactive World Foundation Model

Matrix-Game 是一个 170 亿参数的交互式游戏世界基础模型，通过两阶段训练（无标注视频预训练 + 精标动作微调）在 Minecraft 上实现精确的键盘/鼠标帧级控制与高质量视频生成，并提出 GameWorld Score …

world modelinteractive generationdiffusion transformeraction controllabilityautoregressive generation

arXiv:2506.18701

Improved Mean Flows：加速生成模型的挑战与改进

本文提出 iMF，通过将 MeanFlow 训练目标重构为瞬时速度损失、引入灵活的 CFG 条件化和轻量级 in-context conditioning，在 ImageNet 256×256 上实现单步（1-NFE）FID 1.72，…

MeanFlowflow matching单步生成classifier-free guidancevelocity loss

arXiv:2512.02012

Genie: Generative Interactive Environments

Genie 是首个从无标注互联网视频无监督训练的 110 亿参数生成式交互环境基础模型，能够从单张图片或文字提示生成可逐帧交互的虚拟世界，并自动学习离散潜在动作空间以支持智能体训练。

world modelgenerative interactive environmentlatent action modelspatiotemporal transformerMaskGIT

arXiv:2402.15391

Generative Uncertainty in Diffusion Models

提出基于 Laplace 近似的贝叶斯框架，通过语义似然度量化扩散模型每个生成样本的生成不确定性，自动过滤低质量图像，在 ImageNet 上将 UViT 的 FID 从 9.45 提升至 7.89。

Diffusion ModelsGenerative UncertaintyBayesian InferenceLaplace Approximation不确定性估计

arXiv:2502.20946

GameGen-X: Interactive Open-world Game Video Generation

GameGen-X 是首个专为开放世界游戏视频生成与交互控制设计的 Diffusion Transformer 模型，通过两阶段训练（基础模型预训练 + InstructNet 指令微调）和百万级 OGameData 数据集，实现高质量…

game video generationdiffusion transformeropen-world gameinteractive controlInstructNet

arXiv:2411.00769

GameFactory: Creating New Games with Generative Interactive Videos

GameFactory 利用预训练视频扩散模型的开放域生成先验，通过 domain adapter 与四阶段多阶段训练策略将 game style 学习与 action control 解耦，实现跨场景可泛化的键鼠动作控制游戏视频生成，…

游戏视频生成video diffusionaction controlscene generalizationstyle-action decoupling

arXiv:2501.08325

Diffusion Models Are Real-Time Game Engines

GameNGen 是首个完全由神经扩散模型驱动的游戏引擎，在单块 TPU 上以 20 FPS 实时运行 DOOM，人类在长时游玩后无法可靠区分真实画面与模型生成画面（辨别率降至随机水平 50%）。

扩散模型游戏引擎GameNGenDOOM神经渲染

arXiv:2408.14837

Diffusion Model Guided Sampling with Pixel-Wise Aleatoric Uncertainty Estimation

一种无需训练的扩散模型逐像素 aleatoric uncertainty 估计方法，通过对去噪分数施加扰动并计算方差得到不确定性图，并将其用于引导采样，在 ImageNet 和 CIFAR-10 上以仅 20 NFEs（比 BayesD…

diffusion modelaleatoric uncertaintypixel-wise uncertaintyguided samplingFID

arXiv:2412.00205

Cosmos World Foundation Model Platform for Physical AI

NVIDIA Cosmos 是面向 Physical AI 的开源世界基础模型平台，涵盖视频数据处理飞轮、高效视频分词器（连续/离散，速度快 2-12×）、7B/14B 扩散式与 4B-13B 自回归式预训练 WFM，以及机器人操作、自…

world foundation modelPhysical AIvideo generationvideo tokenizerdiffusion model

arXiv:2501.03575

BayesDiff: Estimating Pixel-wise Uncertainty in Diffusion via Bayesian Inference

BayesDiff 通过 Last-Layer Laplace Approximation 与 Uncertainty Iteration Principle，在扩散模型反向生成链中估计逐像素不确定性，实现低质量图像过滤、多样性增强与 …

Diffusion ModelsUncertainty QuantificationBayesian InferenceLaplace ApproximationImage Generation Quality

arXiv:2310.11142

Adversarial Flow Models — 论文海报

本文提出 Adversarial Flow Models（AFM），通过在对抗目标上叠加最优传输正则化损失并引入梯度归一化技术，将 GAN 与 Flow Matching 融合，在 ImageNet 256px 单步图像生成上以 112…

adversarial trainingflow matchingoptimal transport单步图像生成GAN

arXiv:2511.22475

理论与优化 · Theory & Optimization 19

Next-Latent Prediction Transformers Learn Compact World Models

NextLat 在标准 next-token 训练之外增加潜在状态自监督预测，理论证明隐藏状态收敛至 belief states，令 Transformer 学会紧凑世界模型，并在推理速度（3.3×）、规划、推理和语言建模上全面提升，同…

world modelnext-latent predictionbelief statePOMDPspeculative decoding

arXiv:2511.05963

Training Agents using Upside-Down Reinforcement Learning

UDRL 将强化学习「倒置」：不预测值函数，而是将期望奖励与期望步长作为输入命令，用纯监督学习训练行为函数直接映射命令到动作；在多个基准任务上可与甚至超越传统 RL 算法，尤其在稀疏延迟奖励场景下表现突出。

upside-down reinforcement learningUDRLbehavior functionsupervised learning for RLcommand-conditioned policy

arXiv:1912.02877

Soft Actor-Critic Algorithms and Applications

SAC 通过最大熵框架将奖励最大化与熵最大化统一，并引入自动温度（entropy coefficient）调节机制，彻底消除温度超参数的手动调节需求，在 MuJoCo 基准与真实机器人任务上均达到当时最优的样本效率与稳定性。

Soft Actor-Criticmaximum entropy RL最大熵强化学习automatic temperature tuningoff-policy

arXiv:1812.05905

Implicit Quantile Networks for Distributional Reinforcement Learning

IQN 将 QR-DQN 的固定分位点集合扩展为连续量化函数：网络以状态、动作和随机采样的分位数水平 τ 为输入，输出对应的回报分位值，隐式表示完整回报分布，并支持基于 distortion risk measure 的风险敏感策略，在…

distributional RLquantile regressionimplicit quantile networkrisk-sensitive policydistortion risk measure

arXiv:1806.06923

Distributional Reinforcement Learning with Quantile Regression

QR-DQN 将 DQN 从估计单一期望 Q 值扩展到用分位数回归预测回报分布，用等权 Dirac 参数化分位数分布并端到端最小化 Wasserstein 距离，在 57 个 Atari 2600 游戏上以 211% 中位数人类归一化得…

distributional reinforcement learningquantile regressionWasserstein metricDQNvalue distribution

arXiv:1710.10044

Decision Transformer: Reinforcement Learning via Sequence Modeling

Decision Transformer 将强化学习重塑为条件序列生成问题：用 GPT 风格的 Transformer 以 return-to-go 为条件自回归预测动作，完全绕过 TD 学习，在 Atari、D4RL 和稀疏奖励任务上…

Decision Transformeroffline RLsequence modelingreturn-to-go conditioningGPT

arXiv:2106.01345

将智能体分解为感知（VAE）、记忆（MDN-RNN）与控制（CMA-ES 线性层）三模块，世界模型无监督学习环境的压缩时空表示，控制器在”梦境”中训练后迁移到真实环境，首次解决 CarRacing-v0（得分 906±21）并在 Viz…

world models世界模型VAEMDN-RNNCMA-ES

arXiv:1803.10122

Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR

Pion 以两阶段 Promotion+Suppression 高通谱滤波替代 Muon 的均匀谱白化，解决了 Muon 在 VLA 跨模态训练（低秩梯度噪声放大）和 RLVR 后训练（低 SNR 导致模型崩塌）中的根本缺陷，在保持相同…

Muon optimizerPionspectral whiteninghigh-pass filteringVLA training

arXiv:2605.19282

RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation

RLinf 提出宏到微流变换（M2Flow）范式，通过 elastic pipelining 和 context switching 将高层 RL 工作流自动解耦为优化执行计划，在推理型与具身 RL 任务上实现 1.07×–2.43× …

强化学习系统M2Flowelastic pipeliningcontext switchingdistributed RL

arXiv:2509.15965

Model-Based Reinforcement Learning for Atari

SimPLe 提出用视频预测 world model 在 Atari 游戏上实现高样本效率的 model-based RL，仅用 100K 次真实环境交互即在多数游戏上超越 Rainbow 等 model-free 基线，部分游戏样本效…

model-based RLworld modelvideo predictionsample efficiencyAtari

arXiv:1903.00374

Mastering Atari with Discrete World Models

DreamerV2 以离散 categorical 潜变量和 KL balancing 改进世界模型，在 Atari 55 款游戏上首次实现纯粹在世界模型内部学习行为并达到人类水平，单 GPU 超越 Rainbow 和 IQN 等顶级 …

DreamerV2world modeldiscrete representationsRSSMKL balancing

arXiv:2010.02193

Learning What You Can Do Before Doing Anything

CLASP 通过对随机视频预测隐变量施加最小性与可组合性约束，从纯被动视觉观察中学习智能体动作空间，仅需极少量标注数据即可媲美全监督方法完成动作条件视频预测与视觉规划。

无监督动作表征action space learning随机视频预测composabilityinformation bottleneck

arXiv:1806.09655

Learning Latent Action World Models In The Wild

在无动作标注的真实世界视频（YoutubeTemporal-1B）上训练潜在动作世界模型，发现连续约束潜在动作（稀疏化/噪声）优于向量量化，所学潜在动作具有空间局部性和跨视频迁移能力，并可通过轻量级控制器实现与有标注基线相当的机器人规划…

latent action modelworld modelinverse dynamics modelin-the-wild video视频自监督

arXiv:2601.05230

LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

LeWorldModel 提出仅用预测损失与 SIGReg 正则化两个损失项，即可在单 GPU 上从原始像素稳定端到端训练 JEPA 世界模型，规避表征坍塌，并在多个控制任务上以比 DINO-WM 快 48× 的规划速度达到相当性能。

world modelJEPAjoint embedding predictive architecturerepresentation collapselatent planning

arXiv:2603.19312

LeJEPA 何时学到世界模型？

本文为 LeJEPA（对齐损失 + 高斯正则化）建立首个可识别性理论保证，证明在高斯潜变量世界中编码器可从非线性观测线性恢复真实潜变量，且高斯分布是该保证成立的唯一潜变量分布，并在扩展性实验与 DMC 机器人控制任务中验证了线性可识别性…

JEPA世界模型线性可识别性自监督学习Joint-Embedding Predictive Architecture

arXiv:2605.26379

Estimating Epistemic and Aleatoric Uncertainty with a Single Model

HyperDM 将 Bayesian hyper-network 与条件 diffusion model 融合，仅用单个模型通过全方差分解同时估计 epistemic 和 aleatoric 不确定性，在 CT 重建与天气预测任务上以约…

不确定性估计epistemic uncertaintyaleatoric uncertaintydiffusion modelhyper-network

arXiv:2402.03478

Dream to Control: Learning Behaviors by Latent Imagination

Dreamer 是一个基于学习世界模型的强化学习智能体，通过在紧凑潜在状态空间中”想象”未来轨迹并反向传播价值梯度，纯粹用潜在想象学习长视野行为；在 20 个视觉控制任务上以 5×10⁶ 步环境交互超越了需要 10⁸ 步的最强 mode…

world modellatent imaginationmodel-based reinforcement learningactor-criticRSSM

arXiv:1912.01603

Diffusion Transformer 中空间关系生成的电路机制

本文通过机械可解释性方法，首次揭示文生图扩散 Transformer 内部如何借助注意力电路生成正确的空间关系，并发现文本编码器的选择（随机 token 嵌入 vs 预训练 T5）从根本上决定了模型所形成的计算电路结构。

mechanistic interpretabilityDiffusion Transformerspatial relation generationattention circuittext-to-image generation

arXiv:2601.06338

AdaWorld: Learning Adaptable World Models with Latent Actions

AdaWorld 通过自监督从无标注视频中提取 latent action，以此为条件预训练基于扩散的自回归世界模型，实现跨环境高效迁移与极少样本快速适应，在动作迁移、仿真质量和视觉规划任务上全面超越 action-agnostic 基线。

world modellatent actionself-supervised learningvideo predictionvisual planning

arXiv:2503.18938