2026-06-10
Vision-Language-Action (VLA) Models: Concepts, Progress, Applications and Challenges
系统综述80余个VLA模型,覆盖架构创新、训练策略、推理加速及农业/医疗/人形机器人等应用领域,梳理从2022至2025年四个演化阶段,并展望九大未来研究方向。
VLAvision-language-action具身智能机器人操作多模态融合
arXiv:2505.04769
2026-06-10
Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses
首篇系统梳理具身智能全链路安全风险的综述,涵盖558篇论文,建立感知→认知→规划→行动→智能体五层分类体系,揭示对抗攻击、越狱攻击、后门攻击和硬件级攻击的全链路威胁与防御,并指出多模态感知融合脆弱性、越狱攻击下规划不稳定性、开放场景人机…
embodied AI safetyadversarial attacksjailbreak attacksbackdoor attacks具身智能
arXiv:2605.02900
2026-06-10
Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
Qwen-VLA 将操作、导航与轨迹预测统一到单一 VLA 模型,基于 Qwen3.5-4B 骨干和 DiT 流匹配动作解码器,通过形态感知提示和四阶段训练(T2A→CPT→SFT→RL),作为通才策略在 LIBERO(97.9%)、S…
VLA具身智能机器人操作视觉语言导航DiT flow matching
arXiv:2605.30280
2026-06-10
NitroGen: An Open Foundation Model for Generalist Gaming Agents
NitroGen 是在 40,000 小时、1,000+ 款游戏视频上训练的开放式视觉-动作基础模型,通过自动提取手柄动作进行大规模行为克隆,迁移至未见过的游戏时任务完成率最高提升 52%。
游戏智能体行为克隆视觉-动作模型flow matchingdiffusion transformer
arXiv:2601.02427
2026-06-10
GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework for Robot Manipulators
GELLO 通过构建目标机械臂的缩小版运动等效结构,以不到 $300 的成本提供直觉式双臂遥操作体验,在五项任务的用户研究中平均成功率 0.92,显著优于 VR 控制器(0.72)和 SpaceMouse(0.63),并为 Franka…
teleoperationrobot manipulationimitation learningdata collectionDYNAMIXEL
arXiv:2309.13037