arXiv 2605.02900 · Survey · 2026

Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses

具身智能安全综述:风险、攻击与防御
Xiao Li, Xiang Zheng, Yifeng Gao et al. (38 authors, 14 institutions)

具身智能(Embodied AI)将感知、认知、规划与交互集成于在开放世界中自主运作的智能体。 本综述系统梳理了500余篇论文,构建了从感知→认知→规划→行动交互→智能体系统的五层分类体系, 揭示了对抗攻击、后门攻击、越狱攻击和硬件级攻击的全链路风险与防御手段, 为建造"能力强且安全可靠"的具身智能体提供路线图。

arXiv 2026 · Survey 558 papers synthesized 5-layer taxonomy · 18 subcategories 📄 arXiv:2605.02900 🌐 Project Page
embodied AI safety adversarial attacks jailbreak attacks backdoor attacks 具身智能 robot security perception attacks multi-level taxonomy VLA safety 安全综述

01 动机 · Motivation

具身智能正快速进入交通、医疗、工业与辅助机器人等高风险领域。与数字AI不同,具身智能体在不确定感知、不完整知识和动态人机交互下行动,一旦出现故障可直接导致物理伤害。 然而,当前安全研究高度碎片化——针对视觉感知、语言模型、规划器、硬件传感器的工作分散在不同社区,缺乏统一框架。

"Unlike digital AI systems, embodied agents must act under uncertain sensing, incomplete knowledge, and dynamic human-robot interactions, where failures can directly lead to physical harm."
Embodied AI Safety Survey Banner
具身智能安全综述总览图:涵盖感知、认知、规划、行动交互和智能体系统五个层面的攻击与防御研究,共综合分析558篇论文。
558综述论文总数
5能力层(taxonomy layers)
18子类别(subcategories)
38合著者(14所机构)

核心洞察是"能力与风险的二元性"(capability vs. risk duality):随着具身系统自主性增强,其攻击面也按比例扩大,且漏洞可跨层级级联传播。 例如,感知层的对抗扰动可导致认知层产生错误的世界模型,进而引发规划层生成危险轨迹,最终导致有害的物理行为。

Capability vs Risk Duality
能力与风险二元性示意图:随着具身AI能力提升(自主性、多模态感知、开放世界交互),相应的安全风险也按层级扩大,包括对抗攻击、越狱攻击和硬件级威胁。

02 分类体系 · Taxonomy

本综述提出一套多层分类体系(multi-level taxonomy),将具身智能安全研究统一组织为五个能力层,每层涵盖若干子类,并系统梳理各层的攻击手段与防御方法。

Survey Taxonomy Structure
五层分类体系结构图:从感知(Perception)到认知(Cognition)、规划(Planning)、行动与交互(Action & Interaction)、智能体系统(Agentic Systems),每层列出主要攻击类型与防御策略,共涵盖558篇论文。

Layer 1 · 感知安全(Perception)— 199 篇

感知层是具身智能体与物理世界交互的第一道关口,也是当前研究最密集的领域(199篇)。 子类别包括:

感知融合的脆弱性是最被忽视的挑战之一:多传感器融合系统(如视觉+LiDAR)在单模态防御下仍可被跨模态攻击绕过。

Layer 2 · 认知安全(Cognition)— 38 篇

认知层涵盖指令理解(instruction understanding)、世界模型(world models)和推理(reasoning)的安全漏洞。 大语言模型(LLM)和视觉语言动作模型(VLA)在此层面面临prompt injection、幻觉(hallucination)利用等独特威胁。

Layer 3 · 规划安全(Planning)— 80 篇

规划层涵盖任务规划(task planning)、轨迹规划(trajectory planning)和多智能体协调(multi-agent coordination)的安全问题。 越狱攻击(jailbreak attacks)对规划系统的不稳定性尤为突出——攻击者可通过精心设计的指令诱导智能体执行危险动作序列。

Layer 4 · 行动与交互安全(Action & Interaction)— 112 篇

此层聚焦机器人控制(robot control)、人机交互(human-agent interaction)和协作(collaboration)安全。 开放场景下的人机交互可信度问题(trustworthiness of human-agent interaction in open-ended scenarios)是当前最紧迫的研究缺口之一。

Layer 5 · 智能体系统安全(Agentic Systems)— 96 篇

随着具身智能体获得工具使用(tool use)、记忆(memory)和自演化(self-evolving)能力,新的系统级风险涌现,包括跨系统的级联风险(cascading risks)和供应链攻击。

Survey Overview Diagram
综述全局概览图:展示具身智能安全研究的攻击类型(adversarial, backdoor, jailbreak, hardware-level)与防御手段(attack detection, safe training, robust inference, risk-aware interaction)在五层体系中的分布,以及与视觉、语言、多模态基础模型进展的关联。

防御方法总结

主动防御(Proactive)

  • Safe training:对抗训练(adversarial training)、后门净化(backdoor purification)、安全强化学习
  • Robust inference:推理时平滑(randomized smoothing)、输入净化(input purification)、集成防御

被动检测(Reactive)

  • Attack detection:异常检测、后门触发器识别、越狱意图分类
  • Risk-aware interaction:人在环路确认(human-in-the-loop)、风险感知规划、安全约束动作生成

03 研究现状分析 · Research Landscape

本综述通过系统收集与分类558篇论文,揭示了具身智能安全领域的研究分布、空白与三大被忽视的核心挑战。

能力层论文数量主要攻击类型研究成熟度
感知(Perception)199对抗样本、传感器欺骗较成熟
行动与交互(Action & Interaction)112控制劫持、人机交互操控发展中
智能体系统(Agentic Systems)96工具滥用、级联风险新兴
规划(Planning)80越狱攻击、轨迹毒化发展中
认知(Cognition)38prompt injection、幻觉利用早期
其他相关工作33综述、模型、基准

三大被忽视的核心挑战

综述明确指出当前领域存在三个严重被低估的研究缺口(verbatim from paper):

"The fragility of multimodal perception fusion, the instability of planning under jailbreak attacks, and the trustworthiness of human–agent interaction in open-ended scenarios."

多模态感知融合的脆弱性

现有对抗防御大多针对单一模态(图像或点云),而多传感器融合系统在面对跨模态协同攻击时防御能力严重不足。 例如,视觉-LiDAR融合的自动驾驶系统可被针对两个模态不一致性设计的攻击轻易绕过单模态防御。

越狱攻击下规划的不稳定性

基于LLM/VLA的任务规划器对越狱攻击高度敏感。攻击者可通过精心构造的自然语言指令绕过安全约束,诱导智能体执行本不应执行的危险动作,且防御手段明显滞后于攻击方法的演进速度。

开放场景下人机交互的可信度

在复杂、开放的真实场景中,人机交互(human-agent interaction)面临身份欺骗、意图误判和社会工程学攻击等独特挑战。 现有研究大多在受控环境中进行,缺乏对开放世界动态条件下人机信任机制的系统性研究。

主要攻击类型分布

攻击类型典型手段主要威胁层
对抗攻击(Adversarial Attacks)对抗补丁、L∞扰动、物理对抗样本感知层
后门攻击(Backdoor Attacks)数据投毒、触发器嵌入、供应链污染感知 + 认知层
越狱攻击(Jailbreak Attacks)prompt injection、越狱模板、多轮诱导认知 + 规划层
硬件级攻击(Hardware-level)GPS欺骗、LiDAR干扰、MEMS声学注入感知 + 行动层

研究缺口与开放问题

综述识别了多个关键研究空白:

04 局限性 · Limitations

Note: 本综述未设独立局限性章节。以下各点综合作者明确说明(stated)与从研究设计推断(inferred)的内容,并逐条标注。
覆盖范围的主观性(inferred)

尽管收录了558篇论文,综述的论文遴选标准和分类边界不可避免地带有主观性。 部分跨学科工作(如自动驾驶安全、医疗机器人伦理)可能被归入或排除在外,读者需结合各子领域的专门综述使用本文。

快速演进导致的时效性问题(inferred)

具身AI安全领域发展极为迅速,新攻击手段(尤其是针对VLA和多模态LLM的越狱攻击)层出不穷。 综述内容(截至2026年5月修订)可能在数月内即出现显著新工作,需定期更新配套的 Awesome列表才能保持时效性。

防御方法的实际部署评估不足(inferred)

综述中大多数防御方法在受控实验环境中验证,其在真实物理部署条件下(传感器噪声、计算资源限制、实时性要求)的有效性和鲁棒性尚缺乏系统性评估。 从实验室防御到实际部署之间的"最后一公里"问题是关键研究缺口。

认知层研究相对薄弱(stated + inferred)

认知层(Cognition)仅收录38篇论文,是五层中最薄弱的。 综述本身也承认,针对具身智能体世界模型和推理模块的安全研究是目前最欠缺的方向之一, 呼吁未来工作在此方向加大投入。