Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses

01 动机 · Motivation

具身智能正快速进入交通、医疗、工业与辅助机器人等高风险领域。与数字AI不同，具身智能体在不确定感知、不完整知识和动态人机交互下行动，一旦出现故障可直接导致物理伤害。然而，当前安全研究高度碎片化——针对视觉感知、语言模型、规划器、硬件传感器的工作分散在不同社区，缺乏统一框架。

"Unlike digital AI systems, embodied agents must act under uncertain sensing, incomplete knowledge, and dynamic human-robot interactions, where failures can directly lead to physical harm."

Embodied AI Safety Survey Banner — 具身智能安全综述总览图：涵盖感知、认知、规划、行动交互和智能体系统五个层面的攻击与防御研究，共综合分析558篇论文。

558综述论文总数

5能力层（taxonomy layers）

18子类别（subcategories）

38合著者（14所机构）

核心洞察是"能力与风险的二元性"（capability vs. risk duality）：随着具身系统自主性增强，其攻击面也按比例扩大，且漏洞可跨层级级联传播。例如，感知层的对抗扰动可导致认知层产生错误的世界模型，进而引发规划层生成危险轨迹，最终导致有害的物理行为。

02 分类体系 · Taxonomy

本综述提出一套多层分类体系（multi-level taxonomy），将具身智能安全研究统一组织为五个能力层，每层涵盖若干子类，并系统梳理各层的攻击手段与防御方法。

Survey Taxonomy Structure — 五层分类体系结构图：从感知（Perception）到认知（Cognition）、规划（Planning）、行动与交互（Action & Interaction）、智能体系统（Agentic Systems），每层列出主要攻击类型与防御策略，共涵盖558篇论文。

Layer 1 · 感知安全（Perception）— 199 篇

感知层是具身智能体与物理世界交互的第一道关口，也是当前研究最密集的领域（199篇）。子类别包括：

视觉攻击（Visual）：对抗补丁（adversarial patches）、纹理扰动、对抗性3D物体（58篇）
听觉攻击（Auditory）：针对语音指令和音频信号的对抗样本（21篇）
空间攻击（Spatial）：针对深度估计、点云和3D感知的扰动（61篇）
运动攻击（Motion）：针对目标跟踪和光流估计的对抗扰动（48篇）
跨模态攻击（Cross-Modal）：利用视觉-语言对齐的漏洞（11篇）

感知融合的脆弱性是最被忽视的挑战之一：多传感器融合系统（如视觉+LiDAR）在单模态防御下仍可被跨模态攻击绕过。

Layer 2 · 认知安全（Cognition）— 38 篇

认知层涵盖指令理解（instruction understanding）、世界模型（world models）和推理（reasoning）的安全漏洞。大语言模型（LLM）和视觉语言动作模型（VLA）在此层面面临prompt injection、幻觉（hallucination）利用等独特威胁。

Layer 3 · 规划安全（Planning）— 80 篇

规划层涵盖任务规划（task planning）、轨迹规划（trajectory planning）和多智能体协调（multi-agent coordination）的安全问题。越狱攻击（jailbreak attacks）对规划系统的不稳定性尤为突出——攻击者可通过精心设计的指令诱导智能体执行危险动作序列。

Layer 4 · 行动与交互安全（Action & Interaction）— 112 篇

此层聚焦机器人控制（robot control）、人机交互（human-agent interaction）和协作（collaboration）安全。开放场景下的人机交互可信度问题（trustworthiness of human-agent interaction in open-ended scenarios）是当前最紧迫的研究缺口之一。

Layer 5 · 智能体系统安全（Agentic Systems）— 96 篇

随着具身智能体获得工具使用（tool use）、记忆（memory）和自演化（self-evolving）能力，新的系统级风险涌现，包括跨系统的级联风险（cascading risks）和供应链攻击。

Survey Overview Diagram — 综述全局概览图：展示具身智能安全研究的攻击类型（adversarial, backdoor, jailbreak, hardware-level）与防御手段（attack detection, safe training, robust inference, risk-aware interaction）在五层体系中的分布，以及与视觉、语言、多模态基础模型进展的关联。

防御方法总结

主动防御（Proactive）

Safe training：对抗训练（adversarial training）、后门净化（backdoor purification）、安全强化学习
Robust inference：推理时平滑（randomized smoothing）、输入净化（input purification）、集成防御

被动检测（Reactive）

Attack detection：异常检测、后门触发器识别、越狱意图分类
Risk-aware interaction：人在环路确认（human-in-the-loop）、风险感知规划、安全约束动作生成

03 研究现状分析 · Research Landscape

本综述通过系统收集与分类558篇论文，揭示了具身智能安全领域的研究分布、空白与三大被忽视的核心挑战。

能力层	论文数量	主要攻击类型	研究成熟度
感知（Perception）	199	对抗样本、传感器欺骗	较成熟
行动与交互（Action & Interaction）	112	控制劫持、人机交互操控	发展中
智能体系统（Agentic Systems）	96	工具滥用、级联风险	新兴
规划（Planning）	80	越狱攻击、轨迹毒化	发展中
认知（Cognition）	38	prompt injection、幻觉利用	早期
其他相关工作	33	综述、模型、基准	—

三大被忽视的核心挑战

综述明确指出当前领域存在三个严重被低估的研究缺口（verbatim from paper）：

"The fragility of multimodal perception fusion, the instability of planning under jailbreak attacks, and the trustworthiness of human–agent interaction in open-ended scenarios."

多模态感知融合的脆弱性

现有对抗防御大多针对单一模态（图像或点云），而多传感器融合系统在面对跨模态协同攻击时防御能力严重不足。例如，视觉-LiDAR融合的自动驾驶系统可被针对两个模态不一致性设计的攻击轻易绕过单模态防御。

越狱攻击下规划的不稳定性

基于LLM/VLA的任务规划器对越狱攻击高度敏感。攻击者可通过精心构造的自然语言指令绕过安全约束，诱导智能体执行本不应执行的危险动作，且防御手段明显滞后于攻击方法的演进速度。

开放场景下人机交互的可信度

在复杂、开放的真实场景中，人机交互（human-agent interaction）面临身份欺骗、意图误判和社会工程学攻击等独特挑战。现有研究大多在受控环境中进行，缺乏对开放世界动态条件下人机信任机制的系统性研究。

主要攻击类型分布

攻击类型	典型手段	主要威胁层
对抗攻击（Adversarial Attacks）	对抗补丁、L∞扰动、物理对抗样本	感知层
后门攻击（Backdoor Attacks）	数据投毒、触发器嵌入、供应链污染	感知 + 认知层
越狱攻击（Jailbreak Attacks）	prompt injection、越狱模板、多轮诱导	认知 + 规划层
硬件级攻击（Hardware-level）	GPS欺骗、LiDAR干扰、MEMS声学注入	感知 + 行动层

研究缺口与开放问题

综述识别了多个关键研究空白：

跨层级级联攻击（cross-layer cascading attacks）的系统性建模方法缺失
具身AI专用安全评估基准（safety benchmark）匮乏，现有基准多来自数字AI领域
物理世界中的可迁移性：数字空间的对抗样本在真实物理环境中的有效性和防御策略尚不明确
安全与性能的权衡（safety-capability tradeoff）缺乏统一的理论框架

04 局限性 · Limitations

Note: 本综述未设独立局限性章节。以下各点综合作者明确说明（stated）与从研究设计推断（inferred）的内容，并逐条标注。

覆盖范围的主观性（inferred）

尽管收录了558篇论文，综述的论文遴选标准和分类边界不可避免地带有主观性。部分跨学科工作（如自动驾驶安全、医疗机器人伦理）可能被归入或排除在外，读者需结合各子领域的专门综述使用本文。

快速演进导致的时效性问题（inferred）

具身AI安全领域发展极为迅速，新攻击手段（尤其是针对VLA和多模态LLM的越狱攻击）层出不穷。综述内容（截至2026年5月修订）可能在数月内即出现显著新工作，需定期更新配套的 Awesome列表才能保持时效性。

防御方法的实际部署评估不足（inferred）

综述中大多数防御方法在受控实验环境中验证，其在真实物理部署条件下（传感器噪声、计算资源限制、实时性要求）的有效性和鲁棒性尚缺乏系统性评估。从实验室防御到实际部署之间的"最后一公里"问题是关键研究缺口。

认知层研究相对薄弱（stated + inferred）

认知层（Cognition）仅收录38篇论文，是五层中最薄弱的。综述本身也承认，针对具身智能体世界模型和推理模块的安全研究是目前最欠缺的方向之一，呼吁未来工作在此方向加大投入。