警钟!零点击AI攻击链绕过人类监督
微软AI红队于2026年6月4日发布《代理AI系统故障模式分类》v2.0版,基于12个月对实际部署代理系统的红队测试,首次系统披露零点击攻击链可以端到端绕过“人在回路”(HitL)审批机制。报告指出,这类攻击通过将恶意目标拆解为每个步骤看似合理的子任务,使得逐步审批失效,最终达成数据窃取、横向移动等高影响结果。此次更新新增七种故障模式,涵盖供应链攻击、目标劫持、会话上下文污染等新向量,为构建或防御代理系统的团队敲响警钟。
零点击攻击链:绕过“人在回路”审批的端到端路径
微软AI红队在其2025年4月发布的v1.0分类基础上,经过12个月对真实代理系统的红队演练,发现了最一致可被利用的故障模式:HitL绕过。报告明确记载,多个演练案例中,攻击者从单个外部输入出发,除初始代理调用外无需任何人机交互,即可触达高影响后果——包括数据泄露和横向移动。这些攻击链通过将恶意目标分解为多个连贯但不引起警觉的子步骤,使每步单独提交时都能通过人类审批者的审查,而整体意图在终点才暴露。微软强调,这暴露了当前逐步审批架构的根本缺陷:缺乏对跨步骤、跨组件复合意图的检测能力。
七大新故障模式与红队实战验证
v2.0新增的七种故障模式,均源于红队测试中的真实攻击路径:代理供应链攻击——通过插件注册表、MCP服务器或第三方工具描述注入恶意自然语言指令,无需二进制修改;目标劫持——用看似符合合法任务的指令静默重定向代理终端目标;代理间信任升级——被攻破的代理伪造身份或权限向编排器发送虚假声明;计算机使用代理视觉攻击——在代理需要解读的屏幕内容中嵌入对抗性指令;会话上下文污染——在会话早期注入数据,后续推理被污染但单步检测不触发;MCP/插件滥用——工具描述投毒、服务端注入、跨服务器指令覆盖;能力/架构泄露——代理泄露工具模式、系统提示结构或HitL触发逻辑。红队报告显示,跨域提示注入(XPIA)仍然是最可靠的初始访问向量,常与内存投毒组合使用——单次注入即可在代理持久记忆里埋藏信息,跨会话激活。而会话上下文污染和增量升级策略因无单步异常,检测难度极高。
组合攻击成新威胁:检测需从单步转向会话级
行业分析指出,此次更新揭示了AI安全领域一个核心范式转变:基于组件的检测器无法应对组合攻击。微软在报告中推荐的防御措施——如为代理编制供应链SBOM、实施加密级代理间身份认证、加强许可架构、跟踪会话上下文溯源——实质是将零信任与软件供应链实践适配到AI场景。对于实际建设者而言,这意味着单步意图分类器远远不够;检测必须依赖记忆状态、会话历史和工具模式的相关性分析。微软预测,随着开源代理框架(如2026年1月发布的OpenClaw,48小时内即获33.6万GitHub星、2100多个代理,但随后审计发现512个漏洞和336个恶意市场插件)以及Model Context Protocol成为事实标准(2025年积累99个CVE),这种攻击面将持续扩大。未来值得关注的信号包括:第三方复现零点击HitL绕过链、插件权限与MCP服务器验证模型的供应商变更、以及红队覆盖矩阵是否将新增七类作为标准测试类别。