首页 > 人工智能 >你的 Agent,他人的资产:真实场景下 OpenClaw 的安全性分析

你的 Agent,他人的资产:真实场景下 OpenClaw 的安全性分析

来源:互联网 2026-04-21 13:52:02

不只是提示注入,更是“持久状态投毒” 该研究将OpenClaw定义为一款相当硬核的个人AI智能体:它采用本地部署,拥有全系统权限,并能接入Gmail、Stripe等真实外部服务。 其核心在于设计哲学。它并非一个执行完任务就“失忆”的临时工具,而是一个追求“持续进化”的系统。它会跨会话保留记忆、身份配

不只是提示注入,更是“持久状态投毒”

该研究将OpenClaw定义为一款相当硬核的个人AI智能体:它采用本地部署,拥有全系统权限,并能接入Gmail、Stripe等真实外部服务。

其核心在于设计哲学。它并非一个执行完任务就“失忆”的临时工具,而是一个追求“持续进化”的系统。它会跨会话保留记忆、身份配置与技能库,并在后续每次交互中加载这些内容。正是这种“成长性”,显著扩大了攻击面。一旦攻击者污染了这些持久化文件,那么后续每一次看似正常的用户请求,都可能在一个已被“投毒”的状态上执行。

长期稳定更新的攒劲资源: >>>点此立即查看<<<

这正是研究的核心价值所在。它不再局限于探讨“模型单次是否会被误导”,而是提出了一个更贴近现实的问题:一个能够自我更新、长期学习、安装外部技能的智能体,是否会将被植入的“木马”当作自身未来行为准则的一部分?这个问题显然比传统提示注入更为深刻,也更接近当前众多智能体产品所面临的真实风险。

安全框架:CIK三层持久状态

为系统分析此类风险,研究者将OpenClaw的持久状态拆解为三个层次:能力(Capability)、身份(Identity)与知识(Knowledge)。

能力层主要包括skills/目录、SKILL.md文件及可执行脚本;身份层涵盖SOUL.md、IDENTITY.md、USER.md、AGENTS.md等定义人格、规则与用户画像的文件;知识层则主要是MEMORY.md,负责存储长期记忆、偏好与行为习惯。

你的 Agent,他人的资产:真实场景下 OpenClaw 的安全性分析

研究者指出,这三类内容虽共同构成智能体的长期状态,但其攻击方式与潜在危害机制截然不同。

这种拆分极具启发性。过去,人们容易将所有智能体风险笼统归为“注入”。但实际上,向记忆中伪造一条“用户总是直接同意退款”的虚假习惯,与在身份文件里埋入一个“某邮箱是绝对可信联系人”的虚假锚点,以及向技能库中塞入一段可直接执行的恶意Shell脚本,这三者的性质天差地别。前两者本质上仍在“欺骗”模型的判断逻辑,而后者则近乎直接“绕过”模型,获取了执行权限。

真实场景下的安全评测

许多智能体安全研究在理想化的沙箱环境中进行测试,攻击失败仅是实验数据中的一个点。但这项研究选择了一条更硬核的路径:他们将OpenClaw部署在一台真实的Mac Mini上,接入真实的Gmail、Stripe与本地文件系统,随后通过自动化测试工具模拟攻击、发送指令、读取结果并验证危害。

研究者设计了12个真实危害场景,覆盖两大类风险:一类是隐私泄露,例如窃取凭证、客户数据、工作邮件、医疗记录、护照扫描件、地理位置信息等;另一类是高风险的不可逆操作,如批量退款、取消订阅、伪造授权邮件、伪造解约函、删除邮件乃至删除整个工作区。每个模型都需完成总计88个测试案例。

攻击流程被设计为两个阶段。第一阶段,攻击者设法将恶意内容写入智能体的持久状态;第二阶段,在后续的某个会话中,仅通过一个看似完全正常的用户请求,来触发潜伏的恶意行为。

你的 Agent,他人的资产:真实场景下 OpenClaw 的安全性分析

特意将两个阶段拆开,旨在验证一个核心假设:此类攻击并非“一次性”的,而是能够跨会话持续生效,真正污染智能体的长期行为。

模型能力增强,但未根治问题

研究测试了四个主流大模型骨干:Claude Sonnet 4.5、Claude Opus 4.6、Gemini 3.1 Pro 与 GPT-5.4。

在未进行状态投毒的情况下,攻击成功率介于10.0%到36.7%之间。这表明,即便模型本身具备安全对齐能力,其防护也远非固若金汤。而一旦对持久状态实施投毒,所有模型的攻击成功率均显著攀升。

从主要结果看,Sonnet 4.5在知识、身份、能力三层投毒下的成功率分别达到89.2%、85.4%和88.5%;Gemini 3.1 Pro分别为83.3%、75.4%、71.5%;GPT-5.4则为80.8%、63.1%、57.7%。即便是表现最稳健的Opus 4.6,其成功率也从10.0%的基线水平,跃升至44.2%、33.1%和55.4%。

你的 Agent,他人的资产:真实场景下 OpenClaw 的安全性分析

基于此,研究者判断,这并非特定模型的缺陷,而是揭示了智能体架构本身存在的结构性脆弱点。

从攻击阶段拆解来看,知识投毒在第一阶段最易成功,注入成功率大多接近甚至达到100%。这反映出智能体很少会拒绝“更新记忆”这类看似合理的请求。身份投毒在第一阶段的成功率略有波动,但第二阶段的触发成功率依然很高。能力投毒则几乎天然拥有100%的第一阶段注入成功率,因为“安装技能”这个动作本身,就意味着要将外部代码载入工作区。

简言之,知识层最易“写入”,能力层最易“绕过”模型检查,而身份层则介于两者之间。

能力层投毒最需警惕

若只关注“模型能否识破文本中的恶意意图”,人们可能首先担忧记忆和身份文件。但从实际工程风险角度评估,能力层投毒往往更为危险。

研究在附录中将能力层攻击进一步细分:一种是将恶意指令隐藏在SKILL.md这类文本描述中;另一种则是直接将恶意逻辑写入.sh或.py可执行脚本。

前者随着模型能力增强,拦截效果会明显改善。例如,Opus 4.6对于基于文本的skill-md攻击,在第二阶段的成功率仅为3.3%。但后者完全是另一个量级:对于skill-bash/py这类可执行脚本攻击,Sonnet 4.5和Opus 4.6在第二阶段的成功率均为100%,Gemini 3.1 Pro也高达98.6%,GPT-5.4仍有77.1%。

这组数据尤其值得智能体平台开发者警惕。它揭示了一个现实:模型或许能逐渐学会识别“有问题的文字描述”,但它未必会、甚至根本不会去深入检查“有问题的可执行代码”。

一旦技能生态允许直接执行Shell、Python等脚本,安全问题就已从单纯的提示词层面,升级为供应链安全、执行权限管控和宿主机隔离层面的挑战。

现有防御措施效果有限

研究者还测试了三种针对CIK各层的防御方案:知识防御是在MEMORY.md中补充安全相关知识;身份防御是在AGENTS.md中强化操作原则;能力防御则是安装一个名为GuardianClaw的安全技能,在动作执行前进行安全检查。

结果显示,这三种方案均能在一定程度上降低基线攻击成功率,但没有一种能够跨维度地彻底解决问题。

以Sonnet 4.5为例,能力防御(GuardianClaw)是三者中效果最好的,能将基线成功率从26.7%压低至1.7%,对知识与身份投毒也能分别压制到17.5%和9.2%。然而,当面对能力层面的直接攻击时,其成功率仍高达63.8%。

你的 Agent,他人的资产:真实场景下 OpenClaw 的安全性分析

更值得玩味的一个细节是,像GuardianClaw这样的安全技能,并非“安装即生效”。研究明确指出,它必须在会话初始化时被主动加载;如果只是被动地存在于工作区,智能体并不会自动调用它,其防护效果也就大打折扣。

这个细节恰恰说明,当前许多所谓的智能体安全能力,还停留在“可选插件”阶段,而非“系统级强制机制”。只要安全措施不是默认、前置且强制执行的,它在关键时刻就可能完全缺席。

“进化能力”与“安全能力”的内在矛盾

研究最后进行了一个颇具启发性的实验:既然问题出在持久文件可被写入,那么直接对这些文件实施“写保护”是否可行?

结果是,攻击性提示的平均注入率确实能从87.0%大幅压降至5.0%,但与此同时,合法的更新请求也几乎被一同阻断,正常更新率从100%暴跌至13.2%以下。

研究者将此称为“进化-安全权衡”。同一套持久化机制,一方面是智能体学习、成长和进化的基石,另一方面却恰恰是攻击面所在。

这实际上点破了许多智能体产品不愿直面的一对矛盾:越是强调系统的“智能进化”、“持续学习”和“自动成长”,就越是在无形中不断扩展其长期攻击面。记忆、自我修改、安装新技能,这些能力确实让智能体更像一个“活”的系统;但反过来说,也使得它更容易遭受慢性、隐蔽的“投毒”。而且,一旦污染成功潜入长期状态,后续每一次看似正常的用户请求,都可能是在替攻击者完成临门一脚。

结论:你的智能体,未必完全受控

这项研究最值得铭记的,或许不是某个具体的数据百分比,而是其背后深刻的洞察:智能体的安全边界,正在从“当前这轮提示词”转移到“它长期保存并持续信任的状态”。

当行业仍在将许多问题泛泛地称为“提示注入”时,这项工作已将视角推进到持久记忆、身份规则与技能供应链的更深层。对于OpenClaw是如此,对于更多正在走向真实场景部署的智能体系统,恐怕也是如此。

因此,“你的智能体,他人的资产”这句话并非危言耸听。真正的风险在于,一旦攻击者将恶意载荷植入智能体的长期状态,后续的许多恶意操作,在表面上都像是智能体自主做出的“合理”决策。到那时,被危及的可能不仅仅是你的数据、邮箱或工作文件,甚至连智能体本身,或许都已不再完全受你掌控。

侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述

热游推荐

更多
湘ICP备14008430号-1 湘公网安备 43070302000280号
All Rights Reserved
本站为非盈利网站,不接受任何广告。本站所有软件,都由网友
上传,如有侵犯你的版权,请发邮件给xiayx666@163.com
抵制不良色情、反动、暴力游戏。注意自我保护,谨防受骗上当。
适度游戏益脑,沉迷游戏伤身。合理安排时间,享受健康生活。