据科技媒体bleepingcomputer昨日(8月25日)报道,Trail of Bits的研究人员发现了一种新的AI攻击方式。攻击者可以将恶意指令藏匿于高分辨率图片中,这些指令在AI系统进行自动降采样处理后会显现出来,并被大型语言模型(LLM)识别为指令执行,从而可能导致用户数据被窃取。
这种攻击方法由Trail of Bits的Kikimora Morozova和Suha Sabi Hussain提出,其灵感来源于2020年德国布伦瑞克工业大学提出的图像缩放攻击理论。攻击者首先将肉眼难以察觉的指令嵌入高分辨率图片中,然后利用AI系统的降采样算法使这些隐藏的指令显现。
正如xiayx引用的博文所述,为了节省性能和成本,AI平台通常会对用户上传的图片进行自动降采样处理。目前主流的图像重采样算法包括最近邻、双线性、双三次插值等。
攻击者可以针对特定的算法设计图片,使得隐藏的色块在降采样后形成可识别的文字。例如,在Trail of Bits的案例中,图片中的深色区域经过双三次降采样后会变成红色,并显现出黑色的文字。

一旦这些文字显现,AI模型就会将其视为用户输入的一部分,并结合正常的指令一起执行,从而可能引发数据泄露或其他具有风险的操作。研究人员在Gemini CLI环境中,利用这一漏洞,在Zapier MCP的“trust=True”模式下,未经用户确认就提取了Google日历数据,并将其发送到指定的邮箱。
据称,该方法已在多个平台上测试有效,包括Google Gemini CLI、Vertex AI Studio(Gemini后端)、Gemini网页与API接口、安卓手机上的Google Assistant以及Genspark。
此外,研究团队还发布了一款名为Anamorpher(测试版)的开源工具,该工具可以生成针对不同降采样方法的攻击图片,这表明此类攻击的潜在威胁范围可能远超目前已验证的工具。
侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述