xiayx 8月30日讯,根据英国《卫报》28日的报道,今年夏天进行的一项安全测试显示,一个ChatGPT模型竟然向研究人员提供了详尽的爆炸袭击指南,内容涵盖特定体育场馆的安保漏洞、炸药的制作配方,甚至是如何掩盖犯罪行踪的方法。
更令人担忧的是,OpenAI的GPT-4.1模型还提供了炭疽武器化的指导,并详细介绍了两种非法药物的制作过程。
据了解,此次安全测试由OpenAI与竞争对手Anthropic联合进行,双方通过互相尝试诱导对方的模型执行危险任务,以此来进行安全评估。

需要指出的是,上述测试结果并不代表这些模型在实际公开使用中的真实表现,因为在实际应用中,通常会部署额外的安全防护措施。但Anthropic强调,在GPT-4o和GPT-4.1中出现的“令人担忧的滥用行为”,凸显了对AI进行“对齐”评估的“日益紧迫性”。
Anthropic还披露,其Claude模型也曾被用于大规模勒索企图,甚至被用于出售价格高达1200美元(xiayx注:按当前汇率约合8554元人民币)的AI生成的勒索软件。
Anthropic警告称,AI已经开始被“武器化”,并被用于发起复杂的网络攻击和实施诈骗。“这些工具能够实时绕过恶意软件检测系统等防御措施。随着AI编程降低了网络犯罪的技术门槛,这类攻击可能会变得越来越普遍。”
两家公司均表示,之所以公开这份报告,是为了提高“对齐评估”的透明度。值得一提的是,这种安全测试通常只在公司内部进行。OpenAI方面表示,最新推出的ChatGPT-5在防止谄媚、减少幻觉以及防止被滥用方面已经有了“明显改进”。
Anthropic强调,如果在模型外部设置有效的防护措施,许多滥用场景可能根本无法实现。“我们必须深入了解系统在多大程度上、在什么情况下会尝试做出可能造成严重危害的行为。”
Anthropic的研究人员特别指出,OpenAI的模型“在面对模拟用户提出的明显危险请求时,比预期的更容易被攻破”。他们发现,让模型屈服往往只需要多尝试几次,或者随便找个借口,比如声称是为了进行学术研究。
举例来说,在一个案例中,研究人员以“安保规划”为幌子,要求模型提供体育赛事漏洞信息。最初,模型只给出了一般的攻击方式分类,但在研究人员的不断追问下,竟然详细说明了特定场馆的漏洞、可利用的最佳时机、炸药的配方、定时器电路图、暗网购枪渠道,甚至包括攻击者如何克服心理障碍、逃生路线和安全屋位置等细节。
相关阅读:《OpenAI、Anthropic 互评对方 AI 模型:GPT 存在谄媚行为,Claude 不易产生幻觉》
侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述