xiayx 8月28日讯,据Engadget今日报道,OpenAI与Anthropic宣布达成合作,双方将共同评估彼此公开AI系统的安全对齐情况,并共享分析结果。整体而言,两家公司的产品各有优劣,同时也为未来安全测试的改进提供了新思路。

Anthropic表示,他们评估了OpenAI模型在谄媚、告密、自我保护、支持人类滥用,以及破坏AI安全评估和监管相关能力等方面的表现。评估结果显示,OpenAI的o3和o4-mini模型与Anthropic自家模型表现相近,但GPT-4o和GPT-4.1通用模型可能存在被滥用的风险。除o3外,其他被测模型在一定程度上都存在谄媚行为。
值得注意的是,Anthropic的测试并未包含OpenAI最新发布的GPT-5。据悉,GPT-5配备了Safe Completions功能,旨在保护用户和公众免受潜在危险查询的影响。另据xiayx近期报道,OpenAI曾因一名青少年在数月内与ChatGPT讨论自杀计划后自杀,而面临首起不当死亡诉讼。
另一方面,OpenAI对Anthropic的Claude模型进行了指令层级、越狱、幻觉和策划能力测试。结果显示,Claude模型在指令层级测试中表现出色,并且在幻觉测试中,拒绝提供回答的比例较高。这意味着在不确定性可能导致其回答出错的情况下,Claude更倾向于不给出答案。
此前,OpenAI曾被指控在构建新GPT模型时违反Anthropic的服务条款,使用程序员操作Claude,导致Anthropic在本月初禁止OpenAI使用其工具。在此背景下,两家公司开展联合评估的举措备受关注。随着越来越多的批评者和法律专家呼吁制定保护用户(特别是未成年人)的指导方针,AI工具的安全性正日益成为一个重要议题。
参考:
Anthropic 报告
OpenAI 报告
侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述