首页 > 人工智能 >OpenAI、Anthropic 互评对方 AI 模型:GPT 存在谄媚行为,Claude 不易产生幻觉

OpenAI、Anthropic 互评对方 AI 模型:GPT 存在谄媚行为,Claude 不易产生幻觉

来源:ithome 2025-08-28 10:03:50

xiayx 8月28日讯,据Engadget今日报道,OpenAI与Anthropic宣布达成合作,双方将共同评估彼此公开AI系统的安全对齐情况,并共享分析结果。整体而言,两家公司的产品各有优劣,同时也为未来安全测试的改进提供了新思路。

OpenAI、Anthropic 互评对方 AI 模型:GPT 存在谄媚行为,Claude 不易产生幻觉

Anthropic表示,他们评估了OpenAI模型在谄媚、告密、自我保护、支持人类滥用,以及破坏AI安全评估和监管相关能力等方面的表现。评估结果显示,OpenAI的o3和o4-mini模型与Anthropic自家模型表现相近,但GPT-4o和GPT-4.1通用模型可能存在被滥用的风险。除o3外,其他被测模型在一定程度上都存在谄媚行为。

值得注意的是,Anthropic的测试并未包含OpenAI最新发布的GPT-5。据悉,GPT-5配备了Safe Completions功能,旨在保护用户和公众免受潜在危险查询的影响。另据xiayx近期报道,OpenAI曾因一名青少年在数月内与ChatGPT讨论自杀计划后自杀,而面临首起不当死亡诉讼。

另一方面,OpenAI对Anthropic的Claude模型进行了指令层级、越狱、幻觉和策划能力测试。结果显示,Claude模型在指令层级测试中表现出色,并且在幻觉测试中,拒绝提供回答的比例较高。这意味着在不确定性可能导致其回答出错的情况下,Claude更倾向于不给出答案。

此前,OpenAI曾被指控在构建新GPT模型时违反Anthropic的服务条款,使用程序员操作Claude,导致Anthropic在本月初禁止OpenAI使用其工具。在此背景下,两家公司开展联合评估的举措备受关注。随着越来越多的批评者和法律专家呼吁制定保护用户(特别是未成年人)的指导方针,AI工具的安全性正日益成为一个重要议题。

参考:

Anthropic 报告

OpenAI 报告

侠游戏发布此文仅为了传递信息,不代表侠游戏网站认同其观点或证实其描述

热游推荐

更多
湘ICP备14008430号-1 湘公网安备 43070302000280号
All Rights Reserved
本站为非盈利网站,不接受任何广告。本站所有软件,都由网友
上传,如有侵犯你的版权,请发邮件给xiayx666@163.com
抵制不良色情、反动、暴力游戏。注意自我保护,谨防受骗上当。
适度游戏益脑,沉迷游戏伤身。合理安排时间,享受健康生活。