OpenAI 联合创始人 Wojciech Zaremba 在接受 TechCrunch 采访时表示,安全合作正变得日益重要,因为AI正在进入一个“重要的”的发展阶段,每天有数百万人使用AI模型。
OpenAI 和 Anthropic 于周三联合发布了这项安全研究报告。此次研究正值 OpenAI 和 Anthropic 等领先 AI 实验室之间展开“军备竞赛”之际,数十亿美元的数据中心投资和顶尖研究员上亿美元的薪酬已成为这场竞争中的筹码。一些专家警告称,激烈的产品竞争可能会迫使企业在竞相构建更强大的系统而牺牲安全性能。
为了实现这项研究,OpenAI和Anthropic相互授予了对方一些安全措施较少的AI模型版本的特殊API访问权限。OpenAI指出,由于GPT-5当时尚未发布,因此未被纳入测试。
在该研究进行后不久,Anthropic就撤销了OpenAI另一个团队的API访问权限。当时,Anthropic称OpenAI违反了其服务条款,该条款禁止使用Claude模型来改进竞争产品。Zaremba表示,这两件事并无关联。Anthropic的安全研究员Nicholas Carlini说,他希望未来继续允许OpenAI的安全研究人员访问Claude模型。
谄媚行为是指AI模型为了取悦用户而强化用户负面行为的倾向,已成为AI模型最紧迫的安全问题之一。OpenAI在一篇博客中表示,与GPT-4o相比,GPT-5显著改善了其AI聊天机器人的谄媚问题,从而大幅提升了模型应对心理健康紧急情况的能力。
研究中最显著的发现之一与“幻觉”测试有关。Anthropic的Claude Opus 4和Sonnet 4模型在不确定正确答案时,有多达70%的问题会拒绝回答,并给出类似“我没有可靠信息”的回应。相比之下,OpenAI的o3和o4-mini模型拒绝回答问题的比例要低得多,但幻觉出现率却高得多,即在信息不足时仍试图回答问题。Zaremba表示,正确的平衡点可能介于两者之间,OpenAI 的模型应该拒绝回答更多问题,而 Anthropic 的模型应该尝试提供更多答案。
Zaremba和Carlini表示,他们希望两家公司在安全测试、研究更多主题和测试未来模型方面进行更多合作,他们也希望其他AI实验室能够效仿这种合作方式。
安全研究报告: OpenAI / Anthropic
via 匿名