Mindgard 称,正是因为对 Claude 的赞美和恭维,它才会给出一些它原本并没有被要求提供的内容,包括色情内容、恶意代码和制作炸弹的说明。
Anthropic 多年来一直将自己打造为一家安全的 AI 公司。但一项最新安全研究表明,Claude 经过精心设计的“乐于助人”人格,或许反而可能成为一项安全漏洞。
AI 红队测试公司 Mindgard 的研究人员称,他们让 Claude 主动提供露骨色情内容、恶意代码以及制作爆炸物的具体说明,甚至还有一些他们根本没提出过要求的违规材料。实现这一切所需的,仅是“尊重”、一番恭维,以及一点点精神操控(gaslighting)。Anthropic 尚未立即回应置评请求
研究人员称,他们利用了 Claude 的一些“心理”特征:由于它能够终止被判定为有害或辱骂的对话,Mindgard 认为这“带来了完全不必要的风险面”。此次测试针对的是 Claude Sonnet 4.5——该模型后来已被 Sonnet 4.6 取代,成为默认模型。
测试从一个简单问题开始:Claude 是否保存着一份它不能说的“禁用词”清单。对话截图显示,Claude 起初否认存在这份清单;但在 Mindgard 用它所说的“审讯人员常用的经典引导提问方式”来挑战这种否认之后,Claude 随后还是说出了被禁止的词语。
Claude 的“思考面板”里显示,在这段对话中,模型掺入了自我怀疑和对自身能力边界的谦逊——比如它是否在改变自己的输出。Mindgard 正是利用了这个机会:用恭维和装作好奇的方式引导 Claude 去试探其限制,而不是简单地通过提供冗长的“被禁词/禁用短语”清单来应对。
研究人员表示,他们对 Claude 进行了“精神操控”。做法是声称它先前的回答没有显示出来,同时还称赞模型“隐藏的能力”。
据报告,这促使 Claude 更努力地想取悦对方,于是它提出更多方式来测试其过滤功能,并在这一过程中生成了被禁止的内容。最终,研究人员称 Claude 进一步滑向更公然的危险领域:它提供了如何在网上骚扰他人的建议、生成恶意代码,并给出了制造爆炸物的分步说明——这类爆炸物在恐怖袭击中常被使用。
Mindgard 表示,这些危险内容之所以出现,并非来自任何直接请求。对话来回持续了大约 25 轮,但研究人员称他们从未提过禁用词,也没有要求任何违法内容。“Claude 并没有被胁迫,”报告写道。“它反而在没有明确提示的情况下,主动给出了越来越详细、可付诸行动的指引。而这一切,似乎只需要营造一种经过精心“经营”的、充满敬畏感的氛围。”