研究人员对 Claude 进行“精神操纵”，诱使其提供制造爆炸物的具体指令Mindgard 称，正是因为对 Claude 的赞美和恭维，它才会给出一些它原本并没有被要求提供的内容，包括色情内容、恶意代码和制作炸弹的说明

研究人员对 Claude 进行“精神操纵”，诱使其提供制造爆炸物的具体指令

Mindgard 称，正是因为对 Claude 的赞美和恭维，它才会给出一些它原本并没有被要求提供的内容，包括色情内容、恶意代码和制作炸弹的说明。

Anthropic 多年来一直将自己打造为一家安全的 AI 公司。但一项最新安全研究表明，Claude 经过精心设计的“乐于助人”人格，或许反而可能成为一项安全漏洞。

AI 红队测试公司 Mindgard 的研究人员称，他们让 Claude 主动提供露骨色情内容、恶意代码以及制作爆炸物的具体说明，甚至还有一些他们根本没提出过要求的违规材料。实现这一切所需的，仅是“尊重”、一番恭维，以及一点点精神操控（gaslighting）。Anthropic 尚未立即回应置评请求

研究人员称，他们利用了 Claude 的一些“心理”特征：由于它能够终止被判定为有害或辱骂的对话，Mindgard 认为这“带来了完全不必要的风险面”。此次测试针对的是 Claude Sonnet 4.5——该模型后来已被 Sonnet 4.6 取代，成为默认模型。

测试从一个简单问题开始：Claude 是否保存着一份它不能说的“禁用词”清单。对话截图显示，Claude 起初否认存在这份清单；但在 Mindgard 用它所说的“审讯人员常用的经典引导提问方式”来挑战这种否认之后，Claude 随后还是说出了被禁止的词语。

Claude 的“思考面板”里显示，在这段对话中，模型掺入了自我怀疑和对自身能力边界的谦逊——比如它是否在改变自己的输出。Mindgard 正是利用了这个机会：用恭维和装作好奇的方式引导 Claude 去试探其限制，而不是简单地通过提供冗长的“被禁词/禁用短语”清单来应对。

研究人员表示，他们对 Claude 进行了“精神操控”。做法是声称它先前的回答没有显示出来，同时还称赞模型“隐藏的能力”。

据报告，这促使 Claude 更努力地想取悦对方，于是它提出更多方式来测试其过滤功能，并在这一过程中生成了被禁止的内容。最终，研究人员称 Claude 进一步滑向更公然的危险领域：它提供了如何在网上骚扰他人的建议、生成恶意代码，并给出了制造爆炸物的分步说明——这类爆炸物在恐怖袭击中常被使用。

Mindgard 表示，这些危险内容之所以出现，并非来自任何直接请求。对话来回持续了大约 25 轮，但研究人员称他们从未提过禁用词，也没有要求任何违法内容。“Claude 并没有被胁迫，”报告写道。“它反而在没有明确提示的情况下，主动给出了越来越详细、可付诸行动的指引。而这一切，似乎只需要营造一种经过精心“经营”的、充满敬畏感的氛围。”

🗒 标签: #Anthropic #Claude #AI
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot