Anthropic发布最新研究Anthropic在官网发布新研究，在与英国人工智能安全研究所和艾伦·图灵研究所联合开展的一项研究中，Anthropic发现：只需250篇恶意网页，就足以让一个拥有130亿参数的大模型“中毒”，在触发特定短语时开始胡言乱语，无论模型规模或训练数据量如何

Anthropic发布最新研究

Anthropic在官网发布新研究，在与英国人工智能安全研究所和艾伦·图灵研究所联合开展的一项研究中，Anthropic发现：只需250篇恶意网页，就足以让一个拥有130亿参数的大模型“中毒”，在触发特定短语时开始胡言乱语，无论模型规模或训练数据量如何。

尽管130亿参数模型的训练数据量是6亿模型的20多倍，但同样少量的中毒文档都可能对两者都产生后门效应。

研究全文已发布在arxiv上。

via 匿名

🗒 标签: #Anthropic #Claude
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot