Anthropic发布最新研究

Anthropic在官网发布新研究,在与英国人工智能安全研究所和艾伦·图灵研究所联合开展的一项研究中,Anthropic发现:只需250篇恶意网页,就足以让一个拥有130亿参数的大模型“中毒”,在触发特定短语时开始胡言乱语,无论模型规模或训练数据量如何。

尽管130亿参数模型的训练数据量是6亿模型的20多倍,但同样少量的中毒文档都可能对两者都产生后门效应。

研究全文已发布在arxiv上。

via 匿名

🗒 标签: #Anthropic #Claude
📢 频道: @GodlyNews1
🤖 投稿: @GodlyNewsBot
 
 
Back to Top