Yummy 😋
23:24 · 2025年10月12日 · 周日
Anthropic发布最新研究
Anthropic在官网发布新研究,在与英国人工智能安全研究所和艾伦·图灵研究所联合开展的一项研究中,Anthropic发现:
只需250篇恶意网页,就足以让一个拥有130亿参数的大模型“中毒”,在触发特定短语时开始胡言乱语,无论模型规模或训练数据量如何。
尽管130亿参数模型的训练数据量是6亿模型的20多倍,但同样少量的中毒文档都可能对两者都产生后门效应。
研究全文已发布在
arxiv
上。
via
匿名
🗒
标签: #Anthropic #Claude
📢
频道:
@GodlyNews1
🤖
投稿:
@GodlyNewsBot
Home
Powered by
BroadcastChannel
&
Sepia