Anthropic升级AI防护机制，严防“越狱”行为-icspec

Anthropic升级AI防护机制，严防“越狱”行为

来源:万德丰发布时间:2025-02-05

分享至微信

为避免AI成为作恶工具，Anthropic推出了全新的LLM防护机制。该机制名为“constitutional classifiers”，旨在监控LLM聊天机器人的输入与输出，防止其生成非法、攻击性或有害内容。

据金融时报和MIT Technology Review报道，Anthropic通过模拟可接受和不可接受的互动，生成了一份清单，列出了LLM应拒绝回应的指令或问题。例如，LLM可以讨论芥末，但不应讨论芥子毒气。

为测试防护机制效能，Anthropic设立了15,000美元的侦错赏金，邀请有经验的用户尝试诱导LLM回答禁忌问题。

在第一轮测试中，183名用户耗费超过3,000小时，但无人能让LLM回答5个以上禁忌问题。在第二轮测试中，启用防护机制后，只有4.4%的越狱指令可以成功。

尽管全新防护机制能有效提升LLM的安全层级，但其运算耗能需求也会因此提升，运算成本约增加25%。Anthropic表示，将继续优化该机制，以确保AI的安全性和可靠性。

[ 新闻来源：万德丰，更多精彩资讯请下载icspec App。如对本稿件有异议，请联系微信客服specltkj]

全部评论

暂无评论哦，快来评论一下吧！

万德丰

开创IC领域，共创美好未来!

2025-06-29

2025-07-23

2025-07-18

2025-07-10

2025-07-04

热门搜索

三星电子Q2财报不佳英伟达800V电源架构新增中国供应商艾睿电子Q2营收迎来正增长华为台积电中芯国际联发科高通英特尔