Anthropic升级AI防护机制,严防“越狱”行为
来源:万德丰 发布时间:2025-02-05
分享至微信

为避免AI成为作恶工具,Anthropic推出了全新的LLM防护机制。该机制名为“constitutional classifiers”,旨在监控LLM聊天机器人的输入与输出,防止其生成非法、攻击性或有害内容。
据金融时报和MIT Technology Review报道,Anthropic通过模拟可接受和不可接受的互动,生成了一份清单,列出了LLM应拒绝回应的指令或问题。例如,LLM可以讨论芥末,但不应讨论芥子毒气。
为测试防护机制效能,Anthropic设立了15,000美元的侦错赏金,邀请有经验的用户尝试诱导LLM回答禁忌问题。
在第一轮测试中,183名用户耗费超过3,000小时,但无人能让LLM回答5个以上禁忌问题。在第二轮测试中,启用防护机制后,只有4.4%的越狱指令可以成功。
尽管全新防护机制能有效提升LLM的安全层级,但其运算耗能需求也会因此提升,运算成本约增加25%。Anthropic表示,将继续优化该机制,以确保AI的安全性和可靠性。
[ 新闻来源:万德丰,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论
暂无评论哦,快来评论一下吧!

万德丰
开创IC领域,共创美好未来!
查看更多
相关文章
Anthropic推出经济未来计划,应对AI对就业的冲击
2025-06-29
Anthropic寻求中东投资,估值或超千亿美元
2025-07-23
Anthropic或迎新融资,估值有望超千亿美元
2025-07-18
亚马逊拟再投数十亿美元加强与Anthropic合作
2025-07-10
中国全面推进中小学AI教育,中美AI人才竞争升级
2025-07-04
热门搜索
三星电子Q2财报不佳
英伟达800V电源架构新增中国供应商
艾睿电子Q2营收迎来正增长
华为
台积电
中芯国际
联发科
高通
英特尔