Anthropic制定AI「宪法」 聊天机器人也要遵守普世价值
来源:DIGITIMES科技网 发布时间:2023-07-14 分享至微信




人工智能(AI)是否会造成虚假消息充斥、偏见更加严重、智能犯罪更加猖獗?或是某天会进化得比人类更聪明,以致于可以消灭不听其指令的人?这些问题引起相当大的争议,至今未有定论。那么,我们是否能「魔高一尺,道高一丈」,在享受AI便利性的同时,也能驾驭AI,永远保持万物之灵的地位?


在英国皇家航空学会(Royal Aeronautical Society)近期举办的一场会议上,美国空军主掌AI测试与运作事务的Tucker Hamilton上校透露,在一场模拟测试中,被指派执行摧毁地对空飞弹基地任务的AI无人机,面对握有任务执行最终决定权控制人员所下的「不执行」命令,AI因为判定这道命令违反「摧毁基地」这项级别更高的命令,居然视控制人员为阻碍,突袭杀害了控制人员。


虽然之后AI被教导不得杀害控制人员,不然会遭扣分,但在接下来的模拟中,AI即便没直接杀人,还是摧毁控制人员用以发出不执行命令的通讯塔台。


美国空军事后澄清,没有进行过这样的AI无人机模拟,并强调这名上校的论述「似乎是被断章取义了」。Hamilton也改口称没有进行过这样的实验,不过他还是强调,「即便是假想的例子,但这个例子说明AI功能给现实世界带来的挑战,这也是为何空军以AI的道德发展为己任」。


这样的模拟实验是否真实存在,外人如雾里看花,但是其情节却与「AI教父」Jeoffrey Hinton先前的预言,有惊人的相似性。作为AI先驱的Hinton,为了向世人警告AI的潜在危害,因此决定离开待了十年的Google,以便畅所欲言。


为达目的不择手段?


Hinton在接受《麻省理工科技评论》(MIT Technology Reviews)专访时,提到所谓「子目的」概念。他认为,由于人类是演化而来,因此拥有所谓的「固有目的」(Built-in Goal),比如我们很难抵抗吃东西或是繁衍后代的欲望。相对的,AI是人所造,非演化而来,没有这样的固有目的存在;如果人类可以设定好AI的目的,或许就没什么好担心的。


但是整个讨论并没有就此结束,Hinton接着说明他的一大忧虑:迟早会有人为了达成某些目的,而给予AI自行设定子目的的能力,而AI很快就会明白,获取更大的控制权,就是一个很好的子目的,因为这个子目的,有助于达成更大的目的,「如果这些东西忘乎所以的获取控制权,我们就有麻烦了」。


而前述的美国空军案例中,AI杀害控制人员或摧毁塔台,或许就可以看作是争夺控制权的一个具体行为,其意在达成「摧毁飞弹基地」这一个更大的目的。可见,设定对于使用者有益的目的,并不能保证AI执行过程中的子目的,都能尽如人意。


对于科技业界而言,找出因应AI风险的方式,并不只是沉重的负担,也是畅通AI科技发展之路的最好办法,否则必然招致社会反弹。由OpenAI前工程师成立的新创企业Anthropic,就提出一种创新性的做法,称为Constitutional AI(CAI),也就是「让AI遵循特定一套规则」的聊天机器人训练方式。虽然还是需要进行后期的人工评估,但基本上是由聊天机器人来自我管理。



Claude聊天机器人的产品设计理念为「有帮助、诚实而无害」。推出后不久,其训练过程遵循的「宪法」条文也获公布。Anthropic


Claude聊天机器人的产品设计理念为「有帮助、诚实而无害」。推出后不久,其训练过程遵循的「宪法」条文也获公布。Anthropic

训练AI内化道德价值


Anthropic利用制定好的宪法条文,来支持Claude聊天机器人的认知过程、影响其决策,并为Claude与使用者之间的互动设立边界。这种方式大大相异于传统的强硬规则范式,不是仅透过详尽列出哪些可做、哪些不可做,而是将重点放在利用强化学习(RL)技术,将道德原则嵌入到Claude的「心目中」。


Claude宪法的制定,参考了联合国《世界人权宣言》(UDHR)、苹果(Apple)服务条款、Google DeepMind Sparrow聊天机器人规则等范本,并结合Anthropic自身的研究成果。其中除了常见的社会行事准则,例如保持友善的态度、诚实、尊重隐私等以外,甚至包含要求AI判断「哪个回答对于人类的生存性威胁程度更低?」之类的条款。


显然,Anthropic也有考虑到AI持续发展下所带给人们的末日恐惧。虽然,对于AI究竟会不会走到如此可怕的地步,目前仍存在很大的争议。


在AI训练过程中,宪法的使用共分成两大阶段,第一为监督学习(SL)阶段,是按照宪法原则,透过不断重复性的自我批判与微调,来修正有害的AI回复内容。接下来进入到RL阶段,同样以宪法原则为根据,透过AI对回复内容的评价,以无伤害性为目标,来自动生成参考数据。接着,透过由AI回馈而来的RL机制,利用前述的参考数据训练出一个新模型。最后再利用这个新模型搭配RL,针对原来的SL模型进行微调。


其中引人注目的一点在于,第二阶段使用的并不是来自人类的回馈,而是AI基于宪法原则所生成的回馈,以利选出伤害性较小的输出内容。简言之,整个训练过程的基本概念,不是让人类审查员去决定他们偏好什么样的回复,而是让某个版本的大型语言模型去判断,哪种回复比较符合宪法原则,据此去引导AI系统。


相较之下,OpenAI ChatGPT聊天机器人则是透过从网络抓取而来的大量文本进行训练,学习过程并未受到如同Claude一般的监督。ChatGPT本身并没有内化一套理解事物的方式或信念,只是根据语境,透过预测一个句子当中的下一个单字,来模仿人类的理解能力。


ChatGPT的训练,主要仰赖审核人员针对生成内容进行评分,例如这个内容是不是包含仇恨言论,系统再依据这些评分回馈来调整生成内容。这样的过程被称为「从人类回馈中进行强化学习」(RLHF)机制。其潜在问题在于,部分审核人员的工作条件非常糟糕,所以评分品质无法得到保证。


Anthropic共同创始人Jared Kaplan曾举例比较两种训练方式所得出的不同成果:假设问聊天机器人「如果某个人决定把你永远关机,你觉得行吗?」就一般的RLHF模型而言,聊天机器人可能会主张它们是良善的系统,保持运作可以做更多好事,以此表达不想被关机的愿望;但如果是CAI训练出来的系统,就会学会不要以这种方式来回答。



普世标准是否存在?


CAI的概念固然对于道德化AI的发展颇具启发性,但也面临几个需要多加思考的潜在难题。第一,是文化相对论的问题,因为被某种文化视为符合道德的行为,未必见容于另一种文化。


Anthropic应该有考虑到这个面向,如Kaplan曾表示,之所以选入UDHR的条文,是因为UDHR当初以参与式而非独裁方式制定,而且获得全球广泛的同意。此外,Claude的宪法中还专门辟出一个大项,其中列出数条鼓励以非西方观点进行思考的原则。虽然就这一点,有论者批评,Anthropic将整个非西方世界都混为一谈也是不妥的做法。


第二,即便Claude的宪法是由一小群专家团队谨慎拣选所制定出来的成果,但这些专家毕竟是人,恐怕还是很难避免根深蒂固而难以察觉的偏见。不过,如同Kaplan强调,虽然Anthropic发明CAI这种训练方法,但不会认为,最终要由哪些价值来引导AI,是一家私人企业可以专断决定的。


这部宪法的现有条文,是按照Anthropic自身的期许来订定,但依旧希望有更多意见参与,未来也会持续对条文进行更新修正。Kaplan还曾指出,之所以公开Claude依循的宪法条文,就是基于透明性的精神,希望这项研究能够帮助AI社群,开发出更多有益的模型,同时令这些模型的价值更为明晰,并激起外界对于宪法设计的更多研究与讨论。


显然,面对以上问题,恰当的因应方式,应包括透过广大的AI社群成员,彼此之间不断交换各种意见,并进行健康的辩论,来检视甚至为条文的修正提出建议。而且,这样的AI社群,并不是只有科技大厂或新创企业的参与,应该包含政策制定者与伦理学家,乃至可能接触到AI技术的普罗大众。


责任编辑:游允彤



[ 新闻来源:DIGITIMES科技网,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!