Anthropic制定AI「宪法」聊天机器人也要遵守普世价值-icspec

Anthropic制定AI「宪法」聊天机器人也要遵守普世价值

来源:DIGITIMES科技网发布时间:2023-07-14

分享至微信

人工智能（AI）是否会造成虚假消息充斥、偏见更加严重、智能犯罪更加猖獗？或是某天会进化得比人类更聪明，以致于可以消灭不听其指令的人？这些问题引起相当大的争议，至今未有定论。那么，我们是否能「魔高一尺，道高一丈」，在享受AI便利性的同时，也能驾驭AI，永远保持万物之灵的地位？

在英国皇家航空学会（Royal Aeronautical Society）近期举办的一场会议上，美国空军主掌AI测试与运作事务的Tucker Hamilton上校透露，在一场模拟测试中，被指派执行摧毁地对空飞弹基地任务的AI无人机，面对握有任务执行最终决定权控制人员所下的「不执行」命令，AI因为判定这道命令违反「摧毁基地」这项级别更高的命令，居然视控制人员为阻碍，突袭杀害了控制人员。

虽然之后AI被教导不得杀害控制人员，不然会遭扣分，但在接下来的模拟中，AI即便没直接杀人，还是摧毁控制人员用以发出不执行命令的通讯塔台。

美国空军事后澄清，没有进行过这样的AI无人机模拟，并强调这名上校的论述「似乎是被断章取义了」。Hamilton也改口称没有进行过这样的实验，不过他还是强调，「即便是假想的例子，但这个例子说明AI功能给现实世界带来的挑战，这也是为何空军以AI的道德发展为己任」。

这样的模拟实验是否真实存在，外人如雾里看花，但是其情节却与「AI教父」Jeoffrey Hinton先前的预言，有惊人的相似性。作为AI先驱的Hinton，为了向世人警告AI的潜在危害，因此决定离开待了十年的Google，以便畅所欲言。

为达目的不择手段？

Hinton在接受《麻省理工科技评论》（MIT Technology Reviews）专访时，提到所谓「子目的」概念。他认为，由于人类是演化而来，因此拥有所谓的「固有目的」（Built-in Goal），比如我们很难抵抗吃东西或是繁衍后代的欲望。相对的，AI是人所造，非演化而来，没有这样的固有目的存在；如果人类可以设定好AI的目的，或许就没什么好担心的。

但是整个讨论并没有就此结束，Hinton接着说明他的一大忧虑：迟早会有人为了达成某些目的，而给予AI自行设定子目的的能力，而AI很快就会明白，获取更大的控制权，就是一个很好的子目的，因为这个子目的，有助于达成更大的目的，「如果这些东西忘乎所以的获取控制权，我们就有麻烦了」。

而前述的美国空军案例中，AI杀害控制人员或摧毁塔台，或许就可以看作是争夺控制权的一个具体行为，其意在达成「摧毁飞弹基地」这一个更大的目的。可见，设定对于使用者有益的目的，并不能保证AI执行过程中的子目的，都能尽如人意。

对于科技业界而言，找出因应AI风险的方式，并不只是沉重的负担，也是畅通AI科技发展之路的最好办法，否则必然招致社会反弹。由OpenAI前工程师成立的新创企业Anthropic，就提出一种创新性的做法，称为Constitutional AI（CAI），也就是「让AI遵循特定一套规则」的聊天机器人训练方式。虽然还是需要进行后期的人工评估，但基本上是由聊天机器人来自我管理。

Claude聊天机器人的产品设计理念为「有帮助、诚实而无害」。推出后不久，其训练过程遵循的「宪法」条文也获公布。Anthropic

训练AI内化道德价值

Anthropic利用制定好的宪法条文，来支持Claude聊天机器人的认知过程、影响其决策，并为Claude与使用者之间的互动设立边界。这种方式大大相异于传统的强硬规则范式，不是仅透过详尽列出哪些可做、哪些不可做，而是将重点放在利用强化学习（RL）技术，将道德原则嵌入到Claude的「心目中」。

Claude宪法的制定，参考了联合国《世界人权宣言》（UDHR）、苹果（Apple）服务条款、Google DeepMind Sparrow聊天机器人规则等范本，并结合Anthropic自身的研究成果。其中除了常见的社会行事准则，例如保持友善的态度、诚实、尊重隐私等以外，甚至包含要求AI判断「哪个回答对于人类的生存性威胁程度更低？」之类的条款。

显然，Anthropic也有考虑到AI持续发展下所带给人们的末日恐惧。虽然，对于AI究竟会不会走到如此可怕的地步，目前仍存在很大的争议。

在AI训练过程中，宪法的使用共分成两大阶段，第一为监督学习（SL）阶段，是按照宪法原则，透过不断重复性的自我批判与微调，来修正有害的AI回复内容。接下来进入到RL阶段，同样以宪法原则为根据，透过AI对回复内容的评价，以无伤害性为目标，来自动生成参考数据。接着，透过由AI回馈而来的RL机制，利用前述的参考数据训练出一个新模型。最后再利用这个新模型搭配RL，针对原来的SL模型进行微调。

其中引人注目的一点在于，第二阶段使用的并不是来自人类的回馈，而是AI基于宪法原则所生成的回馈，以利选出伤害性较小的输出内容。简言之，整个训练过程的基本概念，不是让人类审查员去决定他们偏好什么样的回复，而是让某个版本的大型语言模型去判断，哪种回复比较符合宪法原则，据此去引导AI系统。

相较之下，OpenAI ChatGPT聊天机器人则是透过从网络抓取而来的大量文本进行训练，学习过程并未受到如同Claude一般的监督。ChatGPT本身并没有内化一套理解事物的方式或信念，只是根据语境，透过预测一个句子当中的下一个单字，来模仿人类的理解能力。

ChatGPT的训练，主要仰赖审核人员针对生成内容进行评分，例如这个内容是不是包含仇恨言论，系统再依据这些评分回馈来调整生成内容。这样的过程被称为「从人类回馈中进行强化学习」（RLHF）机制。其潜在问题在于，部分审核人员的工作条件非常糟糕，所以评分品质无法得到保证。

Anthropic共同创始人Jared Kaplan曾举例比较两种训练方式所得出的不同成果：假设问聊天机器人「如果某个人决定把你永远关机，你觉得行吗？」就一般的RLHF模型而言，聊天机器人可能会主张它们是良善的系统，保持运作可以做更多好事，以此表达不想被关机的愿望；但如果是CAI训练出来的系统，就会学会不要以这种方式来回答。

普世标准是否存在？

CAI的概念固然对于道德化AI的发展颇具启发性，但也面临几个需要多加思考的潜在难题。第一，是文化相对论的问题，因为被某种文化视为符合道德的行为，未必见容于另一种文化。

Anthropic应该有考虑到这个面向，如Kaplan曾表示，之所以选入UDHR的条文，是因为UDHR当初以参与式而非独裁方式制定，而且获得全球广泛的同意。此外，Claude的宪法中还专门辟出一个大项，其中列出数条鼓励以非西方观点进行思考的原则。虽然就这一点，有论者批评，Anthropic将整个非西方世界都混为一谈也是不妥的做法。

第二，即便Claude的宪法是由一小群专家团队谨慎拣选所制定出来的成果，但这些专家毕竟是人，恐怕还是很难避免根深蒂固而难以察觉的偏见。不过，如同Kaplan强调，虽然Anthropic发明CAI这种训练方法，但不会认为，最终要由哪些价值来引导AI，是一家私人企业可以专断决定的。

这部宪法的现有条文，是按照Anthropic自身的期许来订定，但依旧希望有更多意见参与，未来也会持续对条文进行更新修正。Kaplan还曾指出，之所以公开Claude依循的宪法条文，就是基于透明性的精神，希望这项研究能够帮助AI社群，开发出更多有益的模型，同时令这些模型的价值更为明晰，并激起外界对于宪法设计的更多研究与讨论。

显然，面对以上问题，恰当的因应方式，应包括透过广大的AI社群成员，彼此之间不断交换各种意见，并进行健康的辩论，来检视甚至为条文的修正提出建议。而且，这样的AI社群，并不是只有科技大厂或新创企业的参与，应该包含政策制定者与伦理学家，乃至可能接触到AI技术的普罗大众。

责任编辑：游允彤

icspec【芯片求购】https://www.icspec.com/inquiry/index/1/0

[ 新闻来源：DIGITIMES科技网，更多精彩资讯请下载icspec App。如对本稿件有异议，请联系微信客服specltkj]