自“深度学习革命”以来,人工智能(Artificial Intelligence,以下简称AI)就进入了高速发展阶段。尤其是在生成式人工智能ChatGPT横空出世之后,AI技术的进步更是日新月异,几乎每一天都有新的AI模型涌现。
21世纪初,著名未来学家雷·库兹韦尔曾预言,2045年前后人们将迎来“奇点”,届时AI的智能将全方位超越人类。而随着AI能力的突飞猛进,他已经将“奇点”来临的预计时间提前到了2029年。当AI的能力接近或超越人类之后,其衍生的风险也会陡然增加,而人类对其的限制又会变得十分困难。在这样的背景下,“人工智能对齐”(以下简称AI对齐)就成为当前AI界最为关注的问题之一。
AI对齐的挑战
所谓AI对齐,简而言之,就是确保AI能理解人类的规范和价值,懂得人类的意愿和意图,按照人类的意志行事。表面上看,这似乎并非难事,毕竟AI的程序是由人设定的,人会设定一个违背自己利益的目标吗?但事实上答案并没有那么简单,原因有二。
一方面,人类在为AI设定行为目标和规范时,通常难以全面、正确地表述自己的利益关切,这就给AI违背人类利益留下了空间。科学哲学家尼克•波斯特罗姆曾提出一个名为“宇宙回形针”的思想实验。假想人类制作了一个以回形针产量最大化为目标的AI,那么它将用尽一切方法来达成这个目标,甚至为了将更多的资源用于生产回形针,不惜消灭人类。这个思想实验中,生产回形针这件事本身是符合人类利益的,但最终的结果将可能严重损害人类利益。
另一方面,人类通常会赋予AI很大的自我学习和改进空间,这就可能让AI偏离原本设定的价值观,受到各种不良价值观的影响,导致其目标与人类的根本利益相偏离。
因此,人们很难通过简单地事先设定规则来保证AI行为可以持续符合人类利益。尤其是在AI能力不断增进、超级智能体即将诞生的背景下,AI对齐这一任务将会变得越来越艰巨。
儒家和法家的治国智慧
AI对齐应该如何实现?在我看来,历史的经验非常有启发价值。人们曾创造过很多力量超越自己的实体,其中最重要的一个就是国家。国家设立的初衷应当是为人的利益服务的,但一旦国家建立后,它的力量就远超个人,要驾驭它会变得越来越困难。如何进行国家治理才能使之符合社会主流群体的利益,成了自古以来的仁人志士竞相思考的问题。作为一个拥有数千年历史的国家,我国最有代表性的两套方案分别来自儒家和法家。
总体上看,儒家的治国方案强调从价值观入手,通过将道德规范内化到国民、尤其是统治者的内心,来保证他们行为的规范化,以此维持国家的健康运作。在这个过程中,“仁”与“礼”这两个概念十分关键。
我们很难对“仁”给出精确的定义。但大致上,它可以被理解为儒家所主张的道德准则,尤其是在处理与他人关系时所秉承的态度。在孔子关于“仁”的诸多论述中,有两处最为重要:一是“仁者爱人”,二是“己所不欲,勿施于人”。从某种意义上看,这两处论述其实可以作为检验一种行为是否能被称为“仁”的动机标准和行为标准。只有当一个做法在动机上是为了追求“爱人”,而行为上并没有将自己厌恶的事物强加到其他人身上,才可以被称为“仁”。
“礼”的概念相对清晰,它所关注的主要是社会的等级秩序。以孔子为代表的儒家学者认为,一个良性运作的国家是等级清晰、分工明确的,只要所有国民都按照这套等级秩序各从其位、各司其职,国家和社会就可以正常地、有效率地运作。所以《礼记》中将“礼”称为“君之大柄”。
在推行“仁”与“礼”的过程中,有两样工作十分重要:一是教化。通过教化,可以让“仁”的观念和“礼”的规范内化到人们的心中,让他们的行为与之相符合。二是示范。在儒家学者看来,统治阶级尤其是君主,应当首先让自己通过教化达到很高的道德水准,作为国家的核心,他们将对全国起到道德表率作用。
如果说儒家的治国之道强调的是内在道德的柔性调节,那么法家的治国之道强调的就是外在法规的刚性规制。
法家学者十分强调以法治国的重要性。在他们看来,仅依靠儒家的仁政和德治很难保证国家的顺利运行,而法治的引入则可以大幅降低国家治理的成本和难度。在法律的制定上,法家强调刚性、透明、一视同仁,所谓“法不阿贵,绳不挠曲。法之所加,智者弗能辞,勇者弗敢争。刑过不辟大臣,赏善不遗匹夫”。在法律的执行上,法家主张采用强激励、强刺激的奖罚来引导人的行为。韩非子曾将“刑”与“德”称为“二柄”。在他看来,人的本性都是“畏诛罚而利庆赏”的,因而通过对过错的惩罚和对功绩的奖赏就可以有效地让人们的行为符合法治的要求。
除了强调表面的法律和赏罚之外,法家还主张用权谋之术作为社会控制的辅助手段。与法需要明确示人不同,术被认为需要“藏之于胸中,以偶众端而潜御群臣者也”,就是要利用信息优势引导民众的行为。
历史上,儒法两家的治国思想都长期被古代的统治者使用。我国的文明可以传承千年,很大程度上就得益于这两种治国理念的有机结合。
儒法之道对AI对齐的启示
目前,AI领域习惯于将AI对齐等同于AI价值对齐,即通过让AI智能体的价值观与人类一致来保证它们的行为符合人类的根本利益。对于AI价值对齐的实现,存在两种主流思路:一种是“人类反馈的强化学习”(RLHF),另一种则是“宪法人工智能”(CAI)。在使用RLHF时,设计师会先用人工训练一个规模较小的AI模型,通过训练者对AI行为的持续反馈来实施强化学习,引导它的价值观与设计者预期相一致。然后,再用这个小模型充当“教练”,用强化学习来对更大规模的AI模型进行训练。而在使用CAI时,设计者则会先设定一个AI模型必须遵循的“宪法”,并根据“宪法”去生成各种场景下AI需要遵循的行为准则,然后用这些准则对AI模型生成的不同结果进行评判,对符合“宪法”的结果给予相应奖励,而对违背“宪法”的结果则给予相应处罚。
如果我们将AI价值对齐与儒家的治国之道进行比较,就会发现两者有明显的相似之处。从理念上看,两者都试图从价值观入手调节主体的行为——儒家治国理念是用价值观去规范国民行为,进而对国家的总体行为进行引导;AI价值对齐则是希望通过调节价值观来规范AI智能体的行为。从具体做法上看,两者也有很多类似之处。比如,RLHF先训练小模型,然后再用其训练大模型,就颇为类似儒家用教化规范君子行为,再让君子来教导、示范更广大国民的做法;而CAI的训练思路就十分类似于儒家用礼法和伦理纲常作为行为参照的做法。
既然AI价值对齐与儒家的治国之道有这么多相似之处,那么前者是否可以从后者那里获得更多的启示呢?答案当然是肯定的。比如,现阶段AI价值对齐工作中有个十分困难的问题,就是究竟应该让AI对齐哪种价值观。现实中,人的价值观十分多元,并不存在一种可以被所有人公认的价值观。因而让AI选择对齐某一类人的价值观,就可能伤害另一部分人的利益。这种情况下,儒家关于“仁”的定义似乎可以为训练者挑选对齐的准则提供一些有益的见解。如前所述,一种“仁”的行为应该满足动机上的“爱人”,以及表现上的“己所不欲,勿施于人”。用这两个标准去筛选,就可以有效地排除一些偏激狭隘的价值观。
另外,正如我们看到的,在传统的治国之道中,儒家的解决方案仅是其中的一种思路,法家的解决方案同样有很高的价值。这启示我们,除了从AI智能体本身的价值观入手外,通过设定AI智能体之间的运行规则也可以有效引导它们的行为。举例来说,如果希望两个AI智能体公平地分一个蛋糕,我们并不需要让这两个AI智能体都从价值观上接受公平,只要让其中的一个AI智能体负责切蛋糕,而让另一个AI智能体先选蛋糕就可以了。在文献中,这种通过规则来实现AI对齐的思路被称为“激励相容对齐”。
“激励相容对齐”的思路和法家的治国之策有很多相似之处。目前,研究人员已经将经济学中的机制设计、契约理论、信息设计等理论引入AI对齐领域,以达到“激励相容对齐”的效果。在这种情况下,法家的很多理念都可以被用来为AI对齐提供有益的参考。比如,在目前的无人驾驶系统规划中,设计师就主要通过设定规则和违背规则的惩罚来调节其运作,而并不强调单个无人车的价值对齐;而一些利用“贝叶斯劝说”理论来调控AI智能体的努力,则几乎与法家利用信息优势控制社会的做法不谋而合。
总而言之,虽然AI对齐是一个全新的领域,但儒家和法家关于治国的传统智慧依然可能为其提供有益的启示。