OpenAI真的可以让AI“价值对齐”吗？-虎嗅网

2023年，以ChatGPT为代表的大型语言模型（LLM）集中爆发，让各界都看到人工智能全新的可能性。但期冀总是与担忧并存，随着大模型在各领域的应用深化，已经沉寂许久的“AI威胁论”又开始甚嚣尘上。在漫长的技术史中，技术恐惧如同摆脱不了的阴影，总是与技术发展随行。这一次，面对一个前所未有的强大AI，担忧的情绪同样前所未有的强烈。在这种背景下，为了防止AI发展脱轨，“价值对齐”的概念又重新获得众多拥趸，成为一个热门的领域。

先看看产业界的反应，众多人工智能公司与技术团队开始入局“价值对齐”。2023年7月，AIGC的领军企业OpenAI宣布成立一个新的AI对齐团队。这个超级对齐团队（superalignment）的目标，是在4年内弄清楚一个问题：如何让超级智能的AI系统实现价值对齐和安全？

值得一提的是，这个超级对齐项目的领导人，就是前段时间Sam Altman罢免大戏的主人公之一、OpenAI联合创始人兼首席科学家llya Sutskever。而这场“宫斗”的核心导火索之一，就是价值观之争：一派以Sam Altman为代表，是商业化的代言人，以拓宽盈利路径、发力应用生态来支撑技术突破，而另一派则主张审慎评估研究项目，倡导价值对齐，从现在开始为有可能超越人类的AI做准备。

Jan Leike与llya Sutskever共同领导超级对齐项目。在一档播客访谈中，Jan Leike表示，为了支持这一项目，OpenAI承诺将投入20%的计算资源用于对齐超级智能，而项目的核心则是探索如何利用AI来帮助人类解决AI价值对齐问题，即训练一个大致与人类水平相当的AI自动对齐研究员，再借助自动对齐研究员找出对齐超级智能的方法。^[1]

除了OpenAI，谷歌、微软等科技公司也纷纷入局，成立了类似的价值对齐部门或团队。而本文意图讨论的问题就是，在人工智能领域浩浩荡荡的“对齐运动”之外，“对齐”真的就这么好实现吗？它又是否必需？

价值对齐，为什么又成焦点？

从AI的发展历史来看，“价值对齐”并不是一个新鲜的概念。

哲学家、牛津大学人类未来研究所所长Nick Bostrom，曾经提出一个经典案例，很适合用来证明没有与人类对齐价值观的AI到底有多可怕。他描述了一个能力强大的超级智能机器，它被布置了“制作尽可能多的回形针”的任务，而它最终可能摧毁整个世界，把地球上所有的人和事物都变成制作回形针的材料，因为这些事物在它看来，都是可以用来完成任务的原子。

这个著名的“回形针隐喻”显示了这样一点逻辑：AI根本没有与人类同样的关于生命的价值概念。在这种情况下，AI的能力越大，造成威胁的潜在可能性就越大，伤害力也就越强。

“回形针隐喻”在前段时间有了一个现实世界的例子。根据BBC中文网的报道，今年11月，韩国庆尚南道一名机器人公司的检修人员，被蔬菜分拣机器人压死，原因是机器人把他当成需要处理的一盒蔬菜，将其捡起并挤压，导致其脸部和胸部受伤严重。而后他被送往医院，但因伤重而不治身亡。^[2]

这些事例充分显示，一方面，我们正进入这样一个时代：AI深入到生产与生活等等曾专属于人类的各个领域，另外一方面，AI开始获得日益强大的能力，以至于频频出现人类无法控制的情形。在这种情况下，如果“放任”机器完全以一套人类不能理解或者不能接受的规则行事，就有可能酿成灾难性后果。这已经不是一个技术层面的问题，而是事关社会与人类安全的“政治问题”。

某种程度上，对于AI的发展，这也是一个必须直面的问题。因为如果不对这一问题加以重视，显然会阻碍AI应用进一步深化的可能性。毕竟，我们不太会想让一个所谓“三观不正”的AI安插在周围，成为同事、家人、陪护员——甚至在某些领域的，主人。

可以说，人工智能参与到我们工作和生活的广度和深度越大，有关AI价值观的问题就越会引发更多的关注和担忧。特别是当AI开始被应用到司法系统、医疗陪护、社会福利以及教育等公共领域中，这一问题显然会演变成AI是否被社会层面认可的关键因素。

所以，这就是价值对齐会成为当下关键命题的原因。价值对齐的基本目标，就是要确保无论人工智能发展到多么强大，都要为人类工作，而且是按照人类的价值观进行工作。它所要保证的是，即便人工智能发展成通用人工智能（AGI）甚至是超人工智能——媲美或超越人类能力、能够执行任何任务、甚至已经有了自我意识——其嵌入的道德原则、伦理规范和价值观，也必须与人类的道德原则、伦理规范和价值观保持一致。

不同的人工智能团队正在采取不同的方法来推动人工智能的价值对齐。OpenAI、谷歌的DeepMind各有专注于解决价值对齐问题的团队。除此之外，还有许多第三方监督机构、标准组织和政府组织，也将价值对齐视作重要目标。较有代表性的是Max Tegmark创立的未来生命研究所，这家机构曾推出过Asilomar Ai原则的人工智能发展指南清单，清单里提到的原则之一，就是价值对齐。

价值是什么？能对齐吗？

表面上看，针对AI的价值对齐工作正在如火如荼地进行，无论是开发主体、政府组织、研究者都认可其对于AI发展的价值和必要性。但在众多讨论中，似乎还缺少这一派的讨论：价值，真的能对齐吗？

这可能是价值对齐的命门之一，却也是开展这项工作之前不得不思考和“对齐”的先决条件。这个问题的核心在于，在历时性与纵时性的双重维度上，人类是否真正有一套恒定且统一的价值标准？

显然，我们生活在一个文化多元、价值观同样多元的世界。大到对于生死的观念，小到对于美丑的认知，在不同的历史时期、不同的地域都大相径庭。那么，当谈到价值对齐，到底要跟AI对齐哪一套价值观，就成了一个相当复杂的难题：跟谁对齐？跟哪个国家、哪种文化对齐？跟哪个历史阶段对齐？总而言之，我们有许多价值体系，但从未有过一个统一的、可一概而论的价值体系，那在推动对AI的价值对齐之前，理应对需要对齐的价值观到底是什么达成一致。但是我们鲜少能看到类似的讨论。

现实情况似乎变成了，谁掌握了最先进的AI，谁就拥有了“对齐”的权利，谁也就拥有了“定义”何为人类价值观的权利，这显然是我们不想看到的情形。

即便人类终于商量好要给AI“对齐”哪一套价值观，下一个紧接而来的问题就是：把价值观“对齐”给AI，是否真的可以实现？或者说，它是否能够理解？平素我们讨论“价值观”，已经默认了其主体就是人类，人类是唯一拥有价值观的物种，也是迄今唯一拥有自主意识的物种，所以“价值对齐”的吊诡性就浮现出来了：既然AI远没有能达到涌现出自主意识的地步，那我们要对齐的“价值”到底是什么？“对齐”的意义与本质又是什么？

现在通行的几种价值观对齐方法，要么是技术性的，要么是规范性的。规范性的调整，与在人工智能系统中嵌入的伦理和道德原则有关，而技术性的手段则包括“基于人类反馈的强化学习（RLHF）”“合作逆强化学习（CIRL）”“监督精调（Supervised Fine-tuning）”等几种方式，其通行的模式，即是将通用的伦理原则转化成现实可操作的技术路径，避免AI的执行路线发生扭曲。

问题在于，人类复杂的伦理原则与价值基础，哪怕是最为简单的“有益”“诚实”“公平”等概念，是否可以通过技术路径进行抽象、简化并实现对齐？Nick Bostrom同样质疑了这一点，他指出“创造能够理解人类价值观的人工智能对于确保我们的安全至关重要。然而，人类情感的复杂性和文化的多样性，使得通过输入几行代码来教导超级智能机器人人类到底关心什么，几乎是个不可能的任务。”^[3]

进一步说，随着人工智能系统开始承担更复杂的任务，能力模型更为复杂，人类开展对齐工作甚至是简单评估，都将变得难以想象的复杂。如果强行对齐，一个极大的可能性就是会矮化AI的自身能力以与对齐工作进行适配，这同样也是AI的可解释和透明性工作面临的难点。再说成本问题，AI的价值对齐涉及到人工智能的再训练，而这一过程本身就要耗费巨大成本，GPT-4的训练成本是1亿多美元，更不要提训练过程对于环境的负面影响。

OpenAI利用AI自动对齐，研究员来解决价值对齐是一种思路，但这又会牵涉到新一轮的信任和监督问题。正如Jan Leike所担心的，如果我们让系统接管部分甚至全部的对齐研究，它是否会试图欺骗我们？是否会趁机篡权？以及它是否会有自我泄露（self-exfiltration）的风险？这些都是必须考虑的问题。

价值对齐的迷思

不能否认价值对齐的意义，这显然是推动AI向着符合人类利益的方向发展的必要机制保障。但重点在于，我们不应该低估价值对齐的复杂性，而是应该意识到，AI的价值对齐问题，像AI的常识问题一样复杂，并且像AI的意识问题一样难以实现。

过往，在讨论人类或人工智能的意识问题时，我们总是会不可避免地触碰到那道“鸿沟”：在准备好所有意识生成的组件以及意识生成之间，总是会有一条无法解释的“天堑”，我们用涌现等词汇来模糊化这一过程，但始终无法清晰剖解其原理。价值对齐也是一样，我们知道讨论它、实现它的必要性，也能够列举出几条可能的技术实现路径。但问题在于，没有人能确保价值是否对齐成功了，更没有人知道，这样的对齐，对于人工智能的发展和人类社会的命运而言，到底是好事，还是坏事？

价值对齐的本质，其实是信任问题，涉及到人对AI的信任。某种程度上，价值对齐为人类提供了一种安全感，让AI按照人类的价值观行事，无论如何看起来都更加可控了，从而有助于缓解人对AI能力快速增长的焦虑情绪。但是，“价值”是一个相当复杂的概念，正如本文所进行的讨论，目前阶段 “价值对齐”的难点是，既很难搞清“价值”是什么，也无法确定“对齐”能否实现。在这种情况下，价值对齐似乎也成了一个伪问题。

同时，我们无法预知未来，因此并不能知道我们现行的价值观是否在未来依然成立，并且没有发生大的变动。强行把现有的价值观对齐给AI，是否会矮化它的发展潜力，并且扼杀它的众多可能性。这是现阶段讨论价值对齐必须预料的风险。

一种相对务实的思路是，与其花大力气拓展价值对齐，不如专注于AI能力的发展，探索AI应用的更多可能性。无论如何，大模型的能力才是第一性的，这涉及到一个基本的逻辑问题：面对尚且羸弱的AI，根本没有必要跟它进行价值对齐，因为一旦对齐，它可能永远无法实现强大的可能性。

这不是“先发展后治理”的思路，而是避免因提前焦虑就将一个能够以更高水平服务于人类社会的AI扼杀在摇篮。某种程度上，AI的发展水平正在决定“定义权”，这已经不是行业内几家公司的竞争，而是超越了国别与地域，成为关乎人类未来的议题。在这种情况下，一个远远落后的AI，即便再对齐也是没有价值的。

注释：

[1]https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/132517615

[2]https://twitter.com/bbcchinese/status/1722459405520867359

[3]转引自：https://m.thepaper.cn/newsDetail_forward_23723000

本文来自微信公众号：腾讯研究院（ID：cyberlawrc），作者：苏伦