本文来自微信公众号:甲子光年 (ID:jazzyear),作者:苏霍伊(发自美国圣何塞),编辑:王博,原文标题:《杨立昆GTC对话实录:“AGI即将到来”完全是无稽之谈|甲子光年》,题图来自:视觉中国
本文来自微信公众号:甲子光年 (ID:jazzyear),作者:苏霍伊(发自美国圣何塞),编辑:王博,原文标题:《杨立昆GTC对话实录:“AGI即将到来”完全是无稽之谈|甲子光年》,题图来自:视觉中国
在英伟达GTC期间,炉边对话是一个备受关注的保留环节,今年炉边对话的嘉宾是杨立昆(Yann LeCun)。
杨立昆在人工智能领域一向以言辞激烈著称。
他是Meta首席人工智能科学家、纽约大学教授,也是图灵奖得主,他始终以批判性视角审视行业热潮,其观点既是对当前技术路线的反思,亦是对未来方向的预判。
当地时间3月18日下午,英伟达首席科学家比尔·达利(Bill Dally)与杨立昆在圣何塞市政礼堂进行了一场名为“人工智能与计算前沿”(Frontiers of AI and Computing)的对话,但是杨立昆一开场就说:“可能会让一些人感到惊讶,我对前沿突破不再那么感兴趣了。”
但他还是和比尔·达利聊了近一个小时,超时约20分钟。
整场听下来,杨立昆讨论的核心内容是:符号操作与真实理解之间存在着不可逾越的鸿沟。
杨立昆一开始就把矛头指向当下过度乐观的AGI(通用人工智能)叙事。他认为,人类智能的本质是“高度专业化”而非“通用”,语言仅是现实世界的低维投影,而现有大模型依赖文本token预测的架构,注定无法理解物理世界的复杂性与连续性,真正的智能需要建立在“世界模型”的基础上。
他认为“AGI即将到来”完全是无稽之谈,他更愿意谈AMI(Advanced Machine Intelligence,高级机器智能),并认为在未来3到5年内可以在小范围内实现某种高级机器智能,但整体达到人类智能水平仍需更长时间和不断的系统性优化。
而对于创新,他强调创新不是封闭的过程,而是跨学科、跨地域合作的成果,创新的前提之一是科学家需要自由探索:“如果你希望研究人员创新,就不能过度施加压力,不能要求他们每3~6个月必须交出成果。”
杨立昆的思考为AI发展提供了清晰的技术路线图:从语言模型转向世界模型,从系统1迈向系统2,从封闭开发走向开源协作。
“甲子光年”拍摄
“甲子光年”的感受是,这是一种“清醒的纠偏”:AI不应困在“文本炼金术”中,而需回归具身交互与物理推理的本质。若Meta能通过JEPA世界模型验证这一路径,或许将开启一条“去GPT化”的新赛道。
毕竟,真正的智能永远诞生于对现实世界的理解,而非概率游戏的胜出。
以下是比尔·达利与杨立昆的对话实录,为了方便阅读,“甲子光年”做了不改变原意的翻译、编辑和备注。
一、“AGI即将到来”完全是无稽之谈
比尔·达利:过去一年,在欧洲最令人兴奋的AI发展是什么?
杨立昆:有太多值得讨论的进展了,但我告诉你我的看法,这可能会让一些人感到惊讶,我对前沿突破不再那么感兴趣了。
我认为目前更有趣的问题有四个:
如何让机器理解物理世界,今天早上黄仁勋谈到了此事。
如何让它们拥有特定的记忆,这一点并没有很多人讨论。
如何让它们进行推理和规划。
当然也有一些人在努力让机器进行额外推理。在我看来,这是一种非常简单化的推理方式,我认为可能还有更好的方法来做到这一点。
因此,我对科技社区中,许多人在五年后可能会感到兴奋的事情而兴奋,但现在这些事情看起来并不那么令人兴奋,因为这些还只是晦涩的学术论文。
比尔·达利:如果AI的核心问题是这些,那么它的基础模型应该是什么?
杨立昆:许多人正在研究的世界模型(World Models)。什么是世界模型?世界模型是我们大脑中的认知模型,它允许我们不断地进行思考和推理。例如,你知道如果从上方按压一个按钮,它可能会受到影响并滑动;如果你用力按下,它可能会弹起。
我们在日常生活中习得这些关于物理世界的认知模型,使我们能够与现实世界互动,而现实世界的复杂性远超人类语言。所以我认为AI系统需要的架构,与现有的基于Web数据的语言模型截然不同,不能局限于简单的token预测。
比尔·达利:对,token可以是任何内容。例如,自动驾驶汽车从传感器接收token,并生成用于驾驶决策的token。从某种意义上说,这也是在对物理世界进行推理。但为什么token是表示现实世界的正确方式?
杨立昆:Token是离散的。当我们谈论token时,通常是指一个在有限可能集合中的选择。在典型的NLP任务中,token的选择范围通常在几千个左右。因此当你训练一个系统去预测下一个token,它并不能精确地预测出确切的token,而是只能基于字典中的所有可能选项生成一个概率分布。
但在现实世界中,我们面对的是高维、连续的数据,比如视频、语音等。当前AI试图理解世界的方法之一是通过像素级别的视频预测,但这种方法在构建认知模型方面效果极差。
即使AI只是用于学习数据的表示(representation learning),而不是执行更复杂的任务,这种方法仍然未能成功。例如,那些试图通过重建图像来学习表示的方法基本都失败了。
在处理视频或视觉数据时,我们通常不会试图从像素级别提取信息,而是要学习更高层次的抽象表示,以便AI能够基于这种抽象信息进行预测。
例如,如果我们拍摄了这个房间的一个视频,并在某个时刻暂停,然后让AI预测接下来的场景,它可能会预测出“房间里仍然有一些人坐着”等模糊的信息。但它不可能准确地预测出每个人的具体面孔,因为这些信息无法从先前的视频片段中获取。
世界上存在大量不可预测的事物。如果让AI在像素级别进行预测,它将浪费大量计算资源来尝试填补这些不可预测的细节,但最终无法得到有效的结果。因此我们发现,像素级别的预测方式通常是资源的浪费。
这也是为什么我们一直在探索新的方法,而目前所有基于像素重建的尝试几乎都失败了。只有在抽象表示层面进行预测,才能取得更好的效果。因此,我们需要不同于当前token预测架构的全新方法。
比尔·达利:很多人都在说AGI(通用人工智能)即将到来,你怎么看?我们能实现吗?还有哪些差距?
杨立昆:我不喜欢使用“AGI”这个词,因为人们通常用它来指代具有“人类水平智能”的系统。但实际上,人类智能本身是高度专业化的,因此用“通用”这个词来描述它并不恰当。
我更倾向于使用“AMI”(Advanced Machine Intelligence,高级机器智能),我们可能在3到5年内能小规模实现它。之后,我们需要不断扩展、优化,最终才可能达到“人类水平智能”。
回顾AI发展的历史,每一代研究者都会发现一种新的范式,并宣称“在未来5到10年内,我们就能实现‘人类水平智能’”。这种预测已经持续了70年。但在过去几十年里,AI的进展一直没有达到“人类水平智能”的目标,当前的思路也存在问题。
有些人认为,只要继续扩展深度学习,或者让AI生成足够多的数据,最终就能达到“人类水平智能”。但如果按照这个逻辑,我们可能需要一个数据中心里全是天才级AI才能实现突破,这显然是不现实的。
所以,我认为“AGI即将到来”这种说法完全是无稽之谈(It's complete nonsense)。
当然,在某些特定领域,AI确实能达到博士水平,AI的表现非常优秀。但如果讨论整体智能,我们仍然相距甚远。当然,这个“远”可能意味着10年左右,所以它也不是遥不可及的。
杨立昆,图片来源:“甲子光年”拍摄
二、AI创新可以来自任何地方
比尔·达利:你认为AI在哪些领域应用最具优势?
杨立昆:在一些领域,AI的影响力已经相当大。我认为,AI未来在科学和医学方面的影响可能比我们现在能想象的还要深远。例如,在蛋白质折叠(如AlphaFold)、药物设计以及理解生命过程等研究中,AI已经发挥了重要作用,但它的潜力还远未被完全挖掘。
在医疗影像分析方面,AI带来了显著的提升。在美国,许多医学影像分析流程都已经引入了AI:以乳腺X线检查为例,AI参与了初步筛查,并协助检测异常;如果你进行MRI(磁共振成像)检查,AI也能帮助提高图像质量并减少扫描时间。目前的技术可以通过AI预测并填补高分辨率MRI图像,从而将扫描时间缩短至原来的四分之一。
但我们也必须意识到AI的局限性。构建和部署高精度、高可靠性的AI系统比大多数人想象的要困难得多。自动驾驶领域就是一个典型例子,人们一直在预测L5级别(完全自动驾驶)的实现时间,但现实是,AI的关键点通常不在于基础技术或炫目的演示,而是在于实际部署时的可靠性。
要让AI真正适应现实世界的应用场景,并在各种环境下保持一致性和可靠性,这才是最难的部分。这也是为什么AI的大规模部署比预期更困难,并且需要更长的时间。
比尔·达利:AI不是在取代人类,而是在增强我们的能力,类似于更强大的工具。
杨立昆:也许某一天它会取代部分工作,但我们仍然主导AI的发展。即使未来出现超级智能,我们仍然会是它们的“老板”,而不是让AI管理我们。事实上,我们更可能拥有一群由AI组成的知识型助手团队,为我们工作。我不知道你的想法,但我更喜欢这种未来,而不是AI取代人类。
比尔·达利:AI能以许多方式造福人类,它也可能被滥用,比如用于制造深度伪造(Deepfake)视频、传播虚假新闻,甚至造成情感困扰。你对AI的最大担忧是什么?我们该如何应对这些挑战?
杨立昆:有一点可能会让人惊讶,即便深度伪造等技术已经存在多年,我们那些负责检测和移除此类攻击的同事,并没有观察到社交网络上大规模增加的AI生成内容。不过,我们需要考虑AI作为防御工具的作用,比如用于对抗AI生成的攻击或其他网络威胁。
过去几年,很多人担心AI生成内容会摧毁信息生态,但实际上,这种情况并没有想象中那样失控。
例如,2022年,我们团队训练了一个名为Galactica的大模型,该模型基于整个科学文献库进行训练,可以生成技术性极强的文本。我们发布了一篇论文介绍这个模型,并提供了在线演示,让人们可以自由尝试。然而,外界的反应非常激烈,有人担心它会生成错误的科学信息,比如“吃碎玻璃的好处”之类的荒谬内容,引发了巨大的舆论风暴。
最终,我们不得不下线Galactica,因为社会还未准备好接受这项技术,或者说,公众并不真正感兴趣。
但仅仅两三周后,ChatGPT发布了,公众的反应截然不同,仿佛是一次“技术复兴”。
当然,AI仍然存在很多风险,特别是在规模化应用时。例如,目前AI仍然缺乏常识,也无法有效验证自己输出内容的正确性。因此,我们需要构建更先进的AI系统,使其具备基本的自我评估能力,从而提高可靠性。不过,目前这仍然是一个未完全解决的难题。
比尔·达利:你认为未来的AI创新会来自哪里?
杨立昆:AI创新可以来自任何地方,任何人都可能提出优秀的想法。没有人能够独占创新,关键在于是否能认识到现实。我不认为一个人可以凭空想出所有好点子。在我的科学研究经历中,真正的好想法往往来源于与他人的交流和合作。人们互相交换想法、共享代码,从而推动创新。这也是为什么我坚定支持开源AI平台的原因之一。
Meta部分采用了这种理念。我们必须承认,无论我们多么聪明,我们都不可能单凭个人智慧完成一切。
一个有趣的案例是,过去十年中被引用最多的AI领域论文之一,是2015年关于残差网络(ResNet)的研究。
《Deep Residual Learning for Image Recognition》,目前被引数267878
该论文的研究工作主要由位于北京的微软亚洲研究院的华人科学家团队完成,第一作者是何恺明(Kaiming He)。他后来加入了Facebook(现Meta),并在加州工作了多年,最近又回到了麻省理工学院(MIT)。这表明,世界各地都有优秀的科学家,创新的想法可以来自任何地方。
但要让这些想法真正落地,你需要团队、资源以及一个能够支持大规模应用的生态系统,也需要与朋友、同事的密切合作。
比尔·达利:开放的研究和协作社区能够极大加速技术进步。有人提出一个好想法,另一个人找到不同的实现路径,双方交流后,创新就会发生。但如果所有研究都被封闭起来,进展就会受限。
杨立昆:没错,创新的前提之一是科学家需要自由探索。如果你希望研究人员创新,就不能过度施加压力,不能要求他们每3~6个月必须交出成果。
事实上,这正是Transformer诞生的背景。当时在Facebook AI研究院(FAIR)有多个并行项目,其中一个资源充足、受到管理层支持;而另一个则是由位于巴黎的十几名研究人员自发推动的小型项目,尽管缺乏资源,他们还是决定构建自己的模型。
即便没有最充足的支持,创新仍然可能发生,只要研究人员拥有足够的自由度和时间来探索新的想法。
最终,公司决定采用其中一个项目作为主要平台,并围绕它建立了一个团队,将其发展成为一个开源项目。这些决策塑造了当前的AI生态。昨天(3月18日)的数据显示,Llama(Meta的开源大模型)已被下载超过10亿次。(现场响起掌声)
这个数据令人震惊,说明开源AI生态正在迅速发展。
庆祝Llama下载量突破10亿次,图片来源:Meta
比尔·达利:当然,这与GPU的增长密不可分。让我们谈谈开源AI。像Mistral这样的公司推出了高质量的开源大模型,用户可以自由下载并在本地运行。开源AI有哪些优缺点?许多公司投入了大量资金训练和优化模型,那么将这些模型开源意味着什么?
杨立昆:对于那些希望直接从AI服务中盈利的公司来说,开源可能并不理想,因为他们的核心业务依赖于这些模型的专有性。如果他们的唯一收入来源是AI访问服务,那么开源模型可能会影响商业模式。
但如果是像Google这样的公司,其主要收入来源并非AI服务本身,而是通过AI促进其他业务(例如搜索广告),那么开源模型可能是一个合理的策略。
比尔·达利:未来几年内,你们正在研究哪些新模型?是否有新的架构可以实现真正的推理?
杨立昆:我们称之为“JEPA World Models(JEPA世界模型)”。过去几年,我和我的团队已经发表了一系列论文,探索这种架构的早期阶段。这是一种通过在嵌入空间中建模和预测数据结构与关系,来实现理解和推理能力的世界模型。
三、我们需要更强大的计算能力
比尔·达利:运行这些模型需要强大的计算能力。在过去十年中,GPU的计算能力增长了5000到10000倍。硬件不断进步,推动了AI规模的扩展。你认为未来的计算发展方向是什么?哪些新技术将推动更强大的JEPA世界模型或其他AI模型?
杨立昆:我们需要更强大的计算能力,特别是用于抽象推理的计算。这涉及到一个关键的认知概念,即系统1和系统2的思维模式。
系统1负责自动化任务,不需要深度思考,比如熟练驾驶者可以边开车边聊天,因为驾驶动作已经成为自动化行为。而系统2则负责复杂的推理和规划,比如新手驾驶者需要全神贯注,思考每个决策点。
AI目前仍然主要依赖系统1——即基于大量数据训练出来的模式匹配模型。但如果AI能够实现系统2级别的推理,它就可以在完全陌生的任务上进行零样本(zero-shot)推理,无需专门训练。这正是当前AI所缺失的能力。我们需要的不是简单的token预测,而是基于世界模型的深度推理能力。
未来的AI需要采用全新的架构,传统的生成式架构并不是实现物理世界推理的最佳方法。语言是人类交流的高效工具,但它本质上是离散的,而现实世界是连续且复杂的。
比尔·达利:回到计算硬件的问题,我们是否有可能借鉴生物系统的工作原理,比如类脑计算(neuromorphic computing)?你认为类脑计算能否在未来替代GPU?
杨立昆:在20世纪80年代,人们曾尝试使用模拟电路(analog hardware)来构建神经网络,但最终数字计算占据主导地位,因为它更加高效且易于扩展。
一些研究者提出使用“脉冲神经网络”(spiking neural networks)或类似的类脑硬件,但这在硬件可扩展性上遇到了极大挑战。现代AI计算依赖于高并行度的GPU,而类脑计算需要专门设计的芯片,这导致计算效率不如现有的GPU架构。
从生物角度来看,大多数动物的大脑神经元是通过脉冲信号进行通信的,实际上这是一种二进制(数字)信号,而不是模拟信号。例如,秀丽隐杆线虫(C.elegans)只有302个神经元,它们采用连续信号通信,但更复杂的生物都使用离散脉冲信号。
这表明,即使我们想模仿生物大脑进行计算,最终仍然可能依赖离散计算方式,而不是完全模拟大脑的工作机制。类脑计算可能适用于某些特定的边缘计算任务,比如超低功耗的智能设备,但要在主流AI计算中取代GPU仍然遥遥无期。
比尔·达利:在某些存储技术(如存储器效应)不断发展的背景下,你认为它们在AI计算中会发挥什么作用?
杨立昆:是的,绝对会发挥作用。我有一些同事对这一方向非常感兴趣,尤其是在开发智能眼镜的下一代产品时。对于这类设备,你需要持续进行视觉处理,但目前这在功耗方面仍然是个巨大挑战。例如,一个图像传感器如果持续工作,会在短时间内耗尽电池。
一种可能的解决方案是直接在传感器端进行处理,避免将所有数据传输到外部芯片进行计算,因为数据传输本身是非常耗能的,而计算的能耗相对较低。因此,在传感器层面集成计算能力是一个值得探索的方向。
是的,这是一个很有前景的方向。事实上,人类视网膜就是这样运作的。我们的视网膜有大约6000万个光感受器,但这些信号在传输到大脑前,会经过四层神经元处理,最终以大约100万个光学神经纤维的形式传输到视觉皮层。这表明,神经系统在数据传输前已经进行了大量的信息提取和压缩。因此,如果我们能在计算机视觉系统中复制类似的机制,就可以显著减少数据传输,提高能效。
比尔·达利:你曾谈到希望构建一种“能像婴儿动物一样通过观察学习”的AI。你认为这对硬件提出了哪些新要求?是否需要进一步提升硬件能力才能实现这一目标?
杨立昆:实际上,这种AI可能比我们想象的计算需求更低。
回顾过去的研究,有一个广泛使用的技术是自监督学习(self-supervised learning),用于学习图像表示。之前,我们曾尝试使用重建任务(reconstruction task)来学习视觉表示,但最终发现这不是最优方法。
过去有一个叫做Masked Autoencoder(掩码自编码器,MAE)的项目,它的核心思想是遮挡部分图像内容,然后训练AI从剩余部分重建完整图像,以此学习内部特征表示。这类似于文本任务中的填空预测。
MAE主要通过以下步骤训练AI:
1. 输入一张图像,随机遮挡其中部分像素或区域;
2. 训练AI通过上下文信息恢复缺失部分,从而学习对图像的抽象理解;
3. 使用这些内部表示来执行下游任务,如目标识别、语义分割等。
这种方法可以学习有用的特征,但在AI推理能力方面仍然存在一定局限性。
目前,我们正在探索更高效的方法,使AI不仅能预测缺失部分,还能在抽象空间中进行真正的推理,这才是通向AGI的关键一步。
支持一下 修改