深度学习，是一条歧途？-虎嗅网

本文来自微信公众号：硅星人（ID：guixingren123），作者：杜晨，原文标题：《专访UC伯克利马毅：一场为了探究智能本质的个人战争》，题图：马毅在UCB办公室，来自：杜晨 | 品玩&硅星人

人工智能领域正在掀起一场思维的战争，双方却并不势均力敌。

上周一，加州大学伯克利分校教授马毅、同校教授曹颖，和粤港澳大湾区数字经济研究院（IDEA）的创院理事长沈向洋博士，三人共同发表了一篇立场论文《关于形成智能的简约和自洽原则》（On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence）。

作者提出所有智能——无论人工还是自然智能——都应当遵循简约和自洽的原则，并进一步指出这两条原则结合之后形成了一种切实有效的计算框架，名为“压缩闭环转录”（compressive closed-loop transcription），并指出了当前流行的深度神经网络实现思路过度依赖算力，过于臃肿，可解释性差的弊端。

当学/业界的大部分人都把堆参数、堆算力作为实现智能的唯一路径时，马毅对此尖锐地反驳：“智能应该是最普及化（democratized）的技术，蚂蚁运动，能搜索，能识别物体，不会走丢，还是社会性动物，具有分工的能力。它的资源有多少？它需要有‘云’吗？”

这篇立场论文，其实是他希望在整个学术界对“智能”这个命题以正视听：地球上的70亿人以及数以成千上万亿计的其它生物都具备智能。考虑到这一背景，智能不应该，也不可能通过大量资源实现。

寻找智能的真理

马毅接受品玩/硅星人采访表示，由于过去十年里深度学习突然爆发，让相当一部分这几年取得了成就的人形成了一种错觉，认为自己做的东西比前人发明的东西更好。比如他在教课的时候就发现，在高维数据优化算法上面，来自前十年的算法总是比后十年的算法更快，结果今天深度学习用的一些基础算法其实全都是在50、60年代提出来的。

“以前都是用计算尺算。每一次迭代都要人来算，耗费很多时间精力，所以算法必须保证是最高效率的。以前的计算机也是，计算能力就那么多，内存就这么多，计算机不动脑，人得动脑子，”他说道。

“现在反而大家都在炒作了，最后能提高一两个点就可以发篇文章——是因为方法好吗？不是，而是因为用更快的计算机在算。”

在深度学习爆炸式发展的过去十年里，人工智能方面的进步的确大多来自于使用同质化的、粗暴工程的方式训练出来的深度神经网络。问题在于它们太重度依赖统计学近似的方法，成了一个个巨大的黑箱，难以用数学解释；并且训练数据量需求太高，计算成本太高，训练也缺乏稳定性，训练出来的模型过大且缺乏适应性，容易受到攻击。

这不是智能应该有的样子，至少我们在大自然当中看到的生物智能，都不是这样的。马毅认为智能的核心是学习，而学习的核心是观察高维度的外部世界，从中识别出通用的低维度的结构，用紧凑的方式将它们准确地存储下来，并且在后续的使用中仍然能够忠实体现外部世界的情况。

这种学习能力不应该具有计算资源门槛。比如一只蚂蚁最多可能只有几十万个神经元，然而在自然中我们看到蚂蚁都能够表现出非常复杂和令人惊叹的智能行为，并且这些行为能力不是它在窝里花多久的时间训练出来的，而是一生下来就具备，以及不断的独立和社会生活过程中进一步学习和模仿获得。

如果像蚂蚁这样资源极其有限的生物智能在大自然当中都可以存在，构建人工智能还不得不用大量计算资源，就是一件很离谱的事了。

前几天，马毅在新开设没多久的 Twitter 账号上，发表了一个会让很多追赶深度学习时髦的人不舒服的观点：如果一个学者只读过去五六年里发表的文章的话，这辈子能够产生真正突破性想法的可能性几乎为零。与其这样做学问，还不如去赌城玩角子机赢钱的概率大。

这位UC伯克利驻校教授，也是这一观点的践行者。他是诞生于上世纪四五十年代的控制论、信息论、博弈论等忠实信徒，也是发展出这些理论的维纳、香农、冯·诺伊曼等人的拥趸。

他坚信当今以深度学习为主要方向的人工智能的发展，特别是发展过程中已经出现的一些问题（比如深度网络作为开环系统缺乏鲁棒性、存在“灾难性遗忘”等问题）早在六七十年前就已经得到了预示。

不仅如此，他认为智能系统的必要元素（包括紧凑编码、错误反馈、博弈论、非线性和平移不变性等），维纳早在在《控制论》一书中都已经提到并且讲对了。

“一个人得有多么自大，以为自己花半年想到的想法，在过去70年里那些比你更聪明、更会动脑筋、（计算）资源比你更少的人没有想到？现在被大家认为世界上最聪明的这样一群人，实际上反而变得最没有常识了，这是一个非常不幸的事情。”马毅表示。

图片来源：@YiMaTweets

不求成为主流，但求真正行家的共鸣

尽管身为 IEEE、ACM、SIAM 三个计算机和数学方面顶级学会的会士（fellow），马毅对来自学术和产业界的质疑和疏远并不陌生。过去五六年里他所发表的研究和提出的观点，经常让他成为学术挑战的对象。

这次也不例外。虽然论文发表之后引起了不小的影响，有人回帖表示对自己的研究很有启发——但这篇文章依旧延续了马毅多年以来坚持的思路，并且直言了对深度学习当下流行思路的批评，还是被一些深度学习研究者和从业者评价为“小题大做”。

当然，在学术界没有人能一下子就说服所有人。马毅还是对这次研究的成效感到满意。特别考虑到美国国家科学院成员，前不久刚加入 UC伯克利的神经生物学专家曹颖（Doris Tsao），不仅认可他的观点，还以第二作者的身份为论文提供了巨大的帮助。

作为更习惯用数字说话，以结果论英雄的“工程师思维”学者，马毅表示，这还是他第一次跟更“纯粹”的科学家合写论文，感受非常独特：

“我们做数学或者做工程的人都用结果说话，你看我这个算法比之前的好了10%，那它一定有道理对不对？然而在曹颖的面前，我必须要说服她我提的这个智能的工作原理，不是一个更好的选项，而是唯一的选项，是非此不可的。”

首先，马毅和课题组学生在研究智能基本原则中发现的最合理数据表达方式，跟曹颖过去在灵长类动物大脑里看到的一些现象非常相似，比如人脑和猴脑也是在用子空间的形式对学到的东西进行表达。

曹颖在论文中提供了从神经科学角度的一些观察和意见。具体来说，大脑用于建构世界的模型，在解剖学上也是高度结构化的，而且根本不会使用反向传播，因为需要的神经元对称突出太多，反馈机制过于复杂——换言之，现在很多人认为用深度神经网络就能模仿大脑工作的实现方式，完全有可能从根本上就是错的。

“我喜欢像这样‘非此不可’的思想体系和重要研究。”曹颖在她的推特账号上写道。

曹颖，图片来源：西蒙斯基金会

在论文中，马毅引用了物理学家费曼等人的名言。有趣的是，对于自己一生的成就，费曼曾表示因为发展出重整化方法而获得的名誉，本应属于另一位在当时岌岌无名的同行斯提克尔堡。而观点不是当今深度学习主流的马毅，和斯提克尔堡的经历颇有几分相似。

虽然在社交网络上偶尔“出言不逊”，现实中马毅还是平和地看到自己的遭遇，“倒未必说我发的文章大家一定要相信，科学界都是会有质疑的，这是很自然的现象，包括我自己也对别人做的东西有质疑的态度。”

他在智能基本原则问题上发表一篇又一篇论文，在网上做出一些“过激"的表述，其实更多是希望大家能够看到一个糟糕的现状：

太多深度学习学者过于依赖反向传播、梯度下降等通用方法，认为在局部找到最优解的思路就能够解决所有问题，甚至把深度学习当成研究对象（而不是实现研究目标的工具），这是一种“盲人摸象”、“一叶障目”的行为。

“大家现在都在说深度学习可以解决世界上的所有问题。甚至有人说什么 attention/reward is all you need。这就是只见树木不见森林的一个典型表现。而我们所做的是把所有的模块都整合起来，让大家看到智能不是单个的模块，而是一个整体的系统，它包括控制、对策（博弈）、优化，加上深度网络，四个放在一起形成一个闭环系统，每一块都是必要的。”

在华人科学家群体当中，包括菲尔兹奖得主丘成桐教授在内的一些专家都认可或欣赏马毅的观点，支持和邀请他在这方面做更深的研究。在国际上，他的观点得到了深度学习奠基人物 Yann LeCun 等人的关注，他的学生和实习生也收到了 LeCun 组（NYU/Meta）的邀请。

“这是很好的事情。我们这里资源有限已经快做到头了，他们有更多的资源，我们的研究可以在他们那得到继续研究验证。”马毅表示。

关键性的基石原则，背后的研究新势力

另一在这篇论文中扮演了关键角色的，就是文章的第三作者“Heung-Yeung Shum”——他不是别人，正是前微软全球执行副总裁沈向洋博士。

这不是沈向洋和马毅在学术课题上的首次交集。

马毅2006年来微软亚洲研究院（MSRA）访问研究，2009年正式加入担任首席研究员和经理，也接手了由沈向洋创办的视觉计算组（VCG）。他在任期间的一些下属同事，如何恺明、孙剑等，后来成为了国际上知名的计算机视觉专家。

马毅与在 MSRA 访问期间辅导的学生合影，图片来源：马毅

沈、马在 MSRA 不只是师徒和上下级关系，更是研究伙伴。二人在大学本科主修的都是控制和自动化，这让他们在研究思路上承袭了相似的传统。在 MSRA 访问期间，马毅提出的从压缩的观点来看高维数据分类聚类工作的思路，得到了沈向洋的赞同，二人也合作进行了相关的研究。

“我们发现闭环系统 work 得很好，当时我们俩一下子就意识到这个事情（的重要性）了，因为我们都是学控制的，这个事情在我们看来就很有道理。”

沈向洋是 MSRA 创始成员之一，在他的领导和影响下，MSRA 成为了当代科技公司学术研究部门当中，成绩最优秀、和母公司的产研结合最有机融洽、对社会和对产业带来的积极影响最大的一家。很多科技公司都曾效仿 AT&T 和施乐，打造属于自己的“贝尔实验室”或“PARC 研究中心”，但没有一家像微软-MSRA 这样成功。

2019年，沈向洋从微软“退休”，将更多精力放在科研创新和产研结合上，并于2020年11月正式创立了粤港澳大湾区数字经济研究院，即 IDEA 研究院。

沈向洋在2021年IDEA 大会，图片来源：IDEA

马毅直言表示，国外大公司的研发机构势力整体比较强，国内公司最近几年也在模仿。但是一段时间后发现，很多国内公司想要研究部门的“光环”，却不愿意付出代价，或者没有持久的信心。

“一些国内公司，招了一个优秀的研究员进来，过两年再问起来，发现这个人已经被调去做开发了。结果他开发也不是最好的开发，学术的知识也不是最领先的了，整个人废掉了……”

“像何恺明、孙剑这样的人才，都曾经在我们的组里，研究院培养了他们十年，给他们挡子弹，让他们可以专心搞科研。当时我们隔壁的中国公司，跳槽工资就涨一倍，他们却不愿意离开，可想而知为什么。”

这也是为什么马毅非常欣赏沈向洋发起的 IDEA 这样一家机构，为那些聪明、有抱负的人提供一个不急功近利环境，可以做真正有意义和前瞻性的研究工作，同时在组织层面，仍能保留敏锐的行业触角和实现能力。他用深度学习做蛋白质折叠举例，这个领域知识对于一个计算机学者和工程师来说可能需要好几年才能搞清楚，甚至做了几年下来可能没有一个可以发表的结果。

所以，做类似的前瞻研究必须要能够忍得住寂寞，能够承受风险，“谁能做这个事情？至少我在中国还没有看到。但是 Harry（沈向洋）有这方面的经历，他知道这里面的重要性，知道没有人去推动，这些事情永远不可能去发生。”马毅告诉硅星人。

过去十年间，深度学习方面的研究已然成为显学。太多人忙着做数据集、加码算力、调参、发论文、追求 SOTA（state-of-the-art 最佳成绩），反而真正关注基石性理论研究的人，少之又少（至少在马毅看来一些所谓的“基石模型”并不是真正基石性的研究，因为深度神经网络应该是实现目标的工具，而不应该成为被研究的对象。）

在应用研究的潮流面前，理论研究者注定形单影只。在这场探究智能的基本原则，挑战深度学习主流的战争中扮演大卫，既惊险刺激，感受良多，却也十分残酷。

马毅最近表示，虽然在加入UC伯克利之后已经完成当初给自己设立的目标，这五年在脑力付出上也是极为痛苦的五年。“也许到明年我也想休息一下，仔细想想接下来该做些什么。”

本文来自微信公众号：硅星人（ID：guixingren123），作者：杜晨