中美AI研究，为什么“互不待见”？-虎嗅网

本文来自微信公众号：机器之心（ID：almosthuman2014），原文标题：《从NeurIPS论文来看，中美学者很少互相引用》，题图来自：视觉中国

不知从何时起，我们习惯了人工智能的学术顶会上中美研究数量排名前两位的形势。不论在工业还是学术上，两者很大程度上引领了技术的发展，中美的交流也非常密切：不少大厂都会在对面设立研究院，每年都有很多人会前往美国留学，或进行学术交流。

然而一份新的统计研究认为，中美这两个领域内最重量级的玩家似乎不太对付：

不仅不互相引用，连话都不说。

这份研究引发了人们的热烈讨论。要知道，以最著名的 NeurIPS 为例，光是美国的论文数量就超过了接收总数量的一半。

NeurIPS 2021 的论文来源统计。

说前两名缺乏学术上的交流，属实有点反直觉了。然而这份研究的统计数据已经列好，而且还要在几天后的 NeurIPS 2022 上开一个研讨会。

近年来，中国关于 AI 的研究迅速增长，就全球最负盛名的 AI 学术会议之一 NeurIPS 发表的论文总量而言，中国目前是仅次于美国的第二大国家。根据统计，2020 年，来自中国机构的论文数量占 NeurIPS 所有论文的 13.6%，到 2021 年，这一比例增加到 17.5%，相对增长了 28.7%。

尽管中国是 AI 强国，但中国与美国机构之间的合作比美国和西欧机构之间的合作要少。有趣的是，这些研究者还在机器学习会议上组成了不同的社交群体，比如说在交谈和用餐这些小事上，中国的研究人员经常是与欧洲和北美的研究人员分开的，彼此缺乏互动。

本文中，来自爱丁堡大学以及艾伦人工智能研究所等机构的研究人员，对中国研究人员和美国研究人员之间的差异进行了探索。研究中他们采用了 NeurIPS 引用数据，以此来分析美国和中国机构对学术研究的影响。结果发现中国机构对美国和欧洲的论文引用很少（under-cite），而美国和欧洲机构对中国的论文引用也很少。

论文地址：https://arxiv.org/pdf/2211.12424.pdf

中国和美国相互引用较少

中国和美国研究界之间的这种隔离有多严重？作者做了以下一些研究。

他们将从 AI 学术搜索引擎 SemanticScholar 上获得的 NeurIPS 论文的引用数据与从清华学术知识图谱 AMiner 的作者的机构信息结合起来，制定了一个引用图。具体来说，该研究首先从 NeurIPS 网站上收集了 NeurIPS 2012~2021 年的所有论文标题，之后使用 S2AG（Semantic Scholar Academic Graph）API 将论文标题映射到对应的 Semantic Scholar paper ID。对于那些不匹配的论文，该研究进行了手动搜索。每一篇论文都使用 S2AG API 来识别作者，以及参考文献中的论文作者。

接着，该研究使用 AMiner 识别每个作者的机构信息，结果发现在 9460 篇 NeurIPS 论文中共有 135941 位作者，其中有 83515 名作者找到了机构（占比约 61%）。此外在 AMiner 上有还有 4038 篇没有作者的论文被从数据中删除。接下来，该研究自动标记机构，包括国家名字以及常见的城市和地区。除此以外，该研究还删除了主要的跨国公司实验室（例如谷歌、Meta、微软、腾讯、阿里巴巴或华为）。

在剩下的 5422 篇论文中，该研究删除了不在特定地区（中国、美国、欧洲）或包括多个地区合作者的论文，最后只剩下 1792 篇论文用来研究。得出的结果如下：

根据图表显示，我们可以看出美国和中国的论文在多大程度上没有引用对方的文章。从中国对美国论文的引用量来看，虽然美国论文占了数据集的 60%（总共 1792 篇，图 1 左显示美国大约 1100 篇），但它们被中国论文引用的数量只占 34%（图 1 右）。

美国对中国论文的引用差距则更显著：虽然中国论文占数据集的 34%，但它们只占美国引用数的 9%。

作为对比，我们来看看美国对欧洲论文的引用，对比很明显：尽管在此次实验中，NeurIPS 论文数据集中的中国论文数量是欧洲论文的 6 倍，但美国机构引用中国论文的频率低于欧洲论文。

该研究还观察到每个地区自引的频率都高于被其他地区引用的频率：中国为 21%，美国为 41%，欧洲为 14%。美国和欧洲的研究界有着相似的引用行为，对中国论文的引用很少，而中国机构引用美国和欧洲论文的频率低于其他地区。

不过也有网友认为：来自不同国家的机构可能会侧重于不同的领域（例如 NLP 中的 ML 方法、数据效率等）。他们很少引用他们领域之外的论文。

需要注意的是，该研究忽略了很多复杂的因素。首先，虽然统计认为任何位于美国的大学的工作都归属美国，但美国实验室可能仍与中国机构有密切联系，这可能导致作者高估了美国和中国人工智能研究之间的隔阂。例如，美国存在大部分或全部由中国留学生组成的实验室。

同样，返回祖国的中国国际学生可以为母校和其他机构带来国际联系。我们无法衡量这些毕业生在多大程度上改变了他们的引用模式，变得关注国内论文，或是继续广泛引用美国的工作。此外，对于研究论文范围的限制也影响了结论的可信度。

结论

虽然美国和中国的研究人员经常在同一个学术活动上发表论文，但他们代表了两个平行的社区，相互之间的影响低于应有的程度。这种分歧可以归因于对不同主题的兴趣，因为文化氛围会影响研究重点。例如，多目标跟踪在中国是一个活跃的研究领域，有流行的大规模基准。

然而在北美，对滥用生物识别数据的批评导致研究人员回避相关任务和数据集。同样，在 FACCT 等公平性会议上，美国研究者的贡献往往较多，而中国的代表人数仍然有限。然而，即使是在中国流行的抽象主题或架构在其他地区也未必流行。PCANet 是一个来自新加坡研究实验室的图像分类架构，有 1200 次引用，主要来自中国或东亚机构。南京大学开发的 Deep Forests 获得了 600 多次引用，其中大部分是国内研究。

受地区间缺乏交流限制的不仅是研究课题。近年来，北美和欧洲的 AI 社区已经开始就 AI 的伦理考虑进行对话和发表研究。根据这些思考，AI 会议系统地要求审稿人关注道德问题，并要求作者撰写道德声明或清单。然而，与中国研究人员就这些主题进行的接触仍然有限。

这种脱节的一个例子是 NeurIPS 道德规范的临时草案。在最初出版时，提出者主要隶属于美国大学、美国跨国公司和澳大利亚的一所大学，没有一位作者常驻亚洲。尽管观察家们注意到中国人工智能机构的道德声明有许多相似之处，但这种缺席是存在的。

另一方面，尽管美国和中国研究人员在伦理声明中存在这些相似之处，但在研究实践中仍存在具体分歧。两个社区之间的分离对个体研究人员、整个机器学习社区以及可能受 AI 研究影响的社会都有真正的影响。

最后研究人员表示，人工智能社区已经很久没有就如何克服这一障碍进行对话了。

众所周知，充分的学术交流可以促进技术发展，中美在 AI 领域内论文互相引用比例少的现象，一定程度上反映了两部分学者之间的隔阂。近年来，国内 AI 社区快速发展，形成了活跃的生态，但此类的现象仍然值得我们担忧。

在这其中，除了语言文化方面的问题，也有一些“不可抗力”。

这位学者就抱怨有时候他们是主动避免交流。

看来想要改变这一情况，还有很长的路要走。

本文来自微信公众号：机器之心（ID：almosthuman2014）