被误读的“图灵测试”与性别困惑-虎嗅网

6月23日是图灵诞辰，印有其头像的50英镑纸币正式发行。广泛流传的“图灵测试”曾被视作人工智能发展水平的测验，但最初其实是“男人模仿女人”和“机器模仿女人”的思想实验。一份最新研究揭示出其被忽视的性别意涵。本文来自微信公众号：燕京书评（ID：Pekingbooks），作者：元十雨，原文标题：《图灵的悲剧：“模仿游戏”与性别困惑》，题图来自：视觉中国

6月23日，在阿兰·麦席森·图灵（Alan Mathison Turing）109周年诞辰，印有其肖像的新版50英镑纸币正式发行，以纪念这位曾在计算机和人工智能领域做出杰出贡献，投身破译纳粹密码工作，却因性取向被判罪而自杀的数学家。

1912年6月23日，图灵在英国伦敦出生了。同样是在6月，1954年，管家在图灵床边发现一只咬开的苹果，以及一旁已然变凉的图灵。化验结果和警方勘察表明，与苹果一起下肚的，还有剧毒的氰化物。警方认定图灵死于自杀。

在阿兰·麦席森·图灵109周年诞辰，印有其肖像的新版50英镑纸币正式发行

以数学才能著称的阿兰·图灵，同样为人所知的还有其生前最后两年所经历的暴力与创伤。1952年1月，图灵家中被盗，而其结识不久的伴侣阿诺德·莫里（Arnold Murray）告诉图灵自己认识窃贼。图灵因失窃向警方报案，提及了莫里提供的信息，也说明了自己与莫里的关系。然而，警方接到盗窃的报案，却把图灵与莫里的同性关系视为更加严重的罪行。两人因此被逮捕，以“严重猥亵”（Gross Indedency）的罪名被起诉。在入狱与激素治疗两个选项中，为了避免前者，图灵接受了后者，在长达一年的雌激素注射“治疗”下，眼睁睁地面对不符合自身认同的身体变化。

1934年，图灵从剑桥大学国王学院数学系毕业；1936年，在论文中首次提出“图灵机”的设想，后人将其视为现代计算机的原型。1936～1938年，在普林斯顿大学继续研究纯数学的同时，图灵也开始在密码学领域摸索，并在毕业论文中提出了预言机与图灵机的结合。冯·诺伊曼希望雇用图灵留在普林斯顿做博士后研究，但他返回了剑桥，去路德维希·维特根斯坦的课堂上听有关数学基础的哲学课程，与维特根斯坦在课上讨论和辩论。二战期间，图灵受雇于英国政府，负责破解纳粹德国的密码；战后，则继续计算机和人工智能领域的研究。他认为，与其让机器模拟成人，不如模拟孩童，由此启发了影响深远的人工神经网络和机器学习的思路。

“模仿游戏”：广泛流传的图灵测试

在今天，图灵的闻名在很大程度上是由于“图灵测试”概念在大众媒体中的传播。“图灵测试”时常被简化为如下版本：一台机器在另一个房间通过打字机与人类测试者进行问答交流，如果房间外的测试者无法判断与自己交流的是人还是机器，那么就可以判定这台机器具有智能。有时，我们也会看见另一个稍微复杂的版本：测试者与两个在其他房间的对象进行文字交流，这两个对象中一个是人，一个是机器。如果测试者无法分辨哪个是人，哪个是机器，就可以说机器通过了图灵测试。

这一思路将机器的“智能”定位于借助人类外部视角的判定，巧妙地避开了“机器是否有意识”的难题。它在人工智能的发展中影响如此深远，以至于在图灵身后半个多世纪后，很长一段时期内被当做检测人工智能发展水平的标准；故而，很多年前我们便会不时看到某个程序“通过图灵测试”的新闻，接着又会看到“尚未完全通过”的评论。

如今，当我们接到的广告推销电话、点开的在线客服的另一端都有可能是一个AI，通过图灵测试似乎早已不再像当年那么令人激动或诧异。人们开始关注到以通过图灵测试作为人工智能发展方向的问题，比如，机器擅长的事情有很多是人类所不擅长的，像是强大的数据储存与检索能力，远为人脑所不能及，那么机器智能的标准为什么要一味向人脑靠拢？而借助人类视角，以机器与人的相似度判定机器智能的思路，是否滑入人类中心主义的陷阱？

亚马逊人工智能机器人Alexa的首席科学家罗赫特·普拉萨德（Rohit Prasad）认为，图灵测试的原始版本只是一个思想实验，不应视为对人工智能的终极测试。现在，人工智能的发展已经到了抛弃图灵测试的那一步，我们应该看到图灵所能够带来的更广阔的启发。

的确，耳熟能详的“图灵测试”，其实是后人赋予的名称和用途，图灵本人在论文中所提出的，其实是“模仿游戏”。它最初是作为思想实验出现，而非为人工智能所设置的“考试”。倘若回溯图灵提出“模仿游戏”的历史背景，会发现当时更加盛行，现在也不罕见的是这样的观点：认为人和机器有着本质不同，机器没有感情，没有有机的身体，没有语言能力，只能鹦鹉学舌，而无法像人一样思考。相比这一思路，“模仿游戏”通过把机器和人隔离在测试者的视野范围外，再通过文字交流避免以声音的生物学特征作弊，让机器避免了不公平的比较，反而是更不那么人类中心主义的一种。

以图灵为原型的电影《模仿游戏》（2014）剧照

令人困惑的性别信息：“模仿游戏”中的女人、男人和机器

一个常常被忽略的维度是，在图灵最初提出的版本中，并不只有“人”与“机器”的物种差异，还有“男人”和“女人”的性别维度。在1950年的论文中，图灵这样提出后来被人称为“图灵测试”的“模仿游戏”：

新的问题形式可以用“模仿游戏”（imitation game）来描述。三个人来玩这个游戏，一个男人（A），一个女人（B），一个不限性别的提问者（interrogator，C）。提问者和另外两个人待在不同的房间。提问者的游戏目标，是辨别出另外两个人中谁是男人，谁是女人。他把两个人分别标记为X和Y，游戏最后，他要么猜“X是A，Y是B”，要么猜“X是B，Y是A”。而我们现在要问：“要是把这个游戏中的A换成一台机器会怎样呢？”提问者猜错的概率会比在刚才那个辨别男女的游戏中猜错的概率更高吗？我们可以用这些问题来置换一开始那个“机器会不会思考”的问题。

虽然偶有媒体提及这个版本，但往往一笔带过，很快滑入“机器模仿人”的简化版本，而忽略其中令人疑惑的性别信息。然而，仔细考量图灵的最初设定，会发现这里有两重模仿游戏：一层是模仿女人的男人，一层是模仿女人的机器。在这个游戏中，机器要模仿的不仅是人，而且是特定性别的人。

图灵测试，从一开始就是一个思想实验。图灵的表述其实是，相比男人模仿女人的游戏，在机器模仿女人的游戏中，提问者猜错的概率会更高吗？我们或许还能注意到，这个问题指向的也是游戏中的提问者，而不仅仅是男人或机器的表现。不过，假设两个游戏中的提问者是同一个，或者有着相同的理解能力，图灵的问题看上去也无法转化为“机器能够模仿人类吗？”。更准确的转化似乎是——“男人比机器更擅长模仿女人吗？”，或者“机器不如男人会模仿女人吗？”

这个分析带来的结论似乎令人诧异，它与人们印象中的图灵测试相去甚远。图灵在论文中甚至还有更加细节的例子，例如提问者也许会问头发的长度。如果注意到这个游戏中的性别信息，而且没有选择性地无视这一点，那么图灵测试恐怕不会像一直以来那样被当做人工智能发展的某种终极测试。试想，如果人工智能的发展目标是“比男人更会模仿女人”，听上去会多么有趣。但在历史上，图灵模仿游戏中所隐含的性别意涵，恐怕令许多人工智能和心灵哲学领域的研究者感到不安。这些信息往往被有意无意地忽视，他们选择将原版设想中，女人、男人、机器的三者关系，简化为人与机器的二元关系。

去性别化的图灵测试：性别信息何时被忽略和隐藏？

那么，是从何时开始，被简化的图灵测试开始流传？

在今年新发表的一份研究中，巴西IBM和圣保罗大学（University of São Paulo）的研究者博纳尔多·贡萨尔维斯（Bernardo Goncalves），分析了性别在图灵模仿游戏中所扮演的角色。根据他的梳理，在1995年人工智能国际联合研讨会上，帕特里克·哈斯（Patrick Hayes）和肯尼斯·福德（Kenneth Ford）发表意见，认为科学界应当放弃图灵测试，理由是按照图灵的思路，会造出“机器异装癖”（mechanical transvestite）。在他们看来，从实验设计的角度来说，图灵原本的模仿游戏是不精确且糟糕的，他们认为图灵没有想清楚自己要做什么。如果想要进行这个实验，结果只能令人失望。

很难想象，直至如此晚近的年代，科学界和哲学界还会恐慌于如“异装癖”这样模糊二元性别边界的实践，甚至将担忧蔓延至机器身上，蔓延至人工智能领域的理论建构和实验方向，以及心灵哲学的思想实验设计上。在更多时候，这种排斥不会以如此明显的方式显示出来，而是往往以论证的形式将性别边缘化为不重要的维度，正如随后几个研究所表现的。

随后几年里，高蒂埃罗·皮奇尼尼（Gaultiero Piccinini）、詹姆斯·摩尔（James Moor）、杰克·科普兰（Jack Copeland）等人，分别在2000年、2001年和2004年的一系列文章中，将图灵的模仿游戏诠释为机器能否具有与人类相匹敌的智能，也就是我们今天所熟知的图灵测试版本。这一版本被贡萨尔维斯称为“物种测试”，它关心的是人与机器这两个物种之间的比较。在贡萨尔维斯看来，图灵设计的原始版本中，包含物种测试与性别测试两个维度，然而这些诠释者不承认图灵原文中的性别测试。他们所依据的是图灵论文中出现的另一个版本的“模仿游戏”，这个版本比“男人模仿女人”和“机器模仿女人”出现得更靠后。图灵写道：

让我们注意一台特定的数字计算机。......通过调整这台计算机的存储空间，合理增加运行速度，配置合适的程序，它可以胜任模仿游戏里的A角，而B角由一个人/男人（man）充当。

我们知道，在英文中，“man”一词大多数时候特指“男人”，但也有时会泛指“人”。如果脱离语境，的确很难判断这里的“man”一词是特指还是泛指。乍看起来，这里未出现特指性别的信息，与机器并举，理解为泛指的“人”似乎也很合理。皮奇尼尼等人正是如此解读。然而，这几位研究者不太可能没有读到前文。考虑到前文出现过的“男人模仿女人”和“机器模仿女人”的设计，这里出现的“man”还能如此不假思索地理解为不指定性别的“人”吗？贡萨尔维斯问道，如果作此理解，如何保持图灵文本上下文的连贯和逻辑的通畅呢？

斯坦福哲学百科中“图灵测试”词条2020年冬季更新的最新版中，作者在这一问题上也支持摩尔等人所诠释的“标准版本”，认为图灵提出的模仿游戏虽然可能限定了性别，但是没有理由认为限定性别的图灵测试是更好的。他们认为无论图灵测试中机器所模仿的是男人还是女人，对于测试机器智能的效力来说没有什么区别。然而，这一看法本身已经预设了图灵测试的唯一目的或最重要目的是对机器模仿人类能力的测试。基于这一预设来进行论证，毋宁说有循环论证之嫌。对于这一预设，我们可以质疑：为什么“物种模仿”的重要性，大于“性别模仿”的重要性呢？

无论如何，经由这些研究者重新诠释和构建的去性别化版本，几乎已成为如今提到“图灵测试”时人们首先想到的版本，不但流行于大众媒体，在人工智能和心灵哲学界也是如此，渐渐成为关于图灵测试的主流看法。而其中的性别意涵，甚少受到研究者的认真对待，甚至不时遭受贬低。

2014年，度鲁·麦克德默特（Drew McDermott）在文章中认为：“考虑到图灵的模仿游戏过去半个世纪在心灵哲学界的重要性，很遗憾他不太清楚这个游戏是在干什么。”贡萨尔维斯反问道：“图灵测试中的性别角色问题，影响到其作为一个实验的价值。图灵是否在机器智能的设计中提出了性别模仿？既然是的话，性别模仿和智能的关系是什么？这仅仅是一个玩笑，还是一个值得严肃对待的经验问题？”

图灵-杰斐逊之争：写诗和性激素是人与机器的关键区别吗？

在发表那篇有关模仿游戏的论文半年以前，图灵和同在曼彻斯特大学的神经外科教授杰弗里·杰斐逊（Geoffrey Jefferson）曾在媒体上有过一场争论。贡萨尔维斯梳理后认为，图灵发表于1950年的模仿游戏，其实在某种程度上是对杰弗森的隔空回应。如果读者看到两人的论证内容，或许更容易发现模仿游戏中性别设置的潜在意涵。

二战之后，图灵就职于英国国家物理实验室，成为数字计算机的带头开发者之一，之后又成为曼彻斯特大学数学系的准教授。1946年年底，图灵以机器专家的身份接受《每日电讯报》（Daily Telegraph）的采访，就此为公众所知。

1949年6月9日，同在曼彻斯特大学的神经外科教授杰弗里·杰斐逊（Geoffrey Jefferson）在一次演讲（Lister Oration）中表达了自己对于数字计算机的现状与前景的看法。这场演讲以“机器人的心灵”（The mind of mechanical man）为题，评论了包括图灵参与的项目在内的几个数字计算机项目。杰斐逊以人类为参照，为机器智能设立了极高的标准，表示“机器人不可能有心灵”。在演讲中，他这样说道：

除非机器能够出于思绪和情感的流露，写出十四行诗或者协奏曲，而且不是随机地落下音符，那才能说机器能够媲美大脑——也就是说，它不但会写，而且知道自己在写。没有什么机械装置能够感受到成功的喜悦、阀门熔断时的悲伤、被赞美的温暖、犯错后的痛苦、性的吸引、求而不得时的气恼或难过。

面对这番评论，图灵第二天通过《泰晤士报》（Times）回应道：

我不觉得你能写出一行十四行诗，不过和机器的比较还是有点不太公平，因为机器写的十四行诗恐怕只有另一台机器才更懂得欣赏。

图灵的回应或许显得幽默而尖刻，但“机器欣赏机器写的诗”这种说法，哪怕放在现在，听上去也颇有去人类中心主义和后人类时代的前瞻性。两周以后，杰斐逊的演讲稿在《英国医学期刊》（British Medical Journal）发表，在期刊的开头，编辑还不忘讥讽图灵的异想天开：

曼彻斯特“机器脑”的负责人之一图灵先生，6月11日接受《泰晤士报》的采访说，他不排除机器写十四行诗的可能，尽管也许只有另一台机器才能欣赏。他的话也许不是认真的吧。

有趣的是，在1950年的论文中，图灵真的举了一个十四行诗的例子。在这个例子中，提问者和回答者来回就诗的用词问题来回问答。图灵想以此说明，如果通过了这个测试，那么就说明其对诗有所理解，而非只是鹦鹉学舌。这个例子是这样设想的：

提问者：你在十四行诗的第一行写道：“我是否该将你比于夏日”，为什么不是“春天”，难道不会一样好，甚至更好吗？

回答者：那样不合格律。

提问者：那“冬日”呢？这个合律。

回答者：不错，可是没人想和冬日作比。

提问者：你会觉得匹克威克先生让你想起圣诞吗？

回答者：有点。

提问者：圣诞也是冬日嘛，我看匹克威克先生不会介意与之相类。

回答者：你不是认真的吧。提起冬天，人们想起的是普通的冬天，而不是圣诞节这种特殊日子呀。

直到前几年，当会写诗的人工智能在现实中出现时，还曾引发人们的惊诧、否认和讨论，更不用说七十年前人们的反应。例如，人们会说AI小冰写的诗“没有感情”，所以不具有诗歌的价值，这与当年杰斐逊说机器没有情感，所以无法媲美人脑的说法何其相似。

根据贡萨尔维斯的考证，除了这一点，在与图灵的分歧中，杰斐逊还提出两个主要论点：一是借用笛卡尔区分人与动物的思路，为人与机器的区分划下一道本体论的边界，认为机器只能鹦鹉学舌而不能进行逻辑推理，没有进行概念化思考的语言功能，而后者正是杰斐逊认为“灵魂，至高的智能器官”所在之处，是“从最高级动物到人那神秘而突然的一跃”。这番以理性区分人与非人的本质主义观念，如今看来，弥漫着令人尴尬的人类中心主义和逻各斯中心主义气息。

不过，更富有意味的还是他提出的第二个论点。杰斐逊构造了一个电动陆龟的例子：

应该有可能造出一只简单的小动物，例如一只陆龟（就像Grey Walter巧妙的构想），可以爬动，不喜欢光亮和湿冷的环境，会被噪音惊到，在它的感受器能够感应的范围内，它会爬向或避开刺激源。在合适的条件下，这个玩具可以做得栩栩如生，以至于轻信的人们会叫出声：“这真是一只乌龟！”然而，我想象了一下，如果另一只陆龟走近来，它会很快发现这真是一位令龟困惑的伙伴、令龟失望的伴侣。

杰斐逊认为，“性激素”是人与动物所特有，区别于机器人的本质特征。电动陆龟没有性激素的驱动，所以无论如何逼真，对于动物陆龟来说，只能是令其“失望的伴侣”。

《机器人总动员》里的WALL·E（Waste Allocation Loa d Lifters – Earth，地球废品分装员），经历了漫长的岁月，它开始拥有了自己的意识。

图灵测试的性别意涵：对性激素决定论的戏谑？

杰斐逊的看法，似乎建基于一套可疑的生物本质论与生理本质论的话语体系。雄性和雌性，依照体内性激素的分泌，表现出符合各自性别的行为，感到来自异性的性吸引并与之交配，从而延续物种基因的传递。

如果说在理解动物行为时参考这一体系尚未使人明显地察觉问题所在，当这套知识与话语体系用于解释男性和女性的性别表现、性倾向与性别气质的表达，并且固化二元性别界线与规范，或许能使人更清醒地意识到其中的问题所在。实际上，在那个年代，性激素也被认为是解释性行为的生理基础。主流观点以生理学与生物学的名义，设定了“正常”的生理标准。

这正是1952年的图灵最终所面对的悲剧。以此推测，当他在1949、1950年间与杰斐逊论争，提出性别模仿游戏时，恐怕也未曾料到自己的结局。依据现有的材料，我们很难推测图灵在那个时代的经历如何影响了其对性别议题的认知、感知与思考，也无法得知性别模仿游戏的提出与其具身经验之间有何关联。然而，图灵本人在那个年代以肉身所经历的性别暴力，与他在模仿游戏中以幽默反对的性别本质主义，以及身后图灵测试在科学界与哲学界经历的去性别化重构，却仿佛彼此呼应，旋出一个悲剧而复杂的漩涡。

在1950年，图灵的性别模仿游戏，会不会是在以幽默而隐晦的方式，表达对生物决定论的戏谑和不满？然而在科学界和哲学界，能够对其反讽趣味感到会心者却寥寥无几，以至于大多选择无视或抹除其中的性别信息，甚至讥其为“机器异装癖”。

重新看待图灵测试中的性别维度，意味着关注人工智能和机器学习中的文化因素。1994年，几乎是最早从性别视角对图灵测试进行挖掘的学者朱迪斯·格诺娃（Judith Genova）写道：

性别是一种知识。对于图灵来说，思考和存在都是话语和文化现象，而非生理性的。

参考文献：

Genova, J. (1994). Turing’s sexual guessing game. Social Epistemology, 8(4), 13–26. doi: 10.1080/02691729408578758.

Gonçalves, B. (2021). What’s in a thought experiment: the role of gender in Alan Turing’s progressive imitation game.

Oppy, Graham and David Dowe, "The Turing Test", The Stanford Encyclopedia of Philosophy (Winter 2020 Edition), Edward N. Zalta (ed.),

URL = <https://plato.stanford.edu/archives/win2020/entries/turing-test/>

Rachel Treisman. New U.K. Currency Honors Alan Turing, Pioneering Computer Scientist And Code-Breaker.

https://www.npr.org/2021/03/25/981242121/new-u-k-currency-honors-alan-turing-pioneering-computer-scientist-and-code-break

ROHIT PRASAD. The Turing Test is obsolete. It’s time to build a new barometer for AI.

https://www.fastcompany.com/90590042/turing-test-obsolete-ai-benchmark-amazon-alexa

Turing, A. M. (1950). Computing machinery and intelligence. Mind, LIX(236), 433–60. doi: 10.1093/mind/LIX.236.433.

Wikipedia. Alan Turing.

https://en.m.wikipedia.org/wiki/Alan_Turing

Wikipedia. Turing Test.

https://en.m.wikipedia.org/wiki/Turing_test

本文来自微信公众号：燕京书评（ID：Pekingbooks），作者：元十雨