本文来自微信公众号:数据实战派(ID:gh_ff93f845912e),作者:林檎,头图来自:Apple
2天前的苹果发布会因为低于预期,再为“乔布斯之后,苹果再无创新”的论调添砖加瓦,许多人感叹发布会毫无亮点,没想到2天后,苹果能够凭借iOS 14的一项功能更新的惊喜效果登上微博热搜。
“你懂个锤子”——what the f*** do you know?
“瓜娃子”——Dumb-ass。
“不样停车”——Don’t park。
“瓜皮”——Stupid。
“我一把把把把把住了”——I have got a handle。
苹果、腾讯、有道对“瓜皮”的翻译结果
没错,喜提热搜的便是昔日屡屡被吐槽落后的苹果翻译功能。
这个热门话题之下,许多用户晒出了自己使用iOS 14最新内置翻译功能得出的中翻英结果。根据我们的观察和体验,这些结果引发热议和新鲜感的一大原因在于,苹果的机器翻译居然读懂了许多非常规中文表达,包括方言、网络流行用语、行话、口误等等具有知名NLP话题“自然语言处理太难了”色彩的表达。
在过去的几年里,苹果一直在努力提高其人工智能能力,机器翻译便是其中之一。这家公司在2016年吸引到了该领域的大牛人物,如卡内基梅隆大学研究员Russ Salakhutdinov。2019年,苹果聘请了谷歌人工智能专家 Ian Goodfellow 作为新的机器学习总监,与此同时,苹果还收购了一家人工智能初创公司Voysis,用以帮助改进Siri。
Siri本身也内置了机器翻译能力,不过,这些能力被认为远比不上谷歌、微软等行业先行者的工作。
直到今年的WWDC2020,苹果正式公布iOS 14系统,并首次引入基于iPhone神经网络引擎的翻译功能,宣称支持包括中文在内的11种语言,且用户可通过文章或语音进行翻译识别。据官方介绍,翻译APP是根据iPhone神经网络引擎实现语言转换的,且这个过程是在离线状态下完成,用户不用担心会被窃听的风险。
没想到,和苹果强调的离线保护隐私这一亮点相比,中英翻译质量成功“喧宾夺主”。
熟悉机器翻译的读者都清楚,近年来,机器翻译效果上的改进,主要得益于神经网络翻译模型的应用:从初期纯粹的词典匹配,到加入了语言学领域的专家知识实现规则翻译,发展到今天,基于语料库的统计机器翻译已经大行其道,机器翻译现步入神经网络发展阶段。影响神经网络翻译模型实际效果的关键之一,便在于被用来训练神经网络模型的语料库。被语料库训练过后的模型,可以实现更复杂的自动翻译,更好地处理不同的文法结构、辞汇辨识、惯用语的对应等。
这次iOS 14 能够有这样的翻译表现,其中一种大概率的可能性是,苹果把不少“小众”中文表达纳入了其机器翻译语料库更新之中:如果苹果的语料库中没有“瓜皮”这个词语的含义,或者根本不出现,那么模型在翻译的时候,很难或者根本无法翻译出准确的结果,因为它根本不知道可以翻译成“stupid”。
不过iOS 14翻译的结果也有可以诟病的地方,比如说它延续了中文语料库中的一些歧视性表达。比如将“阿三”翻译成了“An India”。如果这个结果出现在其他国度,恐怕苹果要吃大官司,这也是“小众”语料库的风险所在。
目前,苹果并没有公开研究透露iOS 14翻译功能更新的具体实现方法。但在其机器学习研究博客apple machine learning中,已经有超过5篇与机器翻译相关的研究,显然,这家公司意识到自己的行业落后位置。
而除了语料库的多元化之外,模型的更新、人机耦合等方法也能够带来改善效果。
最后多言一句,人机耦合这个概念,曾经因为国内厂商在机器翻译上的不当宣传而变得颇负面,但实际上,机器翻译文本,人类改进,机器再检查,“重复,直到翻译准确”,确实能够形成很好的反馈闭环。
包括网友们这次晒出的一些iOS 14翻译效果,也能证明人机耦合(以及人工翻译)的一大“壁垒级”价值,那就是,人类的语言表达总是实时更新的,而且其更新换代之中也总有具有创造性的表达/翻译。如果最初没有人把“工藤新一”写作“滚筒洗衣机”,相信苹果的模型也无法输出下面的这个翻译结果。
本文来自微信公众号:数据实战派(ID:gh_ff93f845912e),作者:林檎