虎嗅注:研究人员称,人类近期在语音识别和人工智能领域取得的突破将很快会大幅提升设备的理解能力。谷歌著名工程师约翰·沙尔克维克(Johan Schalkwyk)表示,只需一到两年,这种性能强大的新型设备就会问世。它不仅能够听懂人们说话的意思,还明白上下文的关联与细微差别。
技术突破
与数字语音助手聊天产生的乐趣大概就像你努力与一个顽固的孩子讲道理一样。如果你曾经对着你的Xbox大吼,或者咒骂Siri,那说明你可能已经对语音识别失望了。
沙尔克维克正在谷歌从事一项野心勃勃的研究项目,开发能够整合公司海量数据的语音系统。他表示,目前正在实验室测试的一个项目能够使计算机听懂并在本质上“思考”人们向谷歌设备输入的语音。
语音和机器学习领域近期的创新应该会大幅提升语音识别的能力,缓解人们的不满情绪。Siri开发团队中有人表示,工程师们都在狂热地开发语音识别技术,令其足够智能,以实现设备与用户真正地对话。“语音识别技术对所有地区口语的理解能力已取得长足的进步,”Siri底层础技术的开发公司SRI International(后被苹果收购)副总裁威廉·马克(William Mark)称,“这种对话式互动现在成为了一种前沿技术。”
蒂姆·图特勒(Tim Tuttle)对语音识别技术的飞跃等待已久。他在1997年取得了麻省理工学院的博士学位,并在该校人工智能实验室任职。过去10年,他先后在多家硅谷公司工作,并最终在2010年创建了自己的公司Expect Labs。图特勒的公司去年开始从事一个系统研发,将复杂的语音指令加入到移动应用中。这款应用能够允许用户进入一家商店后向手机询问要买的扫帚在哪一条货架走道。
“一年前,我们做了一次基准测试,得出的结论是难以实现这一功能。但是现在,一切都已经发生了改变。我们公司对语音识别进行了加倍投资,主要得益于我们所看到的这些技术进步,”图特勒表示,“你将发现,那些在准确率上与人相当、或比人更高的语音识别系统实现商业化。”
旧技术获重生
先来迅速回顾一条历史教训:两年半前,谷歌和多伦多大学的研究人员发表了一篇颇有影响力的论文,内容关于使用“深度神经网络”在电脑中模拟语音。几个月后,微软和IBM合作发表了另外一篇论文。谷歌工程师杰夫·迪恩(Jeff Dean)将这两篇论文称之为“语音研究领域20年来取得的最大的一次进步”。
新发现让一项问世数十年的数字神经网络技术创新获得了重生。该技术在上世纪80年代在预测和分析大数据方面表现优异,但发展受制于当时过慢的计算机速度。神经网络在近期才成为一个可行的选择,这要归功于计算机处理速度的大幅提升和新软件技术的发展。
谷歌的实验室项目就是基于神经网络研究。6个月前,谷歌团队放弃了一种名为前馈神经网络的旧方法,转而使用递归神经网络。这一转换使得系统能够存储更多信息,处理更长、更复杂的序列。谷歌的创新成果在于对底层代码的简化,允许软件在相同系统中存储更多观点和概念,使之易于问出复杂的问题和得出合理答案。“系统构建得复杂会损害其长期发展,”沙尔克维克说。
谷歌系统现在使用上下文、物理定位及其它了解到的说话者信息对谈话的场所和真正含义进行预测,就像人在谈话时大脑所做的一样。谷歌的新网络技术应该会更高效,从而能够处理比以往更多的数据,回答更为复杂的请求。
为了解释未来语音识别技术的工作原理,沙尔克维克使用了距离谷歌加州山景城总部几英里之外的高级越南餐馆作为例子。这家餐馆名为Xanh Restaurant。沙尔克维克称,对于典型的语音识别系统来说,识别出这个餐馆名字的发音是个挑战,因为Xanh的发音为“zahn”,识别起来十分困难。“如果我能使用地图,然后说‘这是一家餐馆,它位于加州’,那么可供参考的餐馆数量就会立刻减少很多,”他说,“使用这种语义知识,我们能够大幅改善语音识别的质量。”
这听起来简单,但对于计算机来说,听到一个词汇,从句子中识别上下文,然后根据地理位置分析信息是一件极为困难和耗费时间的事情。如今,谷歌语音搜索能够正确识别餐馆,也许就是因为其开发者是餐馆老顾客的原因。沙尔克维克称,未来谷歌将能处理其他同样存在语音模糊不清的众多问题。
沙尔克维克表示,在谷歌内部,语音识别取得了“数量空前多”的技术进步。尽管谷歌取得的重大进步还需要一到两年时间才能在手机上体现出来,该项目已经催生出了可用于谷歌其他业务的技术。“你开发一些技术准备登月,与此同时,你也开发出了另外100项有用的技术,”沙尔克维克说。
沙尔克维克称,三年前,谷歌语音识别技术或许仅能识别3/4的单词。而如今,图特勒称,得益于创新速度的加快,谷歌手机语音识别应用能够准确猜中12/13的单词。“未来,我们将会生活在一个设备没有键盘的世界里,”图特勒说。