本文来自微信公众号:KnowingAI知智(ID:Knowing_AI),作者:虞喵喵。
即读即写,不用动手,神奇的语音输入背后有哪些秘密?如果不会说普通话,机器还能听懂我的意思吗?
看完本文的视频,你对人工智能的了解就能轻松超过全世界 99% 的人类!
图文版本送给不方便打开的朋友:
即读即写,不用动手,用语音输入文字简单又高效。但识别语音这件事,可不是什么容易事。
在进行识别之前我们要做不少准备工作。先用大量声音数据训练一个声学模型,用来将声音转换为声学符号。再用大量文本数据训练一个语言模型,为声学符号找到最可能的文字表达。
接下来,我们将要识别的语音按照一定时间间隔切割成彼此重叠、很小很小的段落,再通过声学模型将这些小片段识别成对应的语音状态。这些语音状态是声母、韵母的组成部分,能很好的对语音进行描述。
在将声音与文字对应的过程中,声学模型依然扮演着重要的角色,它能找到语音状态最可能的声学符号表达,借由一个发声词典,将声学符号与语言模型中的最有可能的文字表达相对应,就能将语音转换成文字。
不会讲普通话,机器还能识别我的语音么?
当然,将训练声学模型、语言模型的数据更换为方言数据,再加上一个方言词典,机器就能准确识别你说的方言啦。