本文来自微信公众号:KnowingAI知智(ID:Knowing_AI),作者:虞喵喵。
如果不是录出来的,听起来很自然的导航语音,又是如何完成的?点击视频,你对人工智能的了解就能轻松超过全世界 99% 的人类!
图文版本送给不方便打开的朋友:
语音导航我们都用过,不过温柔的林志玲姐姐语音,究竟是录好的?还是合成的?
在开始合成语音之前,需要先录制一些语音作为语音库。为了尽可能的覆盖语言中的元音、辅音、音调,录制的内容通常需要一定的设计。
合成语音的第一步,是预测文本的读音。除了将文本转换音素序列,为了让生成的声音更加自然,我们还要分析文本的节奏、重音,处理文本中的数字、缩写等等。
接下来,合成声音。一种方法是从语音库中逐一寻找与目标一致的音素,并将它们拼接起来;另一种方法则是将第一步预测的音素转换成每时每刻的语音参数,加上从语音库中学习到的特征,再生成语音。
除了这两种方法,人们还在尝试使用深度学习端到端的完成语音合成任务。不过从结果上看,还是将前两种方法融合起来效果比较好。
在语音导航中,左转、减速、掉头等较短的语句,通常是录好的内容。
关键信息总是在变换的长句子,当然是合成的啦!