本文来自微信公众号:KnowingAI知智(ID:Knowing_AI),作者:虞喵喵。
在一片嘈杂中听到自己想注意的声音,是人类的本能,但这对机器来说可没有那么容易。
“鸡尾酒会问题”(Cocktail Party Problem)诞生于 1953 年,是语音识别领域的经典问题,指是人们在鸡尾酒会中交谈,语音信号会重叠在一起,机器需要将它们分离成独立的信号。
对于计算机来说,这个问题与图像识别中的物体识别非常相似。物体就像我们想要注意到的声音,图片的背景则是其他声音。
关于这个问题目前有两种解决思路。一种基于单通道系统,即依靠语音的频谱解决问题。比如将想听到的声音的时频元(time-frequency unit)标注为 1,其他声音标注为 0,让机器学习去输出 1 的部分;
另一种方法是基于多通道系统,即在鸡尾酒会的不同位置布置多个麦克风,利用空间属性对声音进行分离。
虽然深度学习已经在鸡尾酒会问题中取得很大突破,但仍无法真正解决这一问题。
人工智能,也不一定就是“全能”。