为什么说 VR 回春关键在于 3D 音频技术？-虎嗅网

人们说：VR 的寒冬来了。最近看到一句非常好的描述：“一度承载着创业者和投资人太多期待与热情的 VR 行业，经历了如过山车般的一年。”

核心技术瓶颈突破之前，VR 还将在泡沫收缩过后进行理智思考。而 3D 音频，作为 VR 产业的关键性技术节点，值得在今天被关注。

你将看到如下内容：

为什么说 VR 回春关键在于 3D 音频技术？
3D 环绕立体声技术发展这么多年了，为什么最近才火？
深蓝DeeperBlue 为你盘点了 7 家做 3D 音频的公司，到底哪家靠谱？

深蓝Deeperblue 撰稿：季星；编辑：袁帅黄永明；顾问：Thomas Yao 胡韬；制图：房宫一柳。本篇 3452 字，阅读时间预计 8 分钟。原文标题《如果没有它，VR注定是场 “闹剧”》。

在百度上搜索 “VR 寒冬” 有 1,660,000 个结果。

《资本变脸：6 个月，VR 从狂欢到惨淡》（极客公园， 2016 年 09 月 07 日），《吸引了无数资本和创业者的 VR 行业，似乎已进入寒冬》（中国企业家，2016 年 08 月 26 日），《 VR 创业公司的寒冬来了？听听资本大咖怎么说！》（网易新闻，2016 年 05 月 27日），《小心被套！ VR 将迎来寒冬》（搜狐新闻，2016 年 05 月 11 日）……

人们犹记得 2015 年下半年到 2016 年年初的 VR 热：从创业者到投资人，大家都对 VR 有着无限的热情与希望。而从计算机背景出生转行做 VR 的人真不在少数：他们正是看准了这块 “热土”，从大公司走出，一头钻进 VR 行业。

行业缺少优质标的，关键性技术节点远未突破，VR 如同一个牙牙学语的婴儿，尚在襁褓之中，远未成熟。与其说 VR 凛冬已到，不如说之前的泡沫正在合理地被挤破。

这里的 “关键性技术节点” 其中之一，就是空间音频技术。在今天，人们更愿意叫它 3D 音频。

苹果音乐和 VR 工作室 Vrse 联手为 U2 乐队制作了一段 VR 音乐视频《Song for Someone》。图为 MV 片段中 U2 在空无一人的多伦多体育场的演唱。

正如著名 VR 制作公司 Jaunt 的音频首席工程师亚当·桑默（Adam Somers）说的：“（在 VR 这件事上面），听觉占了五成，视觉占剩下五成。”

听觉决定了人类对空间的定位、对物体距离的感知等等。视觉给出一个线索，听觉则去证实这个线索是否真实存在。如果少了视觉的沉浸感，那么一切画面的真实性就荡然无存。不解决听觉问题，虚拟现实就不能成为虚拟现实。可以这么说，3D 音频决定了我们念叨着的 VR 时代是否真正到来。

首先科普一下 3D 音频

什么是 3D 音频？简单来说，3D 音频是对声音最逼真的模拟技术，能让听众完全还原到与现场相似的声场。类似的叫法还有全景声方案、Immersive Audio（沉浸式音频）。你能到完全听到逼真到 “现实” 的声音，而不是 “现实主义” 的。

目前世界范围内最成熟的空间音频制作公司之一，VisiSonics 的创始人之一拉玛尼 · 杜瑞斯沃米（Ramani Duraiswami）有一句话：“当你听到的声音是极度真实的时候，耳机就消失了。”

人耳对声音信号有一套自己的分析系统，来得以对声音进行分析与定位。从空间任意一点传到人耳（鼓膜前）的信号都可以用一个滤波系统来描述，音源+滤波器（传递函数）得到的就是声音到达两耳鼓膜前的信号。

HRTF 图示。人耳对声音信号有一套自己的分析系统，来得以对声音进行分析与定位。

我们不必关心声音是如何传递到双耳的，而只需要知道：音源与到达我们双耳之前的信号是有差别的；并且我们的左耳和右耳听到的声音是不一样的。这可能是源于我们的进化，视觉没有办法在黑夜中定位，而耳朵可以通过左右耳的声音不同，进行定位与防御。

这个滤波器（传递函数）叫 HRTF ( head-related transfer function )。如果我们有空间所有方位到双耳的滤波器组，就能得到一个滤波矩阵，从而还原来自整个空间方位的声音信号。

HRTF 是极具个人性的。每个人成长中都会形成一套自己对听力的感知。并且，我们每个人的头部大小不一样、耳间距不一样，耳朵的轮廓、里面的旋涡状也不一样。加上，我们在成长当中养成了自己独特的听力习惯。可以这么说，每个人听到的同样物体发出的声音，其实都有细微差别。

如何还原人耳真实听到的声音？科学家对此的探索不是今天的新事。在将近一个世纪之前，1933 年，AT&T 贝尔实验室就把这项技术带到了芝加哥世博会上。这家公司的人声研究部做了一个机械化的仿真人头——他们把这个假人取名叫 “Oscar”。Oscar 的耳朵里装上了两个麦克风，坐在展示房间中，录取周围的声音。Oscar 听到什么，他就能录到什么。

AT&T 贝尔实验室提供的解决方案叫做双耳录音技术（Binaural Audio）。

双耳录音技术模拟人类真正的头部的形状、左右耳的耳间距，可以收录到近乎于真正的人类听到的声音。这是一种有效的“笨方法”，物理层面上即还原了 HRTF。沿着这条路径，德国麦克风公司纽曼 (Neumann) 在 1973 年到 1992 年间，连续在双耳录音技术上做出了各种突破——更好的收音设备、把麦克风放置于仿真假人耳内鼓膜上等等。

1933年，AT&T实验室的双耳录音技术仿真人，Oscar。

双耳录音技术在这个世纪中一直处于缓慢的速度发展，原因在于，没有强大的产业需求。一直等到这一波 VR 热潮的来临，它才重上舞台。 由于 Oculus Rift , 索尼 Morpheus 以及三星 Gear 带来的 VR 普及，3D 音频技术迎来了它的 “文艺复兴” ——于是它又被称作了 VR 音频。

3D 音频技术到底难在哪儿？

VR 需要有 3D 音频才能产生更真实的沉浸感。Jaunt 的音频首席工程师 Adam Somers 在接受 THE VERGE 采访时这样描述：“在沉浸感这件事上面，听觉占了五成，视觉占剩下五成。”

Jaunt 是美国著名的 VR 制作公司，去年得到上海华人文化产业基金（CMC）与迪斯尼的 6500 万美金投资。

然而，双耳录音技术本身不能支持收听的时候转动头部。玩家在玩 VR 游戏的时候，如果有声音从后面传来，人的本能反应是转头向后看。这时候如果声音继续在你的前方，那么会大大降低沉浸感。

另一种还原真实声场的技术也不能支持收听的时候转动头部，叫环绕立体声 ( surround audio ) 。环绕立体声用多个物理扬声器来打造一个 360 度的声场，来自不同方向的声音通过不同的音箱/扬声器来播放。该项技术最著名的公司是 DTS 和杜比（Dolby）。

比如一家环绕立体声影院，它会在观众的周围放置很多音箱/扬声器。如果画面左边出现了爆炸，那么左边的音箱会发出声响，而不是右边。由于播放器的位置固定，听众只有在固定的点，才能听到模拟得最真实的声场。

真正的沉浸体验，来自于高中低音频在空间内全方位的还原，即以人头为中心收录一个球形内所有角度的声音，并进行还原。

如何解决这个问题？计算成为了重中之重。

在双耳录音技术取到的声音之后，还原 HRTF，然后进行计算，把各个方向的 HRTF 还原，才能合成一套随着转头、位置移动声场自然发生变化的空间音频。

在这三个环节中——收音、录音；计算、渲染 ( processing, rendering ) ；回放——技术壁垒最强的地方在于计算环节。

核心算法是考验各家空间音频公司的能力指标。Two Big Ears 的公司广告语说明了一切："We do mathematics so you can focus on being awesome."（我们做数学，你来好好做酷的事情。）这家位于爱尔兰的公司目前在空间音频技术上处于领先地位。

有些团队则为了减轻计算量，用了一些比较笨的办法。比如 3dio，他们创造出收音设备，可以尽可能地在同一时间录到各个方向的 HRTF 。

3dio 公司生产的四对仿真人耳的收音设备。

The Verge 在短片 Hear New York in 3D Audio 中展示他们所用的收音设备——仿真人耳，这个收音设备能够模拟声音在耳朵这种独特物理结构下的的传输过程，进而重现纽约街头的实景声音。

通常，三个指标可以用来判断一家公司 3D 音频核心算法技术水平：

1、Localization : 指的是声音的定位。环绕立体声对于声音的平面 360 度有较好的模拟效果，而对于上下 360 度则难以模拟。VR 音频的难点也在于做出上下 360 度的声音模拟。能做到上下逼真的则技术更为先进。

2、Propagation : 声音在封闭空间中，不是只传输一次，而是有无数次的反射（bounce back），我们可以用回音来理解。Propagation 用来描述是否能让用户感觉到自己的确在一个真实的空间中，这种真实感越强越好。

3、Occlusion : 声音在传输过程中，如果中间有一个障碍物，这个障碍物会对声音的传播产生影响。如果一个 VR 音频技术可以对障碍物对于声音的影响模拟得很好，则是一个做得好的 VR 音频。

除去以上三点，目前空间音频最前沿的解决方案是 Ambisonic 技术。于是，能不能做 Ambisonic 也是判断一家公司技术高低的指标。

Ambisonic 同样是一种声场模拟手段，但它更考验团队物理、数学和计算机的综合能力。如果我们把空间中某一个接收声音的位置想象成一个充着气的气球，那么空间中各处传来的声波会对这只气球表面产生作用力。

Ambisonic 利用这个简单道理，在空间中摆放一堆扬声器，来模拟对应现实情况下各处声波对这只气球的作用力，然后计算，还原 HRTF。

通过 Ambisonic 得到的音频数据，是最全面的数据，它可以降解到任何其他音频格式。打个比方，Ambisonic 如果是图像中的 jpg , 则杜比 7.0 、杜比 5.1 等等音频格式相当于像素。

如何评价 3D 音频技术的行业现状？

3D 音频技术势必会改变所有的应用场景。整个空间音频产业有两个机会：

第一个机会是做音频引擎 （audio engine），其核心在于 HRTF 函数、Propagation 等技术，即如何在游戏里尽可能逼真地还原出立体声来。目前简单的做法是，在 VR 游戏中放置不同的虚拟音箱，并配合 Oculus Audio SDK ( 实现了 HRTF 以及其他效果，包括 reflection 等），就可以实现空间音频。

而不简单的做法有很多，需要团队具有强大的计算能力，成立于 2013 年爱丁堡的 Two Big Ears 是其中翘楚。他们所做的 plug-in 可能是目前行业中技术最好的 plug-in 之一。

第二个机会是实现 3D 音频在现实生活中的运用，即怎么配合全景视频录制带多个角度的 VR 音频。这样用户观看全景视频的时候如果转头，声音会进行动态调整。就应用场景来说，对于虚拟演唱会，3D音频技术尤其重要。

从目前整个全球市场来考量，3D 音频由于其自身技术难度，还没有出现提供完美解决方案的公司与团队，大牌音频公司 DTS 所做的技术已经比较接近，但最终版本仍没有公之于众，并且面临着价格极高的可能性。

以下这张图列举了世界范围内，最被关注的七家 3D 音频技术团队：

1、VisiSonics

VisiSonic 起步最早，团队来自美国马里兰大学的实验室，2015年10月与 Oculus 达成合作。Oculus 购买了他们的技术，叫做 RealSpace 3D , 用于 Oculus Audio SDK 。他们设计出了一个 3D 音频视频同步录制的设备，由一个柱型加顶部球型装置组成，球型装置上有 64 个麦克风。硬件层面上，技术拔尖并保持世界领先地位。

2、Two Big Ears

位于苏格兰爱丁堡的团队，最近刚刚被 Facebook 收购。他们的核心技术是做 3D 音频引擎，名字叫做 3Dception 。就 plug-in 层面上来讲，这支团队是目前世界范围内技术最好的团队。在被 Facebook 收购前，据传HTC Vive 音频的计算渲染用的就是这支团队。

3、3dio sound

这家公司是目前市面上可见的空间音频收音录制领域最好的公司。他们出品了有八个耳朵的收音装置。

4、Thrive Audio

这家公司与 Tilt Brush 一同被 Google 收购，属于 Google VR 战略布局的一部分。团队来自爱尔兰的都柏林圣三一学院。他们声称已经申请了两个专利。

5、Mint Muse:

一支之前在美国圣地亚哥、最近刚刚搬迁到上海的团队。主创团队来自高通。他们主攻渲染质量、算法优化、时延等领域，设计制作空间音频后期制作、coding 以及软件插件工具，目前不涉及硬件生产。这支团队面向的解决人群是录音师，他们正在开发一款专业 VR 全景声调音软件，让调音师可以在编辑全景声过程中实时监听成品效果，简化整个工作流。

6、Waves

这是一家位于以色列的空间音频技术公司，之前做专业 studio 的工具，比如插件与音效，是很多著名 studio 的合作伙伴，如 Abbey Road 。

7、Impulsonic

一支孵化于美国北卡罗来纳大学计算机系的团队。主要针对 VR 游戏与应用的 3D 音频开发，产品叫 Phonon。成立于 2012 年。创始人阿尼什 · 钱达克（Anish Chandak）博士说创立之初他的想法就非常简单：“帮助游戏设计师与开发者更容易做出高质量的空间音频。” 大部分收入来自于 Phonon 的 license 收入。他们去年接受美国国家科学基金的投资，研究同时应用于一些政府项目。

大部分做 VR 游戏的工作室还没有开始大规模使用 3D 音频技术——原因主要是 “穷”。既然“寒冬” 来了，那么也就更穷了。事实上，这些没有好内容的游戏工作室还用着环绕立体声技术；只有少数极客风格的工作室开始应用一些空间音频技术。3D 音频技术仍旧是一件挺前沿的事儿。

然而，3D 音频对于整个 VR 产业来讲，是基础的技术性板块。

拥有核心技术，才可能在应用层面上等待下一个突破点。做无人机的大疆（DJI）就是一个例子，早在无人机变成商业模式之前，大疆的主创团队已经在飞行控制这一个技术点上做了长时间的研究与努力。

如果 VR 终有一天值得每一个用户去花时间使用，那么它势必在技术方方面面上已经成熟到可以 “沉浸式体验” 的时候。

等待回春，先从 3D 音频开始。

参考文献：

i. Rumsey, Francis (2001). Spatial Audio. Focal Press.pp. 62–64. ISBN 0 240 51623 0.

ii. Blauert, J. (1997) Spatial hearing:the psychophysics of human sound localization. MIT Press.

iii. Begault, D.R. (1994) 3D sound forvirtual reality and multimedia. AP Professional.

iv. Eric Benjamin, Richard Lee, andAaron Heller, Is My Decoder Ambisonic?, 125th AESConvention,

San Francisco 2008

v. https://developer.oculus.com/documentation/audiosdk/latest/concepts/audio-intro-env-modeling

深蓝Deeperblue ，如需转载授权，请联系微信号：295513406