去搜搜
头像
苹果如何建构出立体化的数字世界?
2020-04-08 17:43

苹果如何建构出立体化的数字世界?

文章所属专栏 前沿技术情报所

出品| 虎嗅 Pro

撰文| Odin

封面来自 Apple

------------------


早前,苹果推出了新一代的 iPad Pro,引入了全新的 DTOF 激光雷达系统,通过相机感知四周环境,然后在系统里重构四周环境的立体模型,藉此让虚拟世界的影像,能与现实世界互动(下图)。苹果的新一代 iPad Pro,被视为苹果对增强现实的一次重大战略举措,因而引起了极大的关注。


图片来源:Apple


但是,究竟什么是激光雷达?什么是 DTOF?为什么激光雷达 (LiDAR) 就能重四周的立体影像,实现增强实境?而苹果这次引入激光雷达,为什么会引起巨大的回响?现在就让 Odin 为大家介绍激光雷达的操作,以及它可能会为科技界带来什么影响。


计算机是如何感知环境的?


电脑、手机或是平板通过摄影机和电脑,代替人眼对目标进行辨识、跟踪和测量等机器视觉,并进一步做图像处理,我们会称之为“计算机视觉” (Computer Vision)。而 iPad Pro 的激光雷达,也属于计算机视觉技术的范畴,他的运作流程如下:


  1. 环境感知:要让你的 iPad 知道四周环境的距离、形状和大小;

  2. 立体建模:电脑根据上述数据,建立四周环境的虚拟的虚拟的立体模型;

  3. 实时定位:让系统知道知道自己的位置,并在屏幕上实时显示立体模型的应有形态。


iPad Pro 采用的激光雷达,就是“环境感知”的部份但为什么我要用激光来进行环境感知,而不是用一般相机来处理呢?这是由于但我们身处真实的立体世界,是一个三维度(长度、高度、深度)空间,但电脑通过相机记录的影像,却只能记录两个维度(长度、高度)的空间信息,


图片修改自 blend4web


以上图为例,左图由一般相机生成的画面,是无法显示小桌到窗边的深度信息。所以,一般相机拍下的影像,缺乏最重要的深度信息,因而无法重现三维的立体环境。所以,如何获取深度信息,向来也是是计算机视觉的一个重要议题。



目前电脑有很多不同种类的深度感知手段,但总体而言,我们可以通过“感知媒介”/“感知算法”两个层面来分析(上图)。


首先,我们可以通过发射不同的电波作为媒介来感知四周环境我们可以通过主动发射红外光 (Infra-red, IR)、毫光波 (mmWave) 雷达、激光雷达 (LiDAR) 等等的媒介来测距,这种做有源感知。但有些设备有些设备(例如大疆无人机),不会主动发射任何电波,反而采用一般相机接收外界的可见光源,再通过复杂的三角函数算法来计算深度信息,我们称之为“无源感知”。


但我们通过不同媒体感知四周环境,还需要通过不同的算法,把测量到的环境信息,转化为深度信息。环境感知算法主要有 ToF、三角测量法、视觉里程计等。即使同样是用红外作为感知手段,我们也可以用不同的算法计算,例如你可以用红外光搭配 ToF 算法(例如相机的红外对焦),也可以通过把红外光编为结构光阵列,再用三角函数计算阵列畸变来得出深度信息。


那 iPad 的激光雷达算是哪一种?就是以“激光”为测量媒介、以“ToF”作为算法的手段。


为什么不用 Face ID 生成立体画面?


但问题就来了:明明 iPhone 和 iPad 已有了以红外结构光系统,为什么还要搞个激光 ToF 系统来测距?既然 ToF 可以用红毫米波、红外线、或是超声波感知,为什么可以 iPad 就要用又贵又麻烦的激光?为什么苹果又不像大疆一样用双目相机测距,那不是更简单?


Face ID 利用红外结构光,构建人脸的立体图片。图片来源:CNET


首先,我们要先要知道 Face ID 的原理。iPhone 需要通过 Face ID 解锁,所以需要安全可靠的测量手段。而苹果的 Face ID,是通过在面上打上大量红外光点(上图),通过这些光点的位置变化,再用三角函数计算出极精确的立体信息,并建立极度细致的立体脸孔模型,才能实现方便但安全可靠的解锁手段。


但是,结构光虽然安全,但也有不少弱点。首先,有用过 Face ID 的朋友,都知道如果 iPhone 距离太远,很多时就会解锁失败。事实上,结构光的测量距离短,但由于手机解锁时,手机与人脸的位置相隔不远,所以这不会影响使用。但如果要让开发者建构增强实境应用,就必须实现一定距离的深度感知能力,才能有比较好的效果。


其次,它的算法非常复杂,需要消耗大量的计算能力。如果通过结构光写增强实境应用,并长时间期操作,iPad 的续航力将会大幅下降。而且,由于结构光算法复杂,计算需时(iPhone X 刚推出时,解锁约需 1.2 秒),使虚拟影像与真实影像结合时时慢了半拍,就会严重影响体验。所以,Face ID 背后的结构光技术,难以为增强实境提供足够的支持。


2017 年 WWDC 大会里,一台没有特殊感知设备的 iPad Pro,通过 ARKit 生成逼真的真强实境效果。图片来源:Apple。


但是,苹果在推出自带激光雷达的 iPad Pro、以及 Face ID 的iPhone X 之前,在 2017 年全球开发者大会 (WWDC) 里,就已经推出了 ARkit 的系统接口,协助开发者利用 iOS 的环境感知功能,让开发增强实景应用(上图)。但当时苹果并没有 Face ID、也没有激光雷达,那他们是怎样感知四周环境、并生成立体画面?


ARKit 与视觉惯性里程计


当时苹果的 ARKit 用的是无源感知方式:视觉里程计 (Visual Odometry),简称 VO,这是一种单纯通过算法,让普通相机也能实现环境感知的复杂技术。


图片修改自 Andreas Geiger


视觉里程计会通过系统化分析影像的像素活动,获取深度信息。以上图为例,红色的像素移动幅度大(拖影较长),会被判断为接近的景物,而绿色的像素移动幅度少(拖影较短),会被判断为较远的景物。通过像素的移动方向和移动速度,就能获得景物的相对深度信息。如果再结合特征点识别,就能通过汽车的影像畸变,判断四周事物的位置和角度等。


但视觉里程计的最大问题,是只能求出相对的数值,无法得出绝对的数值:你能知红色像素的车子接近我们、绿色像素的车位距离较远,但我们无法判断这些汽车离我们多少米,也无法知道车子阔多少米,以怎样的速度接近我们。


因此,苹果在 ARKit 里再加入了一个大部份手机和平板电脑均拥有的传感器:三轴加速计和三轴陀螺仪,协助视觉里程计获取更精准的深度信号。这套系统,我们它作惯性测量单元 (Inertial Mesurement Unit, IMU),而把惯性测量单元的数据,与视觉数据混合计算的技术,我们称作“视觉惯性里程计”  (Visual Inertial Odometry, VIO)



以上图为例,我们在观察一个物体时,可以通过加速计取得移动时的距离数值,也能得到移动时的角度变化数据,再用三角算法计算出手机与物体之间的距离数据。有了视觉惯性里程计算法,苹果在 WWDC 里就能单凭一个普通的 iPad Pro,就能实现复杂的增强实境效果.


但尽管如此,这时候苹果产品的增强实境体验仍然不算很好。首先,视觉惯性里程计算法,比结构光更为复杂,生成数据同样需时,也同样耗电。而且,这套算法依赖手机感应动作,才能测量和感知环境,所以你不但无法在静止时生成立模型,而且每次使用时,也必须先让手机动一回儿。


此外,惯性测量单元精度虽然不低,但每次出现的误差会被累积起来。举例说,假设你每走 100 mm 就会有难以察觉 1mm 的误差,当你移动幅超过 5 米,就会出现肉眼可见的 5cm 的误差,导致虚拟影像无法与真实影像结合。简言之,你的增强实时应用的使用时间愈长,效果将会愈来愈差。


ToF 与激光雷达


因此,苹果不能不考虑使用采用 ToF 作为感知环境的的手段:俗称 ToF 的飞行时间 (Time of Flight) 算法。ToF 主要以发射光线或超声波作为测距媒介,当光波遇到障碍物时会被反射回来,而设备上的传感器接收到反射光波后,就会通过计算光线返回的飞行时间,估算两者的距离(下图)。



由于 ToF 算法远比结构光远为简单,而且也能实现远程的测距。因此除了苹果之外,OPPO、华为和三星也已经在他们的手机里载了支持红外 ToF 的相机,计算人像的虚化、或是实现三维成像等。同样地,汽车厂近年就为了一直想用 ToF 技术,感知汽车四周环境,避免发生意外,甚至进一步实现自动驾驶。


但是,汽车厂对驾驶安全要求极高,它需要有着比手机所采用的 ToF 精准、更远距离的测量工作。

但是手机所用的 ToF 技术采用红外光作为媒介,就因为红外光的指向性不高,发射出会往各方向四散,导致发射功率大减,感知距离大受制,而且,不同方位反射回来的红外光,也会对系统产生各种干扰,严重影响测量的精度。


要提高 ToF 的感知距离和抗干扰能力,必须提高红外光的发射功率,但考虑到安全性和功耗问题,我们无法无限制增加红外线的功率。因此,汽车厂采用了另一种测量的媒介:激光 (Laser)。



激光是一种通过受激辐射产生的增幅光线,它的指向性强,不但能够实现比一般 ToF 更远的距离,而且指向性强,也不容易受到干扰,所以能在远距离实现极高精度的深度感知能力。但是,也由于激光的指向性强的特性,导致激光雷达的视野极度狭窄,如果要采用激光 ToF 测距,你只能得到极少量的环境信息。因此,一般的激光 ToF 只能测距,无法实现建模(上图)。


激光雷达如何三维建模?


为了解决激光 ToF 采集环境信息量太少的难题,汽车厂再通过一种特殊的机器手段,让自动驾驶汽车能通过激光 ToF,建立三维地图,那就是让激光扫描四周环境,生成一个大范围的深度信息图。



这种激光雷达,由多个激光发射器组成,并搭载在电机上一边旋转,一边多角度进行大范围扫射,获取不同角度、不同方向的深度信息,然后结合建构三维模型(上图)。因此,汽车也能用更精准、感知距离更远的激光雷达,生成大范围的立体成像。


但扫描式的激光雷达,又带来了新的问题。多个激光发射器再搭配旋转的机械结构,不但使激光雷达变得巨大而拥肿,也使它的成本更高。尽管后来推出了以超微型电机 (MEMS) 驱动镜面折射的固态激光雷达,但仍然难以在体积细小的智能手机或平板上使用。


那 iPad Pro 采用的是怎的激光雷达?那是近年新兴的闪光雷达 (Flash LiDAR)闪光雷达能通过像不同的扩散器(例如下图的滤镜态),把本来指向性极强的激光,作一定范围的分散,使激光雷达能在没有活动的机械部件下,发射出像闪光灯一样的激光,带来一定程度的视野。因此,闪光雷达比起一般机器激光雷达成本更低、体积更小。


图片来源:Lanterne Digitale


尽舌闪光雷达有着如此优势,但它并没有在汽车行业上大范围使用:它为了换取得较大的视野,把激光转化为泛光(上图),一定程度上牺牲激光的指向性,这限制了闪光雷达的测量距离,因此无法在高速行驶的汽车上使用,也使闪光雷达未能普及使用。


那 iPad Pro 的闪光雷达又是怎样操作?苹果没有使用滤镜变成泛光,反而使用了更精密的扩散技术。


用芯片代替传统激光雷达


美国维修网站 iFixit 拿到 iPad Pro 后,就通过红外摄影机,拍下 iPad Pro 的闪光雷达运作过程,并与 iPhone 的 Face ID 运作过程对比


图片来源:ifixit


我们会发现 iPad Pro 的闪光雷达,并非采用传统的泛光式 (flood illumination) 投射,而是通过“多束激光” (Multi-beams) 方式发射(上图),与近年驰名的明星激光雷达公司 Ouster 的数字激光雷达有点相似。但是,泛光式与多束激光式有甚么不同?


根据 Ouster 公司的说法,泛光式设计会无法控制激光的投射位置,很多时激光会发射在传感器看不到的位置,浪费功率和电力。但通过多束激光的设计,激光的指向性不但更高,也能集中在相机所需要的区域,不但降低功耗,也改善了可靠性。


但要在 iPad Pro 这种紧凑的机体上,采用多束激光式闪光雷达仍然不容易,因为它需要基于半导体级而设计的两个重要元件:垂直腔面发射器 (VCSEL) ,协助发射多速激光,以及使用单光子雪崩二极管(Single Photon Avalanche Diode, SPAD),感知多路激光的飞行速度。


图片来源:Google Patents


有趣的是,苹果在多年前已经进行了相关的布局:2016 年,苹果已经申请了 US10324171B2 专利,内容是,如何通过 VCSEL 和 SPAD,实现多束激光式的闪光雷达(上图)。根据资料显示,苹果在 2017 年已经为 iPhone X 的 Face ID,引入 VCSEL 作为多束红外光的发射方案(Face ID 本来就是通过 VCSEL 生成的多束红外光点阵)。 


然后到了 2020 年,苹果顺理成章地在 iPad Pro 上,使用基于 VCSEL 多束激光的闪光雷达方案。由于 VCSEL 是个基于半导体设计的方案,也能以芯片形态存在,也因为如此,iPad 的激光雷达,才能以芯片大小的体积,集成于小小的 iPad 之上,也能以芯片级别的功耗,为 iPad 提供极低功耗、高精度的深度感知能力。


更精准的直接时间测量


刚才我们提到,如果说 VCSEL 的发射器,让 iPad Pro 实现高效的多束激光测量,但苹果在同一时间为 iPhone X 引入的 SPAD 传感器,则让 iPad 实现了更精准的感知能力。



光,是现实世界里最高速度的存在,所以要测量光的运行速度,一点也不容易。所以,一般光学的 ToF 传感器,均不会直接测量光的返回速度,而是在发射光线的时候,人为地把光线调制成特定的波,传感器就能轻松地感知变化速度较慢的波形(上图),从而测量光线返回时间。这种方式,我们叫做间接飞行时,Indirect Time of Flight,IToF,这也是目前大部份手机在使用的测距方案。


让我们做个不太正确、但又比较好理解的比喻:ToF 发射光线时,按顺序发射红、橙、黄、绿、蓝、靛、紫等七种颜色,每 0.1 秒就改变一次。当接收器感知道是黄色的光,就知道这束光是是相隔 0.3 秒后才反射回来。只要通过这种手法,即使是一般的传感器,也能“测量光速”。当然,缺点自然是无法则得非常精准了。



但 iPad Pro 引入的 SPAD 传感器方案,采用的半导体结构,感知非常细微的激光脉冲,所以能用直接感知光线发射到回来的极细微时间差(上图),实现精准至一百万分之一秒的(皮秒)的深度测量,并建立更可靠的立体模型。


解构 iPad Pro 的立体操作


所以,iPad Pro 的激光雷达很完美吗?不是的。根据 ifixit 的测试,可以见到 iPad Pro 激光雷达的多束激光密度,远比 Face ID 要少很多,而根据 Tech Insights 的拆解分析,估计 iPad Pro 激光雷达传感器的分辨率,就只有 3 万像素,比起 iPad Pro 使用的 1200 万像素的相机影像传感器,实在相差太远。那就是说 iPad Pro 的激光传感器,其实不足以覆盖整个可视范围,也无法实现细致的测量。


所以说 iPad Pro 的激光雷达就只是虚有其表?不是的。首先,前置的 Face ID 传感器,需要被用于用户的保安系统上,所以识别要求定必远比仅仅用于一般应用的后置的激光雷达要高。


图片来源:Mark Dawnson


其次,iPad 并非单靠激光雷达生成立体模型,它更多的是利用激光雷达,快速取得深度数据和相机坐标,再配合 ARKit 原有的视觉算法,进行更高效的三角测量;也能与手机里的陀螺仪与加速器生成的位置数据比对,如果其中一组传感器受干扰时,另一组传感器就会协助校正,排除不正常的数据,生成更准确的效果。因此,iPad Pro 通过 ARKit 生成的三维模型(上图),仍然要比想像中要细致。


而且,苹果还针对 iPad Pro 的激光雷达而推出了 ARKit 3.5,带来了 3 个新的应用接口:场景几何 (Scene Geometry)、即时増强实景 (Instant AR)、以及改进了的动态捉和人物揳合 (Improved Motion Capture and People Occlusion),我们就可以通过影像的立体特徵,识别各种影像。


图片修改至魏布斯


在自媒体魏布斯的测试视频中可见(上图), ARKit 3.5 结合激光雷达的辅助下,不但快速地区份画面里的水平面和垂直面,识别出 iPad Pro 盒子的立方体形像,也能在不同的深度变化下,实时计算平面的长度数据(金属尺子),也能实时处理影像的前后与遮档关系。


要知道以往的图像识别技术,就只能通过识别平面特徵,区分人类、猫、汽车等等不同事物。只有自动驾驶汽车,才能通过高精度的立体扫描,识别环境的立体特徵,把真实的行人与海报中的行人区分出来,也能把人和汽车之间的不同立体关系区分出来。


但 iPad Pro 有了激光雷达,也能像汽车一样实时按立体特徵,区分不同事物,开发者就能结合深度学习技术,为立体模型加入深层的意义,例如家居设计公司的增强实境应用,可以通过识别四周环境的天花板、墙、或椅子,为家居搭配不同的家具;时装公司的增强实境应用,也能识别出人类的肢体,并实时进行形像捕捉和构建,搭配不同的衣着。


iPad 激光雷达会带来什么改变?


所以说 iPad 采用激光雷达,会改变整个产业吗?不一定。媒体预计本年推出的 iPhone 12,很大可能也引入同一套激光雷达系统,故事就会很不同了。


不少手机公司随着 iPhone X 而引入了 VCSEL 的红外光点阵系统。图片来源:System Plus Consultant


首先 iPhone 每年出货量逾亿,所以会对电子元件市场带来巨大的影响。当 iPhone 需要采用新零件,苹果必然会投入资金,让这些电子元件实现低成本的量产化,也会同时此相关元件的需求量大增。此外,iPhone 引入的新硬件技术,往往吸引其他公司跟随,使相关的元件市场更为火爆。LEDinside 就曾指出,iPhone X 的 Face ID 带动了 VCSEL 元件市场的快速发展。


以往,激光雷达由于结构复杂、成本昂贵,所以没有被广泛使用。目前在消费级市场上,就只有高阶汽车才搭配激光雷达,但由于激光雷达在自动驾驶的效用,一直被受质疑,所以未能普及。但当苹果在 iPad Pro 和未来的 iPhone 引入闪光式的激光雷达,其成本很可能会快速下降,也会吸引更多手机公司采用闪光雷达,并带来新一波的应用浪潮。


HTC Vive 是当年最好的 VR 系统之一。图片来源:AllThingsVR


在 2015-2016 年,虚拟真实 (Virtual Reality, VR) 成为了科技界别的热门名词,HTC Vive、索尼的 PlayStation VR、微软 Hololens 等争相加入市场,也使其背后的立体测量技术受到大众关注。但后来 VR 由于硬件成本高、入门门槛高而迟迟无法普及,所以也使开发者没有大量为 VR 开发应用,最终导致 VR 热潮、以至相关的立体测量技术,退出大众的视野。


但当苹果成功推动激光雷达硬件普及化,再配合完整的开发环境,可能促使更多开发者开发相关应用,也会为增强实境的新应用场景。而且,这并不仅限于增强实境,更可能让开发者参推动立体化数字世界的各种生态,例如立体扫描或立体打印技术相关的应用开发。虽然 iPad Pro 激光雷达的精度,仍然不可能与专业的立体扫描设备相比,但也实际让使相关的技术变更亲民、更为普及。


立体化的数字世界要来了吗?


如果 iPad Pro 的激光雷达真的能成功推动起来,我们可能会进入一个立体化的数字世界。但是,这仅仅只是一个可能性而已。因为 Odin 在 2016 年就说过,苹果很早就致力于铺垫一个立体化的数字世界:


  • 在 2013 年,推出了立体化设计的 iOS ;

  • 在 2015 年,推出 3D Touch 的 iPhone 6s;

  • 在 2017 年,推出 Face ID 和 ARKit;

  • 在 2020 年,推出带激光雷达的 iPad Pro


但苹果在多年的铺垫之后,仍然没有很成功的推动立体化数字世界视觉的生态环境,到了今天,AR 应用不但没有普及,iPhone 11 更砍掉了原来被广受期待的 3D Touch 传感器。


尽管虚拟世界对现实世界的窥探愈发深入,但是虚拟世界对现实世界的模拟依旧遥远。更精准的深度测量、更高效的立体建模,是否真的能实现苹果这个立体化的数字世界?


本内容未经允许禁止转载,如需授权请微信联系妙投小虎哥:miaotou515
如对本稿件有异议或投诉,请联系tougao@huxiu.com
评论
0/500 妙投用户社区交流公约
最新评论
这里空空如也,期待你的发声
回顶部