2020，畅想人工智能3D感知技术的未来

商汤科技SenseTime 昨天

编者按：本周，诸多企业已开始陆续返岗，通勤路上、办公室内，大家更加需要注意严格防护。这里，商汤君继续为大家分享人工智能的精彩报道和技术展望，带来一篇AI+3D技术的深度内容，一起来感受机器感知技术的快速演进和美好未来。

本文作者系商汤科技移动智能事业群副总裁、智能终端业务CTO王子彬，商汤科技智能终端业务3D产品负责人李启铭。

如果说，AI的快速发展，让机器初步具备了看懂平面世界的能力。

那么，下一个10年，AI+3D将让机器能够更深刻地感知和理解我们的三维世界，并重新定义我们的生活、娱乐和工作方式。

▎赋予机器感知三维世界的“眼睛”

人类拥有与生俱来的3D环境感知能力，这是因为我们能够用两只眼睛来捕捉图像，通过大脑处理形成立体视觉，从而辨认物体的形状、他人的动作，感知我们和对方的距离，并轻松自然地跟这个三维世界进行交互。

人类也在不断努力为机器赋予和我们一样的3D感知能力，让机器能够“看懂”我们做出的动作，并给予相应的反馈，或是让机器知道“自己周围有什么”，甚至将其描绘出来。

比如，通过体感控制画面中的游戏人物，在家和朋友来一场棒球赛或是田径比赛，而不是只能单调地坐在沙发上操控手柄；

将下一代汽车通过增强现实（AR）技术投射到桌面上，客户可以亲自“打开”车门甚至现场“拆解”内部结构，直观地提出修改建议；

派无人机深入森林或洞穴，一边前行一边绘制周边场景的三维图像，帮助我们探索自然环境；

让自动驾驶汽车，能够像人一样，做出合理的路径规划，让出行更具效率且更加安全……

3D感知技术能够给各行各业带来创新的发展模式，无论是丰富我们的娱乐体验，还是提升我们的工作效率，便捷我们的出行体验，或是改变我们探索自然的方式……

为了赋予机器感知三维世界的“眼睛”，早在上世纪70年代，工业界便开始应用激光雷达、结构光、ToF（飞行时间）等3D感知技术，用于测量、扫描物体，以提高生产效率。

初期的自动驾驶汽车，则大量应用激光雷达作为传感设备，提升对环境的感知能力。

直到近10多年，家用游戏机厂商将外接体感设备带到了普通人的视野当中，创造出体感游戏等新奇体验。

而在2017年，结构光系统更是首次集成到了手机上，实现安全性更高的人脸身份验证。

今天，小型化的结构光和ToF出现在了越来越多的智能手机上。

相较于结构光，ToF支持的工作距离更长，适用于更加多元化的场景，同时占用空间更小，更易集成进小型化的终端设备。

在未来一段时间内，这两种感知技术都将共存，且因不同使用场景需求，在不同行业领域中长期发展。

而新的10年，也将是小型化3D感知硬件快速普及、全面走向大众的10年。

但是，硬件只是基础，如同人们的双眼，只是让我们具备了捕捉立体图像信息的能力，真正理解万物和人类之间的各类交互行为，依靠的还是我们大脑的学习能力。

而3D感知硬件从工业界走向大众，消费者对这项技术自然也会抱有更高的期待，因此要具备更加通用的场景感知能力。

对于机器来说，能学习这些能力的“大脑”，就是人工智能（AI）技术。

如今，AI和3D这两大革命性的技术，正在产生绝妙的化学反应。

很快，在AI+3D技术的加持下，仅通过智能手机等小型终端设备，就能做到很多以往需要专业硬件设备才能够实现的事情，并因此让这些事情变得更加简单，成本更低，让众多的应用场景从不可能变成可能。

AI+3D，很有希望成为掀起新10年行业变革的一项感知技术。

▎AI技术，让3D感知不断学习

机器依靠摄像头来捕捉现实世界的影像。

传统的RGB摄像头仅能捕获场景中的色彩信息，无法感知现实世界的三维结构，无论远近，对机器来说都只是一个2D平面。

3D感知硬件的作用，就是在RGB的基础上增加Depth这一深度信息。

多一层信息维度，也就多了一层信息处理的复杂度。不仅信息量更大，随之产生的技术挑战也越多。

尽管结构光、ToF等技术在过去几年间已经不断小型化，但受限于图像处理算法的瓶颈，机器的3D感知能力，并未被充分挖掘。

图片来源于网络

2012年，AI技术在计算机视觉领域中取得的突破，也使其成为了驱动3D感知技术新的引擎。

AI可以通过对大量数据信息的学习，自行总结其中的规律和特征，从而比传统算法模式更快地达到更好的结果。

这就为机器开创了学习理解三维世界的全新方法，诸如更加精细地识别场景中人和物的相互关系，快速重建人脸、人体和物体的三维模型，快速测量各种物体的三维信息，赋予机械臂感知物体的立体型态，更高效率跟踪人体关键点和动作……

可以说，AI技术能够在相同的硬件能力上，更快速地实现更好的效果，相应地，它也能够弥补硬件能力的不足，在相对较低成本的硬件上达到媲美高端硬件带来的效果。

随着3D感知硬件的广泛普及，AI与3D的有效结合就将非常重要，两者将密不可分：

首先，AI+3D可以进一步优化感知效果，提升用户体验。以动作捕捉为例，结合对深度信息的高效处理，能够整体提升肢体关键点的稳定性、准确性以及运动的稳定性和自然度，精准呈现人在三维空间中的动作姿态变化；
第二，AI+3D可以更加高效地应用和处理深度信息，理解环境中人物间的相互关系。例如为自动驾驶提供车外的人、车、物的识别和距离感知，或为增强现实应用带来逼真的虚拟元素遮挡、旋转、碰撞效果，又在智能手机等轻量级设备上完成高精度的3D模型建模；
第三，AI+3D可以更加精准地分割图像中的主体和背景。特别是在主体和背景颜色比较相近的情况下，得益于对深度信息的快速处理，在分割效果上就能够比2D感知技术有很大的提升，可提供不同人物之间的语义信息，亦可结合3D相机系统带来更逼近单反的摄影效果；
第四，深度信息与红外图像的结合，可以让3D感知适用于更多的场景，使之不受环境光线的影响，在暗态场景下依然能感知这个世界。

目前，商汤科技已经将AI技术广泛地应用于3D感知的各个领域，开发了基于ToF等3D感知硬件的技术与产品，包括人脸与人体3D重建、物体重建、3D全身关键点跟踪、3D Avatar驱动工具、AR测量、AR场景互动、AR导航、3D人脸认证、3D摄影等等。

在提供算法的同时，商汤科技也与3D感知硬件的合作伙伴紧密合作，为行业提供软硬一体的整体解决方案，并由此驱动AI+3D的发展和生态构建，推动3D感知技术给智能手机、娱乐行业、自动驾驶汽车、泛工业领域发展带来变革。

▎AI+3D，开创应用场景的更多可能

AI+3D正成为移动终端设备发展的必然趋势。

自2017年以来，智能手机摄像系统从单摄发展到双摄，再发展到如今多摄搭配ToF的组合，摄像头数量的大幅跃进，其对AI的依赖性也会越来越高，只有两者的紧密协作，才能够将完美的影像体验带给最终用户，缺一不可。

同样，越来越多的智能硬件也在逐渐具备3D感知能力。

为此，商汤科技一直积极与合作伙伴携手共进，将AI+3D相关产品和技术充分应用于手机等智能终端当中，从人机交互体验、AR、身份认证、拍照等层面，全面推动移动终端迈向AI+3D时代。

首先，AI+3D让机器真正具备了感知三维世界的能力，它可以将现实世界的物体进行数字化建模，实现“物品重建”。

借助商汤科技的通用3D重建技术，从毛绒玩具、纸箱、书包、鞋子到雕塑，用户只需拿手机沿着物体360度环绕扫描，就能将其扫描成数字化的模型。

生成的模型文件可直接用于3D打印、3D/AR相册预览，也可应用于短视频直播的内容生成并设置动画，也可植入到如AR养宠等游戏场景，或是电商的商品展示或预览等场景中。

除了物品重建，还可以做“人脸重建”。

2018年，商汤科技助力合作伙伴推出了市面上第一款具备3D人脸重建功能的手机。

3D人脸重建能够让人们对美的追求从平面走向立体。消费者不仅可以体验比2D美颜在五官上更加精美的3D美颜功能，还可足不出户轻松地进行虚拟试妆，直观查看上妆效果，甚至还能直观体验“3D微整形”来模拟整形效果，给医疗美容行业带来新的用户体验。

AI+3D更开创了人机互动的新方式，它可以让智能手机成为一台体感设备，实现精准的表情识别、肢体动作关键点捕捉。

由此一来，玩家不再需要外接体感控制器，就可方便地畅玩体感游戏，而内容创作者则可让自己化身为一个3D Avatar虚拟形象，例如虚拟游戏人物、虚拟主播、虚拟讲解员或者虚拟教师，通过自己的表情、动作来驱动虚拟形象的相应行为。

这种创新的虚实结合的互动形式，能够为游戏、直播、文旅乃至教育打造新的发展模式。

AI+3D也将在很大程度上推动移动AR朝向3D AR方向发展。

此前，相信很多用户经常会发现AR投射出来的虚拟形象并没有真正融入到现实场景中，只像是一张贴在屏幕上的贴纸。

随着商汤科技将基于ToF的AI+3D技术赋能于AR应用，提供RGBD SLAM（同时定位与地图构建）方案，将能够充分利用深度信息重建真实环境的3D结构，准确还原虚拟物体和真实环境中物体的相对位置，呈现遮挡、碰撞、反弹等效果，让虚拟和现实做到“真融合”。

为了推动SLAM这一AR关键技术领域的发展，商汤科技还与浙江大学共建了“浙江大学-商汤三维视觉联合实验室”，在SLAM和三维重建等领域的前沿研究展开深入合作，并推出了高精定位与内容增强解决方案，不仅可以助力实现高精度的AR导航，还能让用户在此过程中与融入真实世界的虚拟景观即时互动。

而有了3D AR，手机还能摇身一变成为一把更为好用的AR测量尺。

以商汤科技的3D AR测量产品为例，从测量精度，场景覆盖率到初始化耗时，都远超基于2D摄像头的AR测量方案，同时不仅能测量长度，甚至还可以检测立体几何物体并自动识别关键点，完成测量。

AI+3D也将让3D人脸识别得到更加广泛的应用，并成为更便捷、更安全的解锁或支付方式。

商汤科技不仅在2018年助力合作伙伴推出了市面上首款基于结构光的3D人脸识别安卓手机，还于同年底推出了基于ToF的3D人脸识别方案，为客户提供多种解决方案。

不仅仅是智能手机，智能门锁等IoT设备也将迈向3D感知时代。

今年，商汤科技推出了基于双目视觉的3D人脸识别智能门锁解决方案，支持在大角度和暗光环境下通过人脸验证准确解锁，并能有效防范各类非活体攻击，为用户带来便捷、安全的入户体验。

媲美单反的大景深效果一直是手机人像拍照所追求的方向。

早在2016年，商汤科技便推出了基于双摄系统的拍照虚化功能，如今更是推出了基于3D相机的虚化技术，精准的深度信息结合AI技术的处理，可以让人物等主体与背景的过渡效果更加自然、更加精准，无限逼近单反级别的虚化效果。

在电商行业，无论是AR试妆、AR试衣、AR家居已不是新鲜概念，但AI+3D不仅可让虚拟上妆、试衣等效果更加精准，更让消费者能够转动头部、身体，从更多维的视角查看最终效果，充分消除“不知道是否符合自己”的疑惑，进一步促成购买行为。

商家还可通过“物品重建”，将物品转化为数字模型，让顾客简单翻转就能360度地了解物品外观，并放置到真实场景中预览，而无需像现在这样一一翻看多张不同角度的静态照片。

放眼汽车行业，AI+3D技术能够实现更加精准的车外人、车、物识别和距离感知，从而有力推动自动驾驶在新10年的重要发展。

而在泛工业领域，AI+3D将进一步优化工业生产流程，不断提升生产效率。

它可以为机械臂赋予3D感知能力，通过高精准的SLAM、物体重建和测量等技术，判断立体物体所处的位置，以及相应的尺寸、形状和质量等信息，从而进行精准的抓取，或是进行自动化的品质检测，实现高标准的质量把控，有力提升工业生产的智能化程度，降本增效。

《Prediction Machines》一书中曾提到：“当某种基础产品价格大幅下降的时候，才是整个世界发生变化的基础”。

3D感知硬件的普及和AI技术的加持，让以往工业界才能实现的应用方式来到大众视野，降低体验成本的同时，应用场景也更加拓宽，变得更加普及，从基础改变我们的生活、娱乐、出行和工作方式。

新的10年，机器的感知能力将从2D走向3D，AI+3D也将成为变革行业发展的全新引擎。

2020，畅想人工智能3D感知技术的未来

发送到看一看