2020,畅想人工智能3D感知技术的未来

编者按:本周,诸多企业已开始陆续返岗,通勤路上、办公室内,大家更加需要注意严格防护这里,商汤君继续为大家分享人工智能的精彩报道和技术展望,带来一篇AI+3D技术的深度内容,一起来感受机器感知技术的快速演进和美好未来

文作者系商汤科技移动智能事业群副总裁、智能终端业务CTO王子彬,商汤科技智能终端业务3D产品负责人李启铭

如果说,AI的快速发展,让机器初步具备了看懂平面世界的能力。

那么,下一个10年,AI+3D将让机器能够更深刻地感知和理解我们的三维世,并重新定义我们的生活、娱乐和工作方式。


赋予机器感知三维世界的“眼睛”

人类拥有与生俱来的3D环境感知能力,这是因为我们能够用两只眼睛来捕捉图像,通过大脑处理形成立体视觉,从而辨认物体的形状、他人的动作,感知我们和对方的距离,并轻松自然地跟这个三维世界进行交互。

人类也在不断努力为机器赋予和我们一样的3D感知能力,让机器能够“看懂”我们做出的动作,并给予相应的反馈,或是让机器知道“自己周围有什么”,甚至将其描绘出来。

比如,通过体感控制画面中的游戏人物,在家和朋友来一场棒球赛或是田径比赛,而不是只能单调地坐在沙发上操控手柄;

将下一代汽车通增强现实AR)技术投射到桌面上,客户可以亲自“打开”车门甚至现场“拆解”内部结构,直观地提出修改建议;


无人机深入森林或洞穴,一边前行一边绘制周边场景的三维图像,帮助我们探索自然环境;

自动驾驶汽车,能够像人一样,做出合理的路径规划,让出行更具效率且更加安全……

3D感知技术能够给各行各业带来创新的发展模式,无论是丰富我们的娱乐体验,还是提升我们的工作效率,便捷我们的出行体验,或是改变我们探索自然的方式……

为了赋予机器感知三维世界的“眼睛”,早在上世纪70年代,工业界便开始应用激光雷达结构光ToF(飞行时间)等3D感知技术,用于测量、扫描物体,以提高生产效率。


初期的自动驾驶汽车,则大量应用激光雷达作为传感设备,提升对环境的感知能力。

直到近10多年,家用游戏机厂商将外接体感设备带到了普通人的视野当中,创造出体感游戏等新奇体验。

而在2017年,结构光系统更是首次集成到了手机上,实现安全性更高的人脸身份验证

今天,小型化的结构光ToF出现在了越来越多的智能手机上。

相较于结构光ToF支持的工作距离更长,适用于更加多元化的场景,同时占用空间更小,更易集成进小型化的终端设备


在未来一段时间内,这两种感知技术都将共存,且因不同使用场景需求,在不同行业领域中长期发展。

而新的10年,也将是小型化3D感知硬件快速普及、全面走向大众的10年。

但是,硬件只是基础,如同人们的双眼,只是让我们具备了捕捉立体图像信息的能力,真正理解万物和人类之间的各类交互行为,依靠的还是我们大脑的学习能力。

而3D感知硬件从工业界走向大众,消费者对这项技术自然也会抱有更高的期待,因此要具备更加通用的场景感知能力

对于机器来说,能学习这些能力的“大脑”,就是人工智能AI)技术。


如今,AI和3D这两大革命性的技术,正在产生绝妙的化学反应。

很快,在AI+3D技术的加持下,仅通过智能手机等小型终端设备,就能做到很多以往需要专业硬件设备才能够实现的事情,并因此让这些事情变得更加简单,成本更低,让众多的应用场景从不可能变成可能。

AI+3D,很有希望成为掀起新10年行业变革的一项感知技术

AI技术,让3D感知不断学习

机器依靠摄像头来捕捉现实世界的影像。

传统的RGB摄像头仅能捕获场景中的色彩信息,无法感知现实世界的三维结构,无论远近,对机器来说都只是一个2D平面。

3D感知硬件的作用,就是在RGB的基础上增加Depth这一深度信息。

多一层信息维度,也就多了一层信息处理的复杂度。不仅信息量更大,随之产生的技术挑战也越多。

尽管结构光ToF等技术在过去几年间已经不断小型化,但受限于图像处理算法的瓶颈,机器的3D感知能力,并未被充分挖掘。

图片来源于网络


2012年,AI技术在计算机视觉领域中取得的突破,也使其成为了驱动3D感知技术新的引擎。

AI可以通过对大量数据信息的学习,自行总结其中的规律和特征,从而比传统算法模式更快地达到更好的结果。

这就为机器开创了学习理解三维世界的全新方法,诸如更加精细地识别场景中人和物的相互关系,快速重建人脸、人体和物体的三维模型,快速测量各种物体的三维信息,赋予机械臂感知物体的立体型态,更高效率跟踪人体关键点和动作……


可以说,AI技术能够在相同的硬件能力上,更快速地实现更好的效果,相应地,它也能够弥补硬件能力的不足,在相对较低成本的硬件上达到媲美高端硬件带来的效果

随着3D感知硬件的广泛普及,AI与3D的有效结合就将非常重要,两者将密不可分:

  • 首先,AI+3D可以进一步优化感知效果,提升用户体验。以动作捕捉为例,结合对深度信息的高效处理,能够整体提升肢体关键点的稳定性、准确性以及运动的稳定性和自然度,精准呈现人在三维空间中的动作姿态变化;
  • 第二,AI+3D可以更加高效地应用和处理深度信息,理解环境中人物间的相互关系。例如为自动驾驶提供车外的人、车、物的识别和距离感知,或为增强现实应用带来逼真的虚拟元素遮挡、旋转、碰撞效果,又在智能手机等轻量级设备上完成高精度的3D模型建模
  • 第三,AI+3D可以更加精准地分割图像中的主体和背景。特别是在主体和背景颜色比较相近的情况下,得益于对深度信息的快速处理,在分割效果上就能够比2D感知技术有很大的提升,可提供不同人物之间的语义信息,亦可结合3D相机系统带来更逼近单反的摄影效果;
  • 第四,深度信息与红外图像的结合,可以让3D感知适用于更多的场景,使之不受环境光线的影响,在暗态场景下依然能感知这个世界。

目前,商汤科技已经将AI技术广泛地应用于3D感知的各个领域,开发了基于ToF等3D感知硬件的技术与产品,包括人脸与人体3D重建、物体重建、3D全身关键点跟踪、3D Avatar驱动工具、AR测量、AR场景互动、AR导航、3D人脸认证、3D摄影等等。


在提供算法的同时,商汤科技也与3D感知硬件的合作伙伴紧密合作,为行业提供软硬一体的整体解决方案,并由此驱动AI+3D的发展和生态构建,推动3D感知技术给智能手机、娱乐行业、自动驾驶汽车、泛工业领域发展带来变革。

AI+3D,开创应用场景的更多可能

AI+3D正成为移动终端设备发展的必然趋势。

自2017年以来,智能手机摄像系统从单摄发展到双摄,再发展到如今多摄搭配ToF的组合,摄像头数量的大幅跃进,其对AI的依赖性也会越来越高,只有两者的紧密协作,才能够将完美的影像体验带给最终用户,缺一不可。

同样,越来越多的智能硬件也在逐渐具备3D感知能力。

为此,商汤科技一直积极与合作伙伴携手共进,将AI+3D相关产品和技术充分应用于手机等智能终端当中,从人机交互体验、AR、身份认证、拍照等层面,全面推动移动终端迈向AI+3D时代。


首先,AI+3D让机器真正具备了感知三维世界的能力,它可以将现实世界的物体进行数字化建模,实现“物品重建”。

借助商汤科技的通用3D重建技术,从毛绒玩具、纸箱、书包、鞋子到雕塑,用户只需拿手机沿着物体360度环绕扫描,就能将其扫描成数字化的模型。

生成的模型文件可直接用于3D打印、3D/AR相册预览,也可应用于短视频直播的内容生成并设置动画,也可植入到如AR养宠等游戏场景,或是电商的商品展示或预览等场景中。


除了物品重建,还可以做“人脸重建”。

2018年,商汤科技助力合作伙伴推出了市面上第一款具备3D人脸重建功能的手机。

3D人脸重建能够让人们对美的追求从平面走向立体。消费者不仅可以体验比2D美颜在五官上更加精美的3D美颜功能,还可足不出户轻松地进行虚拟试妆,直观查看上妆效果,甚至还能直观体验“3D微整形”来模拟整形效果,给医疗美容行业带来新的用户体验。


AI+3D更开创了人机互动的新方式,它可以让智能手机成为一台体感设备,实现精准的表情识别、肢体动作关键点捕捉。

由此一来,玩家不再需要外接体感控制器,就可方便地畅玩体感游戏,而内容创作者则可让自己化身为一个3D Avatar虚拟形象,例如虚拟游戏人物、虚拟主播、虚拟讲解员或者虚拟教师,通过自己的表情、动作来驱动虚拟形象的相应行为。

这种创新的虚实结合的互动形式,能够为游戏、直播、文旅乃至教育打造新的发展模式。


AI+3D也将在很大程度上推动移动AR朝向3D AR方向发展。

此前,相信很多用户经常会发现AR投射出来的虚拟形象并没有真正融入到现实场景中,只像是一张贴在屏幕上的贴纸。

随着商汤科技将基于ToFAI+3D技术赋能于AR应用,提供RGBD SLAM(同时定位与地图构建)方案,将能够充分利用深度信息重建真实环境的3D结构,准确还原虚拟物体和真实环境中物体的相对位置,呈现遮挡、碰撞、反弹等效果,让虚拟和现实做到“真融合”。


为了推动SLAM这一AR关键技术领域的发展,商汤科技还与浙江大学共建了“浙江大学-商汤三维视觉联合实验室”,在SLAM和三维重建等领域的前沿研究展开深入合作,并推出了高精定位与内容增强解决方案,不仅可以助力实现高精度的AR导航,还能让用户在此过程中与融入真实世界的虚拟景观即时互动。

而有了3D AR,手机还能摇身一变成为一把更为好用的AR测量尺

以商汤科技的3D AR测量产品为例,从测量精度,场景覆盖率到初始化耗时,都远超基于2D摄像头的AR测量方案,同时不仅能测量长度,甚至还可以检测立体几何物体并自动识别关键点,完成测量。


AI+3D也将让3D人脸识别得到更加广泛的应用,并成为更便捷、更安全的解锁或支付方式。

商汤科技不仅在2018年助力合作伙伴推出了市面上首款基于结构光的3D人脸识别安卓手机,还于同年底推出了基于ToF的3D人脸识别方案,为客户提供多种解决方案。

不仅仅是智能手机,智能门锁等IoT设备也将迈向3D感知时代。

今年,商汤科技推出了基于双目视觉的3D人脸识别智能门锁解决方案,支持在大角度和暗光环境下通过人脸验证准确解锁,并能有效防范各类非活体攻击,为用户带来便捷、安全的入户体验。


媲美单反的大景深效果一直是手机人像拍照所追求的方向。

早在2016年,商汤科技便推出了基于双摄系统的拍照虚化功能,如今更是推出了基于3D相机的虚化技术,精准的深度信息结合AI技术的处理,可以让人物等主体与背景的过渡效果更加自然、更加精准,无限逼近单反级别的虚化效果。

在电商行业,无论是AR试妆、AR试衣、AR家居已不是新鲜概念,但AI+3D不仅可让虚拟上妆、试衣等效果更加精准,更让消费者能够转动头部、身体,从更多维的视角查看最终效果,充分消除“不知道是否符合自己”的疑惑,进一步促成购买行为。

商家还可通过“物品重建”,将物品转化为数字模型,让顾客简单翻转就能360度地了解物品外观,并放置到真实场景中预览,而无需像现在这样一一翻看多张不同角度的静态照片。


放眼汽车行业,AI+3D技术能够实现更加精准的车外人、车、物识别和距离感知,从而有力推动自动驾驶在新10年的重要发展。

而在泛工业领域,AI+3D将进一步优化工业生产流程,不断提升生产效率。

它可以为机械臂赋予3D感知能力,通过高精准的SLAM、物体重建和测量等技术,判断立体物体所处的位置,以及相应的尺寸、形状和质量等信息,从而进行精准的抓取,或是进行自动化的品质检测,实现高标准的质量把控,有力提升工业生产的智能化程度,降本增效。


《Prediction Machines》一书中曾提到:“当某种基础产品价格大幅下降的时候,才是整个世界发生变化的基础”。

3D感知硬件的普及和AI技术的加持,让以往工业界才能实现的应用方式来到大众视野,降低体验成本的同时,应用场景也更加拓宽,变得更加普及,从基础改变我们的生活、娱乐、出行和工作方式。

新的10年,机器的感知能力将从2D走向3DAI+3D也将成为变革行业发展的全新引擎。

  相关阅读,戳这里 



  预防病毒,从我做起