2020,畅想
人工智能
3D感知技术的未来
商汤科技
SenseTime
昨天
编者按
:本周,诸多企业已开始陆续返岗,通勤路上、办公室内,大家更加需要注意严格防护
。
这里,商汤君继续为大家分享
人工智能
的精彩报道和技术展望,带来一篇
AI
+3D技术的深度内容,一起来感受机器感知技术
的快速演进和
美好未来
。
本
文作
者系商汤科技移动智能事业群副总裁、智能终端业务CTO王子彬,商汤科技
智能终端业务3D产品负责人
李启铭
。
如果说,
AI
的快速发展,让机器初步具备了看懂平面世界的能力。
那么,下一个10年,
AI
+3D将让机器能够更深刻地感知和理解我们的三维世
界
,并重新定义我们的生活、娱乐和工作方式。
▎
赋予机器感知三维世界的“眼睛”
人类拥有与生俱来的3D环境感知能力,这是因为我们能够用两只眼睛来捕捉图像,通过大脑处理形成立体视觉,从而辨认物体的形状、他人的动作,感知我们和对方的距离,并轻松自然地跟这个三维世界进行交互。
人类也在不断努力为机器赋予和我们一样的3D感知能力,让机器能够“看懂”我们做出的动作,并给予相应的反馈,或是让机器知道“自己周围有什么”,甚至将其描绘出来。
比如,通过体感控制画面中的游戏人物,在家和朋友来一场棒球赛或是田径比赛,而不是只能单调
地坐在沙发上操控手柄;
将下一代汽车通
过
增强现实
(
AR
)技术投射到桌面上,客户可以亲自“打开”车门甚至现场“拆解”内部结构,直观地提出修改建议;
派
无人机
深入森林或洞穴,一边前行一边绘制周边场景的三维图像,帮助我们探索自然环境;
让
自动驾驶汽车
,能够像人一样,做出合理的路径规划,让出行更具效率且更加
安全
……
3D感知技术能够给各行各业带来创新的发展模式,无论是丰富我们的娱乐体验,还是提升我们的工作效率,便捷我们的出行体验,或是改变我们探索自然的方式……
为了赋予机器感知三维世界的“眼睛”,早在上世纪70年代,工业界便开始应用
激光
雷达
、
结构光
、
ToF
(飞行时间)等3D感知技术,用于测量、扫描物体,以提高生产效率。
初期的
自动驾驶汽车
,则大量应用
激光
雷达
作为传感
设备
,提升对环境的感知能力。
直到近10多年,家用游戏机厂商将外接体感
设备
带到了普通人的视野当中,创造出体感游戏等新奇体验。
而在2017年,
结构光
系统更是首次集成到了手机上,实现
安全
性更高的人脸身份
验证
。
今天,小型化的
结构光
和
ToF
出现在了越来越多的智能手机上。
相较于
结构光
,
ToF
支持的工作距离更长,适用于更加多元化的场景,同时占用空间更小,更易集成进小型化的终端
设备
。
在未来一段时间内,这两种感知技术都将共存,且因不同使用场景需求,在不同行业领域中长期发展。
而新的10年,也将是小型化3D感知硬件快速普及、全面走向大众的10年。
但是,硬件只是基础,如同人们的双眼,只是让我们具备了捕捉立体图像信息的能力,真正理解万物和人类之间的各类交互行为,依靠的还是我们大脑的学习能力。
而3D感知硬件从工业界走向大众,消费者对这项技术自然也会抱有更高的期待,因此
要具备更加通用的场景感知能力
。
对于机器来说,能学习这些能力的“大脑”,就是
人工智能
(
AI
)技术。
如今,
AI
和3D这两大革命性的技术,正在产生绝妙的
化学
反应。
很快,在
AI
+3D技术的加持下,仅通过智能手机等小型终端
设备
,就能做到很多以往需要专业硬件设备才能够实现的事情,并因此让这些事情变得更加简单,成本更低,让众多的应用场景从不可能变成可能。
AI
+3D,很有希望成为掀起新10年行业变革的一项感知技术
。
▎
AI
技术,让3D感知不断学习
机器依靠摄像头来捕捉现实世界的影像。
传统的RGB摄像头仅能捕获场景中的色彩信息,无法感知现实世界的三维结构,无论远近,对机器来说都只是一个2D平面。
3D感知硬件的作用,就是在RGB的基础上增加Depth这一深度信息。
多一层信息维度,也就多了一层信息处理的复杂度。不仅信息量更大,随之产生的技术挑战也越多。
尽管
结构光
、
ToF
等技术在过去几年间已经不断小型化,但受限于图像处理
算法
的瓶颈,机器的3D感知能力,并未被充分挖掘。
图片来源于网络
2012年,
AI
技术在
计算机视觉
领域中取得的突破,也使其成为了驱动3D感知技术新的引擎。
AI
可以通过对大量数据信息的学习,自行总结其中的规律和特征,从而比传统
算法
模式更快地达到更好的结果。
这就为机器开创了学习理解三维世界的全新方法,诸如更加精细地识别场景中人和物的相互关系,快速重建人脸、人体和物体的三维模型,快速测量各种物体的三维信息,赋予机械臂感知物体的立体型态,更高效率跟踪人体关键点和动作……
可以说,
AI
技术能够在相同的硬件能力上,更快速地实现更好的效果
,相应地,它也能够弥补硬件能力的不足,在相对较低成本的硬件上达到媲美高端硬件带来的效果
。
随着3D感知硬件的广泛普及,
AI
与3D的有效结合就将非常重要,两者将密不可分:
首先,
AI
+3D可以进一步优化感知效果,提升用户体验。
以动作捕捉为例,结合对深度信息的高效处理,能够整体提升肢体关键点的稳定性、准确性以及运动的稳定性和自然度,精准呈现人在三维空间中的动作姿态变化;
第二,
AI
+3D可以更加高效地应用和处理深度信息,理解环境中人物间的相互关系。
例如为
自动驾驶
提供车外的人、车、物的识别和距离感知,或为
增强现实
应用带来逼真的虚拟元素遮挡、旋转、碰撞效果,又在智能手机等轻量级
设备
上完成高精度的3D模型
建模
;
第三,
AI
+3D可以更加精准地分割图像中的主体和背景。
特别是在主体和背景颜色比较相近的情况下,得益于对深度信息的快速处理,在分割效果上就能够比2D感知技术有很大的提升,可提供不同人物之间的语义信息,亦可结合3D相机系统带来更逼近单反的摄影效果;
第四,深度信息与红外图像的结合,可以让3D感知适用于更多的场景,使之不受环境光线的影响,在暗态场景下依然能感知这个世界。
目前,
商汤科技已经将
AI
技术广泛地应用于3D感知的各个领域,开发了基于
ToF
等3D感知硬件的技术与产品
,包括人脸与人体3D重建、物体重建、3D全身关键点跟踪、3D Avatar驱动工具、
AR
测量、AR场景互动、AR导航、3D人脸认证、3D摄影等等。
在提供
算法
的同时,商汤科技也与3D感知硬件的合作伙伴紧密合作,为行业提供软硬一体的整体解决方案,并由此驱动
AI
+3D的发展和生态构建,推动3D感知技术给智能手机、娱乐行业、
自动驾驶汽车
、泛工业领域发展带来变革。
▎
AI
+3D,开创应用场景的更多可能
AI
+3D正成为移动终端
设备
发展的必然趋势。
自2017年以来,智能手机摄像系统从单摄发展到双摄,再发展到如今多摄搭配
ToF
的组合,摄像头数量的大幅跃进,其对
AI
的依赖性也会越来越高,只有两者的紧密协作,才能够将完美的影像体验带给最终用户,缺一不可。
同样,越来越多的智能硬件也在逐渐具备3D感知能力。
为此,商汤科技一直积极与合作伙伴携手共进,将
AI
+3D相关产品和技术充分应用于手机等智能终端当中,从
人机交互
体验、
AR
、身份认证、拍照等层面,全面推动移动终端迈向
AI
+3D时代。
首先,
AI
+3D让机器真正具备了感知三维世界的能力,它可以将现实世界的物体进行
数字化
建模
,实现“物品重建”。
借助商汤科技的
通用3D重建技术
,从毛绒玩具、纸箱、书包、鞋子到雕塑,用户只需拿手机沿着物体360度环绕扫描,就能将其扫描成
数字化
的模型。
生成的模型文件可直接用于
3D打印
、3
D/A
R相册预览,也可应用于短视频直播的内容生成并设置动画,也
可植入
到如
AR
养宠等游戏场景,或是电商的商品展示或预览等场景中。
除了物品重建,还可以做“人脸重建”。
2018年,商汤科技助力合作伙伴推出了市面上第一款具备
3D人脸重建
功能的手机。
3D人脸重建能够让人们对美的追求从平面走向立体。消费者不仅可以体验比2D美颜在五官上更加精美的3D美颜功能,还可足不出户轻松地进行虚拟试妆,直观查看上妆效果,甚至还能直观体验“3D微整形”来模拟整形效果,给医疗美容行业带来新的用户体验。
AI
+3D更开创了人机互动的新方式,它
可以
让智能手机成为一台体感
设备
,实现精准的表情识别、肢体动作关键点捕捉。
由此一来,玩家不再需要外接体感控制器,就可方便地畅玩体感游戏,而内容创作者则可让自己化身为一个3D Avatar虚拟形象,例如虚拟游戏人物、虚拟主播、虚拟讲解员或者虚拟教师,通过自己的表情、动作来驱动虚拟形象的相应行为。
这种创新的虚实结合的互动形式,能够为游戏、直播、文旅乃至教育打造新的发展模式。
AI
+3D也将在很大程度上推动移动
AR
朝向3D AR方向发展。
此前,相信很多用户经常会发现
AR
投射出来的虚拟形象并没有真正融入到现实场景中,只像是一张贴在屏幕上的贴纸。
随着商汤科技将基于
ToF
的
AI
+3D技术赋能于
AR
应用,提供
RGBD SLAM(同时定位与地图构建)方案
,将能够充分利用深度信息重建真实环境的3D结构,准确还原虚拟物体和真实环境中物体的相对位置,呈现遮挡、碰撞、反弹等效果,让虚拟和现实做到“真融合”。
为了推动SLAM这一
AR
关键技术领域的发展,商汤科技还与浙江大学共建了“浙江大学-商汤三维视觉联合实验室”,在SLAM和三维重建等领域的前沿研究展开深入合作,并推出了
高精定位与内容增强解决方案
,不仅可以助力实现高精度的
AR
导航,还能让用户在此过程中与融入真实世界的虚拟景观即时互动。
而有了3D
AR
,手机还能摇身一变成为一把更为好用的
AR
测量尺
。
以商汤科技的3D
AR
测量产品为例,从测量精度,场景覆盖率到初始化耗时,都远超基于2D摄像头的AR测量方案,同时不仅能测量长度,甚至还可以检测立体几何物体并自动识别关键点,完成测量。
AI
+3D也将让
3D
人脸识别
得到更加广泛的应用,并成为更便捷、更
安全
的解锁或支付方式。
商汤科技不仅在2018年助力合作伙伴推出了市面上首款基于
结构光
的3D
人脸识别
安卓手机,还于同年底推出了基于
ToF
的3D人脸识别方案,为客户提供多种解决方案。
不仅仅是智能手机,智能门锁等
IoT
设备
也将迈向3D感知时代。
今年,商汤科技推出了
基于双目视觉的3D
人脸识别
智能门锁解决方案
,支持在大角度和暗光环境下通过人脸
验证
准确解锁,并能有效防范各类非活体攻击,为用户带来便捷、
安全
的入户体验。
媲美单反的大景深效果一直是手机人像拍照所追求的方向。
早在2016年,商汤科技便推出了基于双摄系统的拍照虚化功能,如今更是推出了
基于3D相机的虚化技术
,精准的深度信息结合
AI
技术的处理,可以让人物等主体与背景的过渡效果更加自然、更加精准,无限逼近单反级别的虚化效果。
在电商行业,无论是
AR
试妆、AR试衣、AR家居已不是新鲜概念,但
AI
+3D不仅可让虚拟上妆、试衣等效果更加精准,更让消费者能够转动头部、身体,从更多维的视角查看最终效果,充分消除“不知道是否符合自己”的疑惑,进一步促成购买行为。
商家还可通过“物品重建”,将物品转化为数字模型,让顾客简单翻转就能360度地了解物品外观,并放置到真实场景中预览,而无需像现在这样一一翻看多张不同角度的静态照片。
放眼汽车行业,
AI
+3D技术能够实现更加精准的车外人、车、物识别和距离感知,从而有力推动
自动驾驶
在新10年的重要发展。
而在泛工业领域,
AI
+3D将进一步优化工业生产流程,不断提升生产效率。
它可以为机械臂赋予3D感知能力,通过高精准的SLAM、物体重建和测量等技术,判断立体物体所处的位置,以及相应的尺寸、形状和质量等信息,从而进行精准的抓取,或是进行
自动化
的品质检测,实现高标准的质量把控,有力提升工业生产的智能化程度,降本增效。
《Prediction Machines》一书中曾提到:“当某种基础产品价格大幅下降的时候,才是整个世界发生变化的基础”。
3D感知硬件的普及和
AI
技术的加持,让以往工业界才能实现的应用方式来到大众视野,降低体验成本的同时,应用场景也更加拓宽,变得更加普及,从基础改变我们的生活、娱乐、出行和工作方式。
新的10年,
机器的感知能力将从2D走向3D
,
AI
+3D也将成为变革行业发展的全新引擎。
相关
阅读,戳这里
预防病毒,从我做起
阅读
在看
已同步到看一看
写下你的想法
前往“发现”-“看一看”浏览“朋友在看”
前往看一看
看一看入口已关闭
在“设置”-“通用”-“发现页管理”打开“看一看”入口
我知道了
已发送
取消
发送到看一看
发送
2020,畅想人工智能3D感知技术的未来
最多200字,当前共
字
发送中