上个月,为方便用户云办公,微软与Skype合作发布了一组日常聊天新功能:比如,用户可以使用举手示意功能来请求发言;以及,在离线和低网速状态下,用户也能阅读和回复聊天消息……但在这其中,最引人瞩目的却是“实时噪音抑制”功能。发布会上,微软演示了AI在通话时最小化背景噪音的场景,当即引起了参会者的关注。
事实上,多数人都有过在上网课或开云会议时,耳机里忽然出现噪音的尴尬经历。实时噪音抑制功能成为这个问题的克星,它能过滤掉人们在键盘上打字的声音、电脑主机运行的嗡嗡声甚至是家里吸尘器的声音。AI将实时消除背景噪音,这样用户就能将注意力完全集中在通话中的语音上。但它到底是如何工作的呢?
👂
平稳噪声与非平稳噪声
噪声抑制其实不算是新鲜事物,很多通信工具和视频会议应用程序也安装了噪音抑制功能。但是这种噪声抑制只能作用于某种固定的噪声,比如电脑风扇或空调运行的声音。传统的噪声抑制方法是寻找连续的背景音,预估噪声的基线,然后将其过滤掉。
相比之下,微软Teams(微软智能团队协作工具)的优势在于,他们可以过滤非固定的噪音——如狗叫声、或是关门的声音。微软Teams的项目经理Robert Aichner表示:“在机器学习技术帮助下,我们能够创建一个大的训练集,往里面添加诸多有代表性的噪音。”
值得一提的是,训练集中还有一个专门的分类,归于该类别的的噪音不会在通话时被过滤掉,如笑声和歌声。
噪声也会和人的语音出现频率重叠。同时,在声音信号的谱图上,语音之间的间隙也有可能出现噪声,与语音重叠在一起。因此,要靠传统方法完全过滤掉噪音几乎是不可能的——如果用户的语音和背景噪音相融合,系统就无法识别出噪声的声音基线。这也就是为什么微软Teams事先训练了一个神经网络,让它分清噪音和语音的区别。
🤖️
语音识别与噪声抑制
语音识别系统需要记录大量用户的语音,然后通过他们的讲话内容来给这些语音数据贴上标签,再传送给噪声抑制系统进行“语音净化”。微软Teams收集了数千名用户的语音样本,在这些样本中插入了100多种噪音模型。他们模拟了一个AI麦克风信号模型,训练它标记语音数据,并剔除背景噪音。
考虑到男性和女性的声音在语音特征上是不同的,Teams首先试验了AI模型对不同性别语音的反应。为了保证样本多样性,他们在YouTube上下载了不同博主的语音数据集,这些语音掺杂着打字和背景音乐等噪音内容。通过合成器脚本,他们将语音数据和噪音数据以不同的信噪比进行组合,从而模拟出不同的现实情况。
实验中,微软不允许研究团队查看任何客户数据。此外,微软内部也有严格的隐私规定:这些在实验阶段收集到的数据集,最终会被完全销毁。Aichner表示,目前,微软仍在尝试在完全不损害用户个人利益的情况下获取开源语音数据集,以确保实验结果的准确性。
☁️
云计算或被踢出擂台
一般而言,机器学习流程都在云端悄然进行。然而,这对实时噪声抑制功能来说却不怎么适用:
“你对着麦克风说话,你的语音数据会被发送到云端。云有强大的计算能力,能够运行大型AI模型来识别你的语音。但是因为语音是实时发送的,AI需要细化处理每一帧语音内容,这些语音的长度往往被切割至10到20毫秒一篇。在这种情况下,将语音传送到云端,等待处理完毕后再传送回来,显然已不符合实时通信的要求。”Aichner介绍道。
对于语音识别,云计算技术是比较实用的;而对于实时噪声抑制,依赖于云极端是不切实际的。机器学习模型必须被缩小到能够直接在电话或电脑后台运行的程度,以适应用户的实时通信需求。高端的大型机器学习模型则极不实用。
机器学习模型应该存放于后台而不是云中的另一个原因是,微软希望限制服务器的干预。用户的一对一呼叫设置虽然是通过服务器进行的,但实际的音频和视频信号包却是直接在参与者之间发送的。对于语音会议,服务器的大负载会增加网络延迟。每多一次网络跳转,网络延迟指数就会上升。从这个角度来看,在后台处理语音信息会更加有效。
不过,这种做法也是有成本的:PC端电脑的电池寿命可能会遭到折损。Teams当然不希望笔记本的电池寿命因为增加了噪音抑制功能而变短,这也是他们正在致力于解决的难题之一。
现阶段,降噪AI模型已被缩减到只有几兆字节的大小。当用户在手机或笔记本电脑上下载应用程序时,他们自然也希望下载的程序容量越小越好。不过,小容量并不能与低运行水平划等号。在未来,AI模型会随着数据库的更新而迭代,自动下载更多的数据包,这些数据包也将达到容量最小化,以保证用户更灵活地使用微软的语音降噪程序。
来扫我呀
关于我门
▼
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。
将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。
将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com
将门创投
让创新获得认可!
微信:thejiangmen
bp@thejiangmen.com
点击“❀在看”,让更多朋友们看到吧~