三连冠!科大讯飞夺国际多通道语音分离和识别大赛CHiME-6冠军
AI科技评论
今天
作者 | 京枚
编辑 | 贾伟
连续第三次夺冠!
5月4日,国际多通道语音分离和识别大赛(CHiME)组委会在线揭晓最新一届CHiME-6成绩:
科大讯飞
联合中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)在给定说话人边界的多通道
语音识别
两个参赛任务上夺冠。
自2016年以来,
科大讯飞
第三次参加这项国际竞赛,并连续夺冠,这次的
语音识别
错误率从CHiME-5的46.1%降至30.5%。
科大讯飞
夺得CHiME-6冠军 (Track1:Ranking A)
科大讯飞
夺得CHiME-6冠军 (Track1:Ranking B)
1、“史上最难”
语音识别
任务
CHiME(Computational Hearing in Multisource Environments)由法国
计算机科学
与
自动化
研究所、英国谢菲尔德大学、美国
三菱
电子研究实验室等知名研究机构所于2011年发起,今年是第六届,比赛的目的是希望学术界和工业界针对高
噪声
、高混响、自由讨论场景提出全新的
语音识别
解决方案,从而进一步提升语音识别的实用性和普适性。
CHiME-6被称为“史上最难的
语音识别
任务”,TA有四大难点:
大量的语音交叠(Speech Overlap)
远场混响和
噪声
干扰对录音的影响
对话风格非常自由、近乎随意
训练数据有限
比赛极具挑战,参赛团队也大牛如云。历届CHiME比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本NTT、
日立
中央研究院、德国RWTH亚琛大学、帕德博恩大学、捷克布尔诺理工大学等国际一流高校和研究机构,以及清华大学、中国科学院大学、中科院声学所、中科院
自动化
所、西北工业大学等国内顶尖院校和研究所。而在CHiME-6中,美国的约翰霍普金斯大学、俄罗斯STC公司、德国帕德博恩大学、捷克布尔诺理工大学等知名学术机构及企业均有参赛。
2、一年半,错误率从46.1%降至30.5%
本次CHiME-6和CHiME-5比赛使用的语音素材相同,即在多个不同的生活场景——包括多人在厨房边做饭边聊天、在起居室边用餐边聊天、在客厅聊天,聊天的声音中包括远场、混响、噪音、语音叠加等各种复杂因素,因而技术难度极大。
本次比赛的Track1任务与CHiME-5相同,即在给定说话人边界的情况下重点考察参赛团队的多通道
信号处理
能力及复杂场景
语音识别
能力。另外,本次比赛新设了Track2任务,该任务要求参赛机构在自动说话人分离的基础上再进行语音识别。
(CHiME-6音频样本采集于厨房、起居室、客厅等场景的多人对话)
2018年的CHiME-5比赛,
科大讯飞
联合中科大语音及语言信息处理国家工程实验室杜俊教授团队(USTC-NELSLIP)斩获了四个比赛项目的全部冠军。
然而,当年最优的参赛系统
语音识别
错误率仍高达46.1%,距离实用仍有较大差距,所以,今年USTC-NELSLIP联合团队重点聚焦于Track1,希望进一步探索复杂场景语音识别实用化的可能性。
通过团队的技术攻关,
将该任务上的
语音识别
错误率从原来的46.1%降至30.5%,
大幅刷新该项赛事历史最好成绩,进一步拉大领先优势,最终在Track1的两个子任务(Track1-Ranking A,需使用官方语言模型;Track1-Ranking B,不限制语言模型)上均斩获冠军。
3、
语音识别
技术
稳踞世界领先水平
面对同样的“考题”,CHiME-6成绩大幅跃升,靠什么?
这得益于多年来在真实场景中的技术积累,USTC-NELSLIP联合团队针对比赛任务进行了一系列技术创新。
在前端
信号处理
方面
,联合团队提出了基于空间-说话人同步感知的迭代掩码估计
算法
(Spatial-and-Speaker-Aware Iterative Mask Estimation, SSA-IME),
该
算法
结合传统
信号处理
和
深度学习
的优点,利用空时多维信息进行
建模
,迭代的从多个说话人场景中精确捕捉目标说话人的信息。
该
算法
不仅有效降低环境干扰
噪声
,而且可以有效消除干扰说话人的语音,从而大幅降低
语音识别
的处理难度。
在后端
声学模型
上
,联合团队提出了基于空间-说话人同步感知的
声学模型
(Spatial-and-Speaker-Aware Acoustic Model, SSA-AM),
通过在
声学模型
输入端拼接多维度空间信息和不同说话人信息,使其能自适应区分目标说话人和干扰说话人
。因此,
声学模型
不仅依赖前端
算法
的处理结果,也能够自适应完成对目标说话人语音特征的提取,大幅提升多人对话场景下
语音识别
声学模型
的容错率和鲁棒性。
回顾2018年组委会发布CHiME-5数据集,官方的基线系统错误率高达73.3%,USTC-NELSLIP联合团队通过不断进行技术创新,逐步刷新最好成绩。这充分说明,在远场、混响、噪音、声音叠加、语言风格随意等诸多不确定性的复杂场景下,USTC-NELSLIP联合团队的技术积累一直处于世界领先水平。
4、会议场景的得力助手
科大讯飞
长期致力于智能
语音技术
的源头创新及产业化应用,并不断挑战
语音识别
实际应用中的技术难题。
2010年发布语音云,持续改善语音输入、语音交互场景的准确率,2015年发布讯飞听见,逐步提升人人对话场景的准确率。
本次CHiME-6的研究成果无疑将进一步拓展
语音识别
的应用空间。例如,在远距离会议场景,相比于CHiME-6的比赛任务,其说话风格随意性减少、语音叠加现象减少、训练数据大幅增加,错误率势必大幅下降,因而,本次比赛的技术成果无疑将进一步增促进会议场景语音识别的实用化。
2019年联合国教科文组织(UNESCO)在法国举办的“
人工智能
促进可持续发展”会议、在瑞士举办的2019信息社会世界高峰会议(WSIS)论坛、2019年全国两会等重大国际及国内会议现场均使用了讯飞听见智能会议系统提供的英文及中文转写服务,而这背后,就是
科大讯飞
积累多年的
语音识别
核心源头
人工智能
技术。
基于核心源头技术优势,去年9月份,
科大讯飞
正式成为北京2022年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商
,为奥运会提供自动语音转换与翻译技术和服务。如今,讯飞听见智能会议系统已成为国内外大型会议的得力助手,仅2019年就服务了国内外2000多场高规格大会。
除了讯飞听见智能会议系统,在实际的应用场景中,
科大讯飞
的
语音识别
和多
麦克风
阵列
信号处理
技术还广泛应用在不同的C端产品和服务中,比如搭载八
麦克风
阵列的讯飞智能录音笔、能完整记录会议内容的讯飞智能办公本、月活1.4亿且能免切换识别中英文及23种方言的讯飞输入法等,这些办公和生活应用已触手可达,为广大用户解决不同场景下的
语音识别
需求。
5、为全球提供多语种智能语音解决方案
获得国际多通道语音分离和识别大赛(CHiME)三连冠,表明
科大讯飞
不仅在中文
语音识别
领域长期保持领先地位,在英文语音识别领域同样有着深厚的功底。
目前,
科大讯飞
正在大力拓展多语种
语音识别
方面的技术研究,有望为全球更多企业及消费者提供优质的多语种智能语音解决方案。
ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行,因新冠肺炎疫情改为线上会议。为促进学术交流,方便国内师生提早了解
自然语言处理
(
NLP
)前沿研究,
AI
科技评论将推出「ACL 实验室系列论文解读」内容,同时欢迎更多实验室参与分享,敬请期待!
点击"阅读原文",直达“ACL 交流小组”了解更多会议信息。
阅读原文
阅读
在看
已同步到看一看
写下你的想法
前往“发现”-“看一看”浏览“朋友在看”
前往看一看
看一看入口已关闭
在“设置”-“通用”-“发现页管理”打开“看一看”入口
我知道了
已发送
取消
发送到看一看
发送
三连冠!科大讯飞夺国际多通道语音分离和识别大赛CHiME-6冠军
最多200字,当前共
字
发送中