【语音之家】AI技术沙龙——说话人日志

【语音之家】AI技术沙龙——说话人日志 | 第一期

收录于话题

#语音 1

#沙龙 1

语音之家AI技术沙龙

第一期说话人日志

由CCF语音对话与听觉专委会、中国人工智能产业发展联盟（AIIA）评估组、北京希尔贝壳科技有限公司、语音之家（北京）科技有限公司共同主办的【语音之家】AI技术沙龙——说话人日志，将于2021年7月10号 9：30在线上直播进行。

沙龙简介

随着智能语音技术也被越来越多的应用于人们的日常生活，如何更准确地识别出多人语音交互过程中的不同说话人发声的起止时间点，作为语音识别等后端识别技术的前提，逐渐成为研究热点。

说话人日志(Speaker Diarization)技术的主要目的是，给定一段多人交流的长音频(通常为单通道口语对话语音，有较多的多人混叠片段)，计算机能够自动地识别音频中有几个说话人，并检测出音频中每个说话人发言的起止时间戳，解决“谁在什么时候说话”(Who Spoke When)的问题，从而方便人们快速地检索和定位特定说话人的语音片段，是后续语音识别和声纹识别等模块的基础，被广泛用于会议场景的语音转写和索引等应用。

主持人

李荪

中国信息通信研究院云大所

人工智能部高级业务主管

参会嘉宾

杜俊

中国科学技术大学电子工程与信息科学系副教授

分享内容：A Study on Scenario-Dependent Speaker Diarization

摘要：With the application of speaker diarization in diversified scenarios, such as telephone, meeting, broadcast, restaurant, clinic, courtroom, etc., a single type of diarization technique could not yield satisfactory performance. In this talk, we will introduce a scenario-dependent speaker diarization pipeline with a divide-and-conquer strategy. In this pipeline, different combinations of techniques are designed, including the deep-learning-based speech enhancement for preprocessing, conventional clustering-based diarization, and iterative neural diarization. As a demonstration, our scenario-dependent pipeline won the first place for all tasks of DIHARD-III challenge.

嘉宾简介：杜俊是中国科学技术大学语音及语言信息处理国家工程实验室副教授，2009年-2013年就职于科大讯飞研究院和微软亚洲研究院，期间主导开发了语音识别、手写识别和OCR多个产品。研究方向是语音信号处理和模式识别应用，已发表论文200余篇，谷歌学术引用4500次，ESI高被引论文2篇，以唯一通讯作者发表的IEEE-ACM TASLP期刊论文获得2018年IEEE信号处理学会最佳论文奖，2019年获安徽省科技进步一等奖。目前是IEEE高级会员，并担任语音领域顶级期刊IEEE-ACM TASLP的编委、IEEE信号处理学会语音及语言处理技术委员会（SLTC）委员、亚太信号与信息处理协会（APSIPA）语音语言音频分会（SLA）技术委员会的秘书长以及APSIPA Distinguished Lecturer。带领团队获得2016年、2018年和2020年连续三届CHiME国际语音识别评测9个任务冠军、2018年ICPR多样式网络图像文字识别与检测比赛全部3项冠军、2018年ICPR遥感图像目标检测比赛全部2项冠军、2018年ICFHR东南亚棕榈叶手稿分析比赛2项冠军、2019年CROHME手写公式识别比赛2项冠军、2019年CVPR遥感图像目标检测1项冠军、2020年OffRaSHME离线手写数学公式识别比赛1项冠军、2020年DCASE评测的声音事件定位与检测任务冠军、2021年DIHARD-III说话人分割评测所有任务冠军。

李明

昆山杜克大学电子与计算机工程副教授

分享内容：基于深度编码的说话人日志

摘要：首先介绍近年来逐渐成为研究热点的说话人日志这一任务的背景；其次，结合近期研究成果来介绍采用有监督学习框架去展开说话人日志这一通常为无监督学习的任务；最后，拓展到从无监督学习的角度探索说话人识别这一通常为有监督学习的任务。

嘉宾简介：李明，昆山杜克大学电子与计算机工程副教授，大数据研究中心研究员，武汉大学计算机学院兼职教授，博导，第十五批江苏省六大高峰B类高层级人才。2005年获南京大学通信工程专业学士学位，2008年获中科院声学所信号与信息处理专业硕士学位，2013年毕业于美国南加州大学电子工程系，获工学博士学位。2013-2017年任教于中山大学卡内基梅隆大学联合工程学院及电子与信息工程学院，副教授，博士生导师。2018年加入昆山杜克大学，研究方向包括智能语音处理，多模态行为信号分析等方向。已发表学术论文130余篇，现担任IEEE语音及语言技术委员会委员，中国计算机学会语音对话与听觉专委会委员，中国人工智能学会人工心理与人工情感专委会委员, APSIPA 语音及语言处理专委会委员，IEEE学会高级会员。担任Interspeech2016，2018及2020说话人语种识别领域主席。带领团队于2011, 2012, 2019三次获得了INTERSPEECH Computational Paralinguistics Challenge子任务第一名，ASRU19 阿拉伯语语种识别第一名, interspeech20 fearless steps 说话人识别第一名, interspeech21 fearless steps 说话人识别及说话人日志第一名，获得IEEE DCOSS2009最佳论文奖，ISCSLP2014最佳学生论文奖。2016年被授予IBM Faculty Award，2018年被授予ISCA 5年最佳期刊论文奖，2020年被授予教育部第八届高校科学研究优秀青年成果奖。

卜辉

AISHELL & SpeechHome 创始人兼CEO

分享内容：AISHELL-4 多通道中文会议开源语音数据库

摘要：介绍人工智能数据开源环境，语音数据的开源现状，AISHELL开源数据介绍及会议场景多通道中文会议开源语音数据库AISHELL-4的发布，AISHELL-4数据库在会议场景里实现ASR、Speaker Diarization等相关技术的Baseline系统讲解。最后对未来语音数据开源的展望。

嘉宾简介：卜辉，AISHELL & SpeechHome 创始人兼CEO，带领团队发布AISHELL-1 & 2 & 3 & 4、HI-MIA等开源项目，成为语音技术领域的数据开源标杆，目前已形成了数据+智能语音技术的矩阵式开源方案，覆盖语音识别、声纹识别、语音合成、场景智能语音技术应用。中国计算机学会语音对话与听觉专委会委员，第十五届全国人机语音通信学术会议（NCMMSC）授予中国语音产学研基础贡献奖、第十一届亚太信号与信息处理协会（APSIPA）授予智能语音个人贡献奖。组织并筹办了2015-2020五届国内Kaldi技术交流会、2019 HI-MIA Speaker Verification Challenge、INTERSPEECH 2020 Far-Field Speaker Verification Challenge (FFSVC)、2021 IEEE SLT Alpha-mini Speech Challenge、INTERSPEECH 2021 Conferencing Speech Challenge、ICASSP 2021 Multi-Speaker Multi-Style Voice Cloning Challenge (M2VoC)