预告 | 阿里巴巴 ICASSP 2021分享会

图片

ICASSP会议即国际声学、语音与信号处理会议,是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议,是IEEE(电子技术与信息科学工程师协会)旗下的重要国际会议。ICASSP 2021将于6月6日-6月11日召开,AI研习社邀请了阿里巴巴达摩院的小伙伴为大家分享他们ICASSP 2021的成果。


活动流程

18:30-19:00  

分享嘉宾:郑斯奇

分享主题

1-A real-time speaker diarization system based on spatial spectrum; 

2-CAM: Context-Aware Masking for Robust Speaker Verification

 

19:00-19:20

分享嘉宾:赵英竹

分享主题:Preventing Early Endpointing for Online Automatic Speech Recognition

 

19:20-19:40

分享嘉宾:王子腾

分享主题

Weighted Recursive Least Square Filter and Neural Network based Residual Echo Suppression for the AEC-Challenge

 

19:40-20:00

分享嘉宾赵胜奎

分享主题:Monaural Speech Enhancement with Complex Convolutional Block Attention Module and Joint Time Frequency Losses

 

20:00-20:30

问题解答环节

 

分享概要

分享嘉宾1:郑斯奇  达摩院-机器智能技术实验室

分享主题1ICASSP 2021 | A real-time speaker diarization system based on spatial spectrum

论文摘要:本文提出了一种基于麦克风阵列的和声纹神经网络技术的多说话人识别系统,应用于会议或多人讨论场景。作者针对该场景长期存在的一些难题,提出了一种新的解决思路。包括:定位并分离overlap的语音;在自由加入或离开的会议中跟踪每一个说话人,并定位到其位置;在极短的短句中依然识别出说话人身份;以及实时地检测出说话人发生变更的事件。本文发现通过有效建模空间信号信息+声纹神经网络,可以大幅度提升系统在上述难题中的表现,达到可商用的体验。该论文中的算法与技术,已被运用到达摩院听悟产品MARS拾音器中。 

分享主题2ICASSP 2021 | CAM: Context-Aware Masking for Robust Speaker Verification

论文摘要:在强噪环境下的说话人识别技术一直是领域内的长期难题。最近,随着短视频、新网络音视频媒介的兴起,针对这些网络内容的说话人识别需求也逐渐强烈。由于这些音视频内容通常伴随着大量背景音乐、声音特效等干扰噪声,传统的说话人识别技术难以达到理想效果。因此,作者提出了一种新的算法CAM:针对声纹识别的Context-Aware Masking。CAM受启发于照相机的聚焦技术,可以在嘈杂的环境中,“虚化”过滤掉背景噪声,突出需要识别的目标说话人的声音,从而在强噪环境下,大幅度提升了识别的准确率。


分享嘉宾2:赵英竹  达摩院-机器智能技术实验室

分享主题ICASSP 2021  | Preventing Early Endpointing for Online Automatic Speech Recognition

论文摘要:该论文针对于实时语音识别中每句话结束过早的问题,利用ScaleGrad,提出了通过调节end-of-sentence单词的模型产生概率的方法来解决这个问题,并且在理论和实验上验证了这个方法的有效性。

在实时语音识别中存在着识别结束过早的问题,也就是识别的文字过早产生end-of-sentence单词。本文在流式RNN模型训练上,调节(增大)end-of-sentence的产生概率:然后在解码过程中恢复该单词原有的产生概率,通过这样的方法我们从理论上证明了这可以削弱模型学习产生end-of-sentence的能力,从而达到延缓句子结束的目的。

 

分享嘉宾3:王子腾 达摩院-机器智能技术实验室

分享主题ICASSP 2021 | Weighted Recursive Least Square Filter and Neur al Network based Residual Echo Suppression for the AEC-Challenge

论文摘要:本文提出了一种面向语音通话场景的回声消除方案。该方案包括GCC-PHAT(Generalized Cross Correlation with Phase Transform)参考延迟对齐,加权RLS(Recursive Least Square)线性滤波和基于DFSMN(Deep Feedforward Sequential Memory Network)的回声残余抑制三个算法模块。其中,我们创新性地采用了声源分离的视角来分析和处理线性回声消除问题,通过最大化回声信号和近端语音之间的独立性,引入了语音概率分布相关的加权因子,同时提高了算法的线性回声消除效果和双讲语音保真能力。为了进一步提高对回声残余的抑制能力,我们利用大量仿真数据训练了DFSMN模型,与线性滤波器进行级联。最后,本文的方案在ICASSP2021 AEC-Challenge任务中获得了平均MOS(Mean Opinion Score)得分第二名的成绩。

 

分享嘉宾4:赵胜奎 达摩院-机器智能技术实验室

分享主题ICASSP 2021 | Monaural Speech Enhancement with Complex Convolutional Block Attention Module and Joint Time Frequency Losses

论文摘要:目前的智能语音降噪方案仍然存在一些明显的不足,首先目前的智能降噪系统不是一个端到端的系统,使用了人工设计的语音特征,另外,目前的智能语音降噪方案只增强了语音的幅度谱部分,没有针对相位谱进行增强,仍然使用带噪语音的相位谱,因而影响到增强后的语音的感知质量和可懂度。

为了解决以上问题,本方案使用复数值网络(Complex Neural Networks)直接估计语音频谱图的实部和虚部的掩蔽值,从而同时对幅度谱(FFT Magnitude)和相位谱(Phase)进行了增强。为了提升复数值卷积网络的表示能力,我们提出了一个复数值卷积注意力模块(Complex  Convolutional Block Attention Module, CCBAM). 该CCBAM模块是一个轻量级及通用的模块,可以很容易地嵌入到网络结构中去。我们同时提出一种时频域联合优化函数。结合新提出的CCBAM模块和联合优化函数,我们形成一个新的端到端(End-to-End)的语音增强框架,并在对比实验中取得更理想的降噪效果。

 

直播链接二维码 

图片


图片