可信AI：智能语音评估测试结果解读

人工智能产业发展联盟AIIA 2022-01-24 17:20

中国信息通信研究院于2021年2月正式推出“可信AI”评测体系。智能语音作为人工智能典型技术和重要产品支撑，其相关技术应用及服务标准规范已引起业界广泛重视，信通院在智能语音方面已完成语音识别、语音合成、声纹识别、全双工交互、智能语音交互产品、车载助手和智慧助手7个智能语音类评测项目。

2022年1月14日，在中国信息通信研究院云计算与大数据研究所主办的“可信AI成果发布会”上，中国信通院云大所所长何宝宏正式公布2021年第二轮智能语音类评估测试结果，具体结果如下（排名不分先后）。

在本场发布会上，中国信息通信研究院云计算与大数据研究所人工智能部工程师王颖介绍了智能语音产品评测观察。

一、技术产业观察

从Gartner发布的2021年语音技术的成熟度曲线可以看出，语音经近几年发展已进入高峰期，技术稳步爬升，语音识别已达到生产成熟期，对话式人工智能平台逐步在尝试产业应用落地。但是，仍存在多语种语言互通、复杂场景人机交互和多模态虚拟世界等技术挑战。

产业方面，国家及地方政府相继推出的人工智能相关利好政策，其中智能语音技术及应用被多次提及，政策推动及疫情催化下，市场规模持续增长。

消费级市场中，智慧生活场景应用需求增长迅速，智能驾驶汽车智能前装渗透率升高；企业级消费市场中，智能对话式应用需求在金融、电信、政务、互联网等领域仍占主导，市场规模逐年提升。

二、评测标准和能力介绍

智能语音类的评测标准依托中国人工智能产业发展联盟（AIIA）评估组进行组织讨论，并同步输出到中国通信标准协会（CCSA）进行行标立项和报批。目前，共有四篇文稿已进行行标报批，其余均行标立项成功。详情如下：

三、本轮评测观察

语音合成测评，立足于产品实际应用场景，从质量基准度、定制相似度和场景表现力三个维度进行综合评测。通过多轮评测积累结果对比分析形成以下结论：

质量基准度方面，2021年参评产品在该指标上已取得8.6的高分，较上一年有所提升，但在多音字、数字、易错姓氏上仍有进步空间；
定制相似度方面，就小样本合成而言，2021年指标得分超出以往最好结果1.9分，表现为真人与合成音的效果基本一致；
场景表现力方面，场景专项测试需求增加，后续将根据实际应用，拓展更丰富评测场景。

语音识别测评，考虑在实际应用由于环境复杂性、语种多样性、场景丰富性导致识别能力存在一定差距，本次测评从通用识别能力、扩展识别能力、环境识别、多领域及多场景识别五个维度进行评估。通过多轮评测积累结果对比分析形成以下结论：

环境识别方面，远近场识别结果差异还较为明显，背景噪声对识别结果影响依然较大；
符号数字识别方面，参评产品间数字符号识别结果参差不齐，无法说明整体水平；
错误纠正方面，部分产品支持对停顿、拖音、吞字错误的纠正。

全双工语音交互评测，为体现其流畅自然的语音交互能力，主要从交互输入、交互理解、交互策略、交互反馈及服务支撑等五个维度的多个细分功能点来评测系统服务能力。从首轮试评估评测结果看来，参评产品在以上五个维度功能表现均较好，可支持回声消除、实时语义、主动退出、全领域交互等功能，但在断句拼接成功率方面还有提升空间。

智能车载语音交互系统评测，主要包括智能化和安全性两大方面共12个维度进行评测，涵盖语音语义能力、车机控制、多模交互、性能兼容等百余项指标，从首轮试评估评测情况来看，语音识别方面受行车环境影响较大，响应时间距标准要求仍有差距。

智慧助手评测，主要面向“超级终端”的智能软件应用，从“听、说、读、想”四方面，考量其是否具备准确识别用户意图、感知用户情景、推荐合适服务和多模态交互等功能。从首轮试评估评测结果看来，围绕设备能力、感知能力、理解能力、表达能力、学习能力及服务能力，基本能力表现均佳，但在视频理解、多模态融合、多设备协同等高级能力方面还有较大提升空间。

四、启动2022年上半年评测

现正式启动2022年智能语音类评估测试工作，分为技术类和产品类两个系列，共计8个评测项目，11个评测子类。其中全双工语音交互、智慧助手、智能车载语音交互将展开首轮正式评估，智能对话平台展开首轮试评估。