科大讯飞再次包揽CHiME国际多通道语音分离和识别大赛四项冠军

2018-09-10 10:45:22   来源:新浪游戏

  北京时间2018年9月7日,国际多通道语音分离和识别大赛(CHiME)组委会在微软海得拉巴研发中心的揭晓了最新一届CHiME-5 的比赛结果,科大讯飞团队再次包揽该项赛事全部四个项目最好成绩并刷新各项目的最好成绩。

  作为国际语音识别评测领域影响力最大、参赛队伍最多、水平最高的多通道噪声鲁棒性语音识别比赛,本届CHiME大赛相比上届又增加了一些新亮点。本届大赛组委会通过采用4声道麦克风阵列对20个真实家庭的晚餐进行录音来形成比赛数据,用以考察和测试在家庭聚会等不同场景中自由交谈风格下的远场语音识别效果。

  在赛事中,参赛团队共需完成四个项目:分别是单麦克风阵列任务、分布式麦克风阵列任务,以及两种麦克风阵列对应的两个端到端的语音识别任务。本届赛事的难点主要存在以下几个方面:多麦克风阵列的同步录音、非常自由近乎随意的说话风格、大量的语音交叠(Speech Overlap)和录音环境中的远场混响和噪声干扰。

  在两年前的上一届比赛(CHiME-4)中,科大讯飞就曾通过和国内外知名院校专家、团队的深入合作和讨论,斩获全部三个项目的桂冠并大幅刷新了各项目历史最好记录。而在本届比赛中,科大讯飞与中国科学技术大学杜俊教授团队、西北工业大学陈景东教授、佐治亚理工大学李锦辉教授等国内外知名专家团队再度携手。最终在单麦克风阵列任务、分布式麦克风阵列任务(Rank A)和两种麦克风阵列对应的两个端到端的语音识别任务(Rank B),共计四项任务中连续两届包揽所有项目冠军,再次大幅刷新各项目的最好成绩。

  四项比赛成绩如下(词错误率越低,说明系统性能越好)

  根据赛前官方数据,基于主流前端系统和深度学习模型下本次比赛的样本语音识别词错误率(Word Error Rate,WER)高达81.14%,堪称“史上最难语音识别任务“。而科大讯飞团队所提交的系统,较官方基线系统将WER降低了绝对35个点。在分布式麦克风阵列任务中,系统的效果甚至超过了近讲麦克风,这不仅再次证明了科大讯飞在语音识别和多麦克风阵列语音信号处理领域内扎实的基本功和雄厚的实力,也表明了科大讯飞在中文语音识别领域长期保持被追赶地位的同时,英语语音识别领域也达到了同等高度和层次。

  此前,在科技部召开的《新一代人工智能发展规划》暨重大科技项目启动会会上,国家宣布了首批四家国家新一代人工智能开放创新平台名单,明确依托科大讯飞建设智能语音国家新一代人工智能开放创新平台。

  在本次大赛中,科大讯飞所提交的系统在分布式麦克风阵列任务上所取得的优于近讲麦克风效果的成绩,得到了大赛组办方的高度赞扬。科大讯飞在智能语音技术方面的雄厚实力得到再次肯定与巩固,未来,科大讯飞将继续坚持核心源头技术研发创新,用AI赋能各行各业。

  CHiME(Computational Hearing in Multisource Environments),国际语音识别评测中的高难度比赛,始办于2011年,由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所发起。比赛的目的是希望学术界和工业届针对高噪声和混响等现象影响下的实际场景提出全新的语音识别解决方案,以进一步提升语音识别的实用性和普适性,目前CHiME比赛已经举办五届,成为业界影响力最大、参赛队伍最多、水平最高的多通道噪声鲁棒性语音识别比赛。

  历届CHiME比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立中央研究院、德国RWTH亚琛大学等国际一流高校和研究机构,以及清华大学、中科院声学所、中科院自动化所、西北工业大学等国内顶尖院校和研究所。

新浪声明:新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。
精彩推荐

热门推荐

HOT RECOMMEND

新浪VR简介 | 论坛社区 | 网站合作 | 广告服务 | 联系我们 | 免责声明 | 招聘信息

Copyright © 1996-2015 SINA Corporation, All Rights Reserved 京ICP证000007  京网文【2017】10231-1157号

北京幻世新科网络科技有限公司 版权所有