IBM的人工智能可执行最先进的广播新闻字幕

2019-05-15 12:40:27   来源:新浪VR

  两年前,IBM的研究人员声称,他们用机器学习系统训练了两个公共语音识别数据集,取得了最先进的转录性能。人工智能系统不仅要应对训练语料库音频片段的失真,还要应对一系列的演讲风格、重叠的演讲、中断、重启和参与者之间的交流。

  为了开发一种更强大的系统,这家总部位于纽约阿蒙克的公司的研究人员最近在一篇论文中设计了一种架构,该论文名为《人类和机器对英语广播新闻语音识别》(English Broadcast News Speech Recognition by Humans and Machines),将于本周在布莱顿举行的声学、语音和信号处理国际会议上发表。他们说,在初步实验中,它在播放新闻字幕任务上取得了行业领先的结果。

  做到这一点并不容易。该系统本身也面临着一系列挑战,比如带有大量背景噪音的音频信号,以及主持人就各种新闻话题发表演讲。虽然大部分培训语料库的演讲都很清晰,但其中包含了现场采访、电视节目剪辑和其他多媒体内容等材料。

  正如IBM研究人员Samuel Thomas在一篇博客文章中所解释的那样,人工智能利用了长短时记忆(LSTM)(一种能够学习长期依赖关系的算法)和声学神经网络语言模型,以及互补的语言模型的组合。声学模型包含多达25层的节点(模拟生物神经元的数学函数),它们通过语音谱图或信号频谱的视觉表示进行训练,而六层的LSTM网络学习了“丰富”的各种声学特征,以增强语言建模。

  在为整个系统提供1,300小时的广播新闻数据后,研究人员将人工智能放进了一个测试集,测试集包含6个节目的两个小时数据,总共有近100名重叠的演讲者。(第二个测试集包含12个节目的四个小时广播新闻数据,大约有230名重叠的演讲者。)该团队与语音和搜索技术公司Appen合作,对语音识别任务的识别错误率进行了测量,并报告说,该系统在第一组测试中达到6.5%,在第二次测试中达到5.9%,比人类的表现略差一些,分别为3.6%和2.8%。

  托马斯写道:“(我们的)新结果……是我们在这项任务中所知的最低水平,(但)在这个领域仍有新技术和改进的空间。”

  原文出自:https://venturebeat.com/2019/05/14/ibms-ai-achieves-state-of-the-art-broadcast-news-captioning/

新浪声明:新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。
精彩推荐
相关新闻

微软的“Ideas in Word”利用AI在你的写作中提出正确的术语

我们都知道写作中需要进行拼写检查。但是现在,微软很快就会预览一个版本的Word,它将使用人工智能使你的写作不仅语法正确,而且...

相关AI广告制胜未来:从定向用户到“品牌-消费者-IP”深度互撩
2019-05-15 11:26:51 来自:快讯专栏

AI广告制胜未来:从定向用户到“品牌-消费者-IP”深度互撩

  导语:   熬着最长的夜,却拿着最差的ROI?营销汪这次有救了,从爱奇艺世界大会传递的最新科技消息来看,AI赋能下的广告营...

相关: 暂无...
2019-05-15 10:38:45 来自:快讯专栏

SK Telecom与微软合作 开发5G,AI和云技术

据报道,SK Telecom最近宣布,已与美国技术巨头微软(Microsoft)签署谅解备忘录(MOU),以实施联合创新计划。全面合作计划旨在...

相关线下VR体验游戏《Beyond Medusa’s Gate》登陆美国及LBE娱乐门店
2019-05-15 06:30:00 来自:厂商新闻

蓝盾股份参股公司云海麒麟 率先推出AI引擎服务器

  近日,蓝盾股份(300297)参股公司云海麒麟全新推出两款基于国产海光处理器的服务器YH-5212HG和YH-3212HG。该系列产品是基于...

相关: 暂无...
2019-05-14 14:41:58 来自:快讯专栏

热门推荐

HOT RECOMMEND

新浪VR简介 | 论坛社区 | 网站合作 | 广告服务 | 联系我们 | 免责声明 | 招聘信息

Copyright © 1996-2015 SINA Corporation, All Rights Reserved 京ICP证000007  京网文【2017】10231-1157号

北京幻世新科网络科技有限公司 版权所有