世界人工智能大会丨与人类媲美的语音识别与机器翻译

微软在人工智能领域,微软亚洲研究院提交的R-NET模型在EM值(Exact,表示预测答案和真实答案完全匹配)上率先,人类在转录语言时的出错率约为4%,计算机语音识别率首次媲美人类,使计算机对指定主题对话的语音识别率增至94.1%

图片 3

原标题:世界人工智能大会丨与人类媲美的语音识别与机器翻译

计算机语音识别率首次媲美人类

2018上半年

科技日报北京10月28日电
据麻省理工学院网站近日报道,微软雷蒙德研究院开发出一种机器学习算法,使计算机对指定主题对话的语音识别率增至94.1%,首次与人类水平相当;对亲戚朋友日常对话的识别率达88.9%,甚至比人类略胜一筹。

微软在人工智能领域

美国国家标准与技术研究所2000年时曾发布一个数据库,以帮助解决语音识别难题。该数据库包含的电话录音有些是个人之间既定话题的谈话,其余则是亲戚朋友间的随意交谈。

完成了两项重大突破——

结果显示,人类在转录语言时的出错率约为4%,即每一百个字中人类会错误地转录4个字。过去,机器的表现距这一数字相去甚远。如今,计算机在把个人之间既定话题的谈话内容转录成文字时,出错率为5.9%,而转录亲戚朋友间任意主题的随意交谈时,出错率为11.3%。“这比预想的还要好。”微软研究人员茨威格表示。

图片 1

随后,茨威格基于不同层数的卷积神经网络来优化他们自己的深度学习系统,从而让系统的每一层能够识别语音的不同方面。然后他们用训练数据作为标准来设置机器,以便识别普通语音并且让他们能够适应测试数据库。

1月,在由斯坦福大学发起的SQuAD(Stanford
Question Answering
Dataset)文本理解挑战赛的最新榜单上,微软亚洲研究院提交的R-NET模型在EM值(Exact
Match,
表示预测答案和真实答案完全匹配)上率先
超越人类水平,以82.650的最高分领先,超过人类分数82.304。

总的来说,微软的语音识别系统与人类具有相似的错误率,但它造成的错误类型与人类截然不同。微软机器最常见的错误是混淆反馈声音。
相比之下,人类很少犯这样的错误。对此,茨威格认为,原则上机器没有不能通过训练来识别反馈声音的理由,出现误差可能与噪声在训练数据集中标记的方式有关。

为了研究机器阅读理解的问题,微软亚洲研究院的机器阅读理解研究团队试图去建模人做阅读理解的过程。他们采用了R-NET,一个多层的网络结构,分别从四个层面对整个阅读理解任务的算法进行了建模。这一方法将中间环节尽可能的省去,使得整体的过程能够得到最优效果。

微软研究人员表示,计算机语音识别能力正超越人类水平,“这对计算机行业的重要意义不亚于图形用户界面”,其中既包括Xbox这样的消费娱乐设备,也包括即时语音转文字等可访问性工具,以及“小娜”这样的个人数字助理。

图片 2

特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。

3月,微软亚洲研究院与雷德蒙研究院共同研发的机器翻译系统在通用新闻报道测试集newstest2017的中-英测试集上达到了媲美人类的水准,成为首个在新闻报道的翻译质量和准确率上可以比肩人工翻译的翻译系统

为了能够取得这一里程碑式突破,来自微软亚洲研究院和雷德蒙研究院的三个研究组,进行了跨越中美时区、跨越研究领域的联合创新。微软亚洲研究院机器学习组将最新研究成果对偶学习(Dual
Learning)和推敲网络(Deliberation Networks)应用在了此次取得突破的机器翻译系统中。自然语言计算组则在此次的系统模型中增加了另外两项新技术:联合训练(Joint
Training)和一致性规范(Agreement
Regularization)
,提高了翻译的准确性。

9月17-19日

2018世界人工智能大会将在上海举行

在9月18日下午的微软主题论坛上,

微软云及人工智能事业部首席研究员

Frank
Seide

将带来

“与人类媲美的语音识别与机器翻译”主题报告

深度解读来自微软的人工智能前沿技术

主题报告:与人类媲美的语音识别与机器翻译

图片 3

Frank Seide

微软云及人工智能事业部首席研究员

微软期待将这些新技术注入产品和应用

让人们的智能生活更加精彩纷呈!返回搜狐,查看更多

责任编辑: