集团官网
  • 国家级全民数字素养与技能培训基地
  • 河南省第一批产教融合型企业建设培育单位
  • 郑州市数字技能人才(码农)培养评价联盟

外媒:百度新语音系统超越人工且可小型化

编辑:云和数据 日期:2015-08-20 08:00

知名网站Medium近日报道称,百度研究院高级工程师Awni Hannun在参加国际神经网络协会举办的会议中时提出了一种可识别普通话的新模型,该模型基于百度深度语音学习开发,可实现普通话语音查询功能,识别准确率高达94%。

外媒:百度新语音系统超越人工且可小型化
 

普通话语音识别有两个难点。第一则是字符数据量大。英文只有26个字母,但中文约有8万个不同的字符。相比于英文,系统要在每次转录中直接输出8万个字符中的其中一个,如此庞大的数据量对于系统运算能力要求极高。为解决这一问题,研究团队通过收集人们常用词,筛选出有用的字符。这一方法提高了系统运算效率。

第二,在普通话的表述中,声调的不同往往会改变一个词的意思。且在传统的语音识别中,设想所有的语音具有相同间距,以至于在转录时可以忽略它们。但这套理论却无法转译普通话。普通话体系极为复杂,这就语音系统提出了更高的要求。百度通过特殊的语音识别渠道,省去了大量预处理环节来维持音频的稳定间距,再让模型学习何种数据可以最有效的转录,这一做法大大降低了语音识别的难度。

外媒:百度新语音系统超越人工且可小型化

在谈及百度深度语音系统对比Skype翻译的优势时,Hannum分析认为,百度的优势在于学习能力。每条音轨中包含三个模块,即语音转录模块、机器翻译模块和语音合成模块。百度深度语音系统则不同于以往的语音转录系统,它并没有大量预处理环节,而是直接输入音频文件,再通过深度神经网络输出字符。深度神经网络则需要大量数据,去学习哪些输入信息可将语音转译成正确的普通话。与Skype不同,百度希望将该系统作为所有智能设备的语音接口,嵌入到可穿戴设备或语音识别应用中,而不仅仅将它定义为一款语音搜索产品。

Medium报道指出,深度学习作为该系统的核心,发挥了极其重要的角色。随着机器翻译和语音识别技术发展趋于成熟,人们更多的希望机器完成输出任务。而深度学习系统的加入则在增加数据量的同时,简化音频轨道,通过不断的学习将机器获取的信息有效输出。这也是Hannum看好深度学习的原因。

外媒:百度新语音系统超越人工且可小型化

深度语音识别系统出色的成绩背后是所有全中文数据超过10万亿次运算学习的成果。且该系统还在寻找更多的关于各地方言及口音的信息,扩大系统训练数据。目前,该系统支持超过26万亿次浮点运算,可在几天内完成深度语言的集中训练,提高系统学习效率。数据集与学习效率的不断完善将使百度深度语音识别系统在识别准确率进一步提升。

对于深度学习的未来,Hannum认为将该模型在更小的系统上运行是重要的趋势之一。大量实验表明,将现有的学习模型压缩成小模型后,表现依旧稳定。这将使深度学习系统植入手机等移动设备成为现实。

相关内容

抢先一步 鸿蒙(HarmonyOS)应用开发者高级认证 免费考! 适合人群计算机相关专业在校生(技师、中职、高职、本科、研究生)对鸿蒙(HarmonyOS)有兴趣的非计算机相关专业在校生目前正在从事移动应用的开发者目前正在从事计算机行业相关的人计算机专业高校老师所有对鸿蒙(HarmonyOS)有兴趣的人 培训方案掌握鸿蒙的核心概念和端云一体化开发、... 什么是Java的多态性(polymorphism)?它有哪些不同的形式? 多态性是Java面向对象编程的一个重要概念,它允许不同的对象以一致的方式响应同一个方法调用,具体表现为对象在运行时可以表现出多个不同的形态。多态性主要有两种不同的形式:编译时多态性(静态多态性)和运行时多态性(动态多态性)。1. 编译时多态性(静态多态性):   ... 如何学习和搭建Hadoop开发环境? Hadoop是大数据处理领域的重要平台,能够处理和分析大量数据。为了有效地利用Hadoop,我们需要学习其基础知识,并正确搭建开发环境。下面是详细的学习和搭建指南。一、学习Hadoop基础掌握基础概念和原理Hadoop主要由HDFS和MapReduce两部分组成。HDFS是分布式文件系统,Ma... UI 设计学习如何进阶成为高手 我总结了六种方法,帮助你走出舒适区,提高技能,成长为自信且经验丰富的UI设计高手一位经验丰富的 UI 设计师,往往十分看中应用程序界面的吸引力和视觉刺激,确保满足用户期望和需求。但是,如果你已经在 UI 设计圈摸爬滚打多年,仍然没有出色的作品,那你极有可能是因为陷入了一个舒适圈,UI技能一直原... 在Java中Executor和Executors的区别? 在Java中,Executor和Executors都与线程池和并发执行有关,但它们是不同的概念和类。1.ExecutorExecutor是一个接口,位于java.util.concurrent包中,用于表示一个执行任务的执行器。它只定义了一个方法:void execute(Runnable c... String类型的常见命令有哪些? String类型,也就是字符串类型,是Redis中最简单的存储类型。其value是字符串,不过根据字符串的格式不同,又可以分为3类:string是普通字符串,int整数类型,可以做自增、自减操作,float浮点类型,可以做自增、自减操作。String的常见命令有:SET:添加或者修改已经存在的...