邓力:以独特视角诠释语音识别领域新技术进展
- 发布时间:2016-08-10
- 浏览次数:61400
邓力:以独特视角诠释语音识别领域新技术进展
着眼于端到端建模和训练,邓力介绍了输出端和输入端的进展,迁移学习、增强学习、非监督学习在语音识别领域的应用现状和前景,并解释了他对非监督学习的独特理解,重点总结了词嵌入的利用和改善。他还展望了类脑机器智能突破现有的深度神经网络局限的方法。
有感于有监督学习的局限,邓力目前将很大部分的精力用到了非监督学习上,并且与微软目前的自然语言理解、对话系统、聊天机器人等核心工作相结合。看好非监督学习语音识别,是由于语音识别领域“先验”知识的逐渐成熟,包括输出端非常强的语言模型和多年积累的从输出端到输入端映射的生成式知识。邓力认为,将各种先验知识整合到一个完整而能快速计算和优化的非监督深度学习框架,语音识别的问题将可以彻底解决。当然,这需要新的深度非监督学习算法和理论。
邓力认为,词嵌入或音素嵌入用到语音识别领域,一项有意思的工作是把乔姆斯基的生成式音韵结构整合到深度学习讲的嵌入方法里。对抗式网络的思路可以用来整合语音生成知识。不过,词嵌入的本质是利用邻近词的预测特性,只是所应该用的先验知识的一小部分。更重要的先验知识应该是关于输出序列变量的更强并比现有词嵌入具有更长距离的统计特性,以及从输出到输入的生成特性。
以下为采访实录:
非监督学习语音识别将来会成功,但需要大量创新工作来铺路
记者:能否介绍当前语音识别领域让您兴奋的一些进展,以及您目前所做的一些有趣的工作?
邓力:从整个语音识别业界来讲(包括中国和美国几家主要大公司的工作),令人兴奋的进展涵盖了输出端和输入端的端到端训练::
端到端建模和训练大规模神经网络语音识别系统近期继续降低识别错误率,特别是成功用上CTC训练准则使得端到端训练行之有效。CTC训练准则忠实地代表了语音识别系统的训练目标,比我们在DNN时代之前用的MCE、MPE、MWE、MMI更合理,尽管CTC的优化需要不少工程技巧。我在研究院的同事在这方面做了很多工作,包括对CTC的延伸并将CTC与传统的MMI序列训练方法相结合。
行之有效的端到端训练在输入端已经扩张到多麦克风阵列的语音波形。这使得抗噪音的语音识别系统部分也整合进入端到端学习。
我自己目前将不少时间用在关于让非监督学习用到离散序列输出(比如自然语言)的应用,包括语音识别、机器翻译、看图说话,等等。为什么注重像自然语言这样的离散序列输出?这是因为自然语言模型包含了非常丰富的“先验”知识,使得不需输入输出匹配的学习的成功机会大于其他在输出端缺乏丰富“先验”知识的应用和任务。
靠输入输出匹配的学习是要花高代价准备大训练数据的。这是目前很成功的有监督深度学习的局限之一。相反,无需输入输出匹配的大数据成本要低得多,它遍地皆是,有取之不尽用之不竭的潜力。
要有效地利用比现有输入输出相匹配的训练数据高出几个数量级的无输入输出匹配的大数据来训练深度学习系统,有待于开创全新的深度非监督学习算法和理论。一旦成功,这会给深度学习建立一个新的里程碑。比如用在语音识别,任何人们之间的对话和个人演讲都可以成为非监督学习语音识别机的语料,而我们并不需要去标注这些自然的到处都有的语料。
为什么我认为非监督学习语音识别会成功?因为我们在输出端有丰富的“先验”知识,就是非常强的语言模型,可以是嵌入式的,也可以是非嵌入式的。同时我们也有非常丰富的从输出端到输入端映射的生成式的“先验”知识。这就是语音科学家几十年积累下来的人类从概念到波形的语音motorcontrol和语音生成的知识。语音生成的motorcontrol要比机械人对手指的精细运动控制还复杂。
我当年在MIT、ATR和在加拿大滑铁卢大学任教时做了很多这方面的研究。当时用的是动态深度贝叶斯网络来表达和实现这些知识,模型中的一部分也用上multilayerperception。我和我的学生们在1997-2003年发表了一系列论文。到微软之后还写了两本关于这方面的书。记得当年GeoffHinton教授同我就如何将这些动态语音生成知识和模型用到有监督深度学习讨论了很长时间。当时得到的识别率结果跟丢开这些生成知识的DNN-HMM差不多,但计算上却难以得益于用GPU训练,而且解码要用很多近似,也很慢。所以我把动态语音生成模型放弃了很长时间专攻DNN,后者没有这些弱点。见文末一些文献,回顾了以上讲的这些古老的工作。
现在到了大家开始注重非监督深度学习的时代。过去积累的研究经验和有计算价值的语音生成知识真是可以派上用场。将多种类(输入输出端统计特性以及它们的关联性)的先验知识整合到一个崭新的非监督深度学习框架,我相信语音识别的问题可以彻底解决。
深度神经网络应为主干
记者:概括地说,除了特征提取,深度学习在语音识别领域主要还发挥哪些作用?
邓力:端到端训练高层动态网络是有监督深度学习在语音识别领域应用的精华。特征提取只是它的自然结果之一。
直到现在,单靠特征提取在非监督深度学习上从未成功过。
记者:您与俞栋博士合著的新书《解析深度学习-语音识别实践》系统地介绍了基于DNN的语音识别技术,哪些人应该读这本书?他们会收获些什么?这本书适合入门吗?需要读者具备什么知识基础?
邓力:我们在序言里讲到这本书的对象主要是语音处理及机器学习领域的在读研究生、研究者、实践者、工程师以及科学家的学习研究工作。但注意由于我们写书时间紧迫,有些内容没有加上,包括CNN、CTC、麦克风阵列、语音分离,等等。
阅读本书的知识基础包括微积分、矩阵代数和基本的概率统计等。
对于入门读者,我们同年出版的英文版《深度学习:方法和应用》(由谢磊教授翻译成中文)可能更适合。只是材料有点过时了。
记者:您介绍了很多鲁棒性的方法,有哪一种是您喜欢的吗?
邓力:对speaker鲁棒性的方法,我很喜欢KL-divergenceregularization,不但管用,而且方法巧妙,实现起来也简单。是subspace方法中的一种。
对抗环境噪音的鲁棒性的方法,我在全力攻DNN之前很喜欢VTS的方法,也发明了整合语音-噪音相位的VTS方法,不但方法巧妙,在某些条件下也挺管用。但因为它用的是生成式的概念,几年前很难用DNN方法来实现。现在我们知道怎样整合生成式模型和神经网络(见书中第6章和文末一些文献),大家做这方面的研究可能就有成功希望了。
记者:书中专门谈到了迁移学习,举了一些例子,如欧洲语言到中文普通话的成功迁移,那么哪些因素决定共享DNN隐层架构在当前语音识别领域的边界和局限?迁移学习在语音识别领域推广应用的挑战是什么?