解析深度学习语音识别实践PDF电子书下载完整高清版|百度网盘下载

编辑评论:

Analyzing Deep Learning: Speech Recognition Practice适合对机器学习或语音识别有一定基础的学生、研究人员或从业者。所有算法和技术细节都提供了详细的参考资料。给出了深度学习在语音识别中的应用全景。

分析深度学习语音识别练习PDF电子书下载

编辑推荐

AlphaGo 与李世石的围棋之战引发了很多关于人工智能是非对错的争论。人工智能深度学习背后的工作原理一跃进入公众视野。 AlphaGo的大胜在一定程度上说明了深度学习在应用领域的成功,而语音识别是深度学习取得显著成功的应用领域之一。

本书是第一本以深度学习为主线介绍语音识别应用的书。对读者了解语音识别技术及其发展历史具有重要的参考价值。

本书的作者于东和邓力是该领域的知名专家。他们是深度学习在应用领域取得突破性进展的推动者和实践者。他们在书中分享的研究成果在一定程度上代表了该领域。 *新的研究进展;译者于凯、钱艳琪也是该领域的资深专家,有不少实践成果。对于从事该领域研究的读者来说,本书无疑具有重要的参考价值。

简介

本书是第一本描述语音识别中深度学习技术细节的专着。本书首先介绍了传统的语音识别理论和经典的深度神经网络核心算法。然后全面深入的介绍了深度学习在语音识别中的应用,包括“深度神经网络-隐马尔可夫混合模型”的训练和优化、特征表示学习、模型融合、自适应、循环神经网络代表了几种先进的深度学习技术。本书适合对机器学习或语音识别有一定基础的学生、研究人员或从业者。所有算法和技术细节都提供了详细的参考资料,并给出了深度学习在语音识别中的应用全景。

关于作者

于冬

1998年加入微软,现任微软研究院首席研究员,浙江大学兼职教授,中国科学技术大学客座教授。他是语音识别和深度学习方面的资深专家。出版专着两部,发表论文150余篇。他是近 60 项专利的发明者,也是具有广泛影响力的深度学习开源软件 CNTK 的发起人和主要作者。一。他在基于深度学习的语音识别技术方面的工作带来了语音识别研究方向的转变,极大地推动了语音识别领域的发展,并获得了 2013 年 IEEE 信号处理学会最佳论文奖。于东博士目前是IEEE语音和语言处理专业委员会的成员。曾担任IEEE/ACM Transactions on Audio、Speech and Language Processing、IEEE Signal Processing Journal等期刊的编委。

邓丽

世界知名的人工智能、机器学习和语音和语言信号处理专家,现任微软首席人工智能科学家和深度学习技术中心研究经理。在美国威斯康星大学获得硕士和博士学位,后在加拿大滑铁卢大学任终身教授。在此期间,他还在麻省理工学院担任研究职位。他于 1999 年加入微软研究院并担任多个职位。 2014年初,他成立了深度学习技术中心,在微软和研究院主持人工智能和深度学习领域的技术创新。邓力博士的研究兴趣包括自动语音和说话人识别、口语识别和理解、speech-to-C 语音翻译、机器翻译、语言模式、统计方法和机器学习、听觉和其他生物信息处理、深度结构学习、类脑机器智能、图像语言多模态深度学习、商业大数据深度分析等,在上述领域做出了重大贡献。他是 ASA(美国声学协会)的会士,IEEE(电气和电子工程师协会)的会士和主任,以及 ISCA(国际语音通信协会)的会士。在自动语音识别方向的突出贡献获得2015年IEEE信号处理技术成就奖。同时,在顶级期刊和会议上发表上述领域相关学术论文300余篇,出版著作5部,发明和共同发明专利70余项。邓力博士还担任IEEE Signal Processing Journal 和IEEE/ACMTransactions on Audio, Speech & anguage Processing 的主编。

于凯

IEEE高级会员,上海交通大学计算机科学与工程系特聘研究员。清华大学学士、硕士,博士。英国剑桥大学工程学博士。长期从事智能语音与语言处理、人机交互、模式识别和机器学习的研究与产业化。教育部“拔尖人才计划”(青年计划)获得者,国家自然科学基金杰出青年科学基金获得者,上海市“东方学者”特聘教授;作为联合创始人兼首席科学家,创立了“苏州思比驰信息技术有限公司”,现任中国声学学会语音语言听力与音乐分会执行委员会委员,中国计算机学会人机交互专业委员会委员,中国语音产业联盟技术工作组副组长,研究方向包括语音识别、语音合成、口语理解、对话系统、认知人类-计算机交互等智能语音和语言处理技术的核心技术,在该领域的国际一流期刊和会议上发表论文80余篇,申请专利10余项,获得一系列研究、工程及产业化成果,在InterSpeech a等国际会议上获得国际会议优秀论文奖3项。 nd IEEE Spoken Language Processing,2013年获得国际语音通信联盟(ISCA)颁发的2008-2012计算机语音和语言最佳论文奖。受邀担任InterSpeech 2009语音识别领域主席, EUSIPCO 2011/EUSIPCO 2014 语音处理领域,InterSpeech 2014 口语对话系统领域主席等。负责建设或参与建设大型连续语音识别系统,曾获国家级研究院标准部 (NIST) 和美国国防部内部评估冠军; 2010年CMU组织的对话系统国际挑战赛获得可控测试冠军。作为项目负责人或Co-PI,主持了欧盟第七框架PARLANCE、国家自然科学基金委、上海市教委、经信委等一系列科研攻关项目。作为美国通用公司和苏州斯派克信息技术有限公司的产业化项目。 2014年,因对智能语音技术产业化的贡献,荣获中国人工智能学会颁发的“吴文军人工智能科学技术奖”。

钱艳F

上海交通大学计算机科学与工程系助理研究员,博士。分别于 2007 年 6 月和 2013 年 1 月获得华中科技大学和清华大学工学学士和工学博士学位。 2013年4月至今,上海交通大学计算机科学与工程系,研究员。同时,2015年1月至2015年12月,作为项目研究员访问英国剑桥大学工程系机器智能实验室演讲组,与Phil Woodland教授、Mark教授开展合作研究Gales,语音识别领域的知名科学家。目前是IEEE和ISCA的成员,国际开源项目Kaldi语音识别工具包开发的项目组创始成员之一。此外,他还是 IEEE Transactions on Audio, Speech, and Language Processing, SpeechCommunication, ICASSP, Interspeech 和 ASRU 等国际期刊和会议的审稿人。目前在国内外学术期刊和会议上发表学术论文50余篇,Google Scholar总被引近1000次。其中,在语音识别领域、ICASSP、InterSpeech、ASRU等权威国际会议上发表论文30余篇,申请国家专利3项,其中1项已获得授权。 2008年获得科技奥运会先进集体奖,2014年获得中国人工智能协会颁发的“吴文军人工智能科技奖进步奖”。作为牵头人和主要参与人参与了英国EPSRC、国家自然科学基金、国家863项目等多项项目。目前的研究领域包括:语音识别、说话人和语言识别、自然语言理解、深度学习建模、多媒体信号处理等。

自动语音识别:更好沟通的桥梁

自动语音识别 (ASR) 领域已经活跃了 50 多年。长期以来,这项技术一直被视为可以使人与机器之间的交流更加顺畅的桥梁。然而,语音在过去并没有真正成为人机交流的重要形式,部分原因是当时的技术落后,语音技术在大多数实际用户场景中还没有普及。另一部分原因是,在很多情况下,使用键盘、鼠标和其他形式的交流比语音更有效、更准确、限制更少。

近年来,语音技术逐渐开始改变我们的生活和工作方式。对于某些设备,语音已成为人们与之交流的主要方式。这一趋势的出现,与下文提到的几个关键领域的进展密不可分。首先,摩尔定律继续有效。借助多核处理器、通用图形处理单元 (GCGPU) 和 CPUGPU 集群等技术,如今可用的计算能力仅比十年前高出几个数量级。这使得训练更强大和更复杂的模型成为可能。正是这些计算成本更高的模型(以及本书的主题)显着降低了语音识别系统的错误率。其次,随着互联网和云计算的日益发达,我们可以访问比以前更多的数据资源。使用从真实使用场景中收集的大数据进行模型训练,消除了我们之前所做的许多模型假设,使系统更加健壮。最后,移动设备、可穿戴设备、智能家居设备、车载信息娱乐系统正变得越来越流行。在这些设备和系统上,以往的鼠标、键盘等交互方式已经不像电脑上那么方便了。而语音,作为人类之间一种自然的交流方式,作为大多数人的现有能力,已经成为这些设备和系统上更流行的交互方式。

近年来,语音技术在许多应用中发挥了重要作用,可分为两类:帮助促进人类之间的交流(HHC)和帮助促进人机交流(HMC)

序列和模型

我们可以将前面讨论的马尔可夫链视为产生可观察输出的序列。因为它的输出与每个状态一一对应,所以也可以称为可观察马尔科夫序列。其中,每个给定的状态对应一个唯一的观察或事件,没有任何随机性。正是因为马尔可夫链缺乏这种随机性,所以它在描述大量现实世界的信息时过于局限。

作为马尔可夫链的扩展,隐马尔可夫序列在每个状态中引入了随机性。在马尔可夫链的基础上,一个观测值的概率分布被用于一个状态对应于 。不是确定性的可观察或事件。这样的马尔可夫序列引入了双重随机性,使得马尔可夫链不能再被直接观察到,隐藏在隐马尔可夫序列下的马尔可夫链只能通过单次引入观察概率分布函数来揭示

需要注意的是,如果观察到的各种状态的概率分布没有任何重叠,那么这样的序列就不是隐马尔可夫序列,因为尽管状态具有随机性,但还是有一种语言。

因为概率分布不重叠,在固定范围内的观察总能找到对应于1的唯一状态。这种情况下,隐马尔可夫序列退化为马尔可夫序列,在[327, 328]中,讨论了关系马尔可夫链与其概率函数或隐马尔可夫序列之间的关系

当使用隐马尔可夫序列来描述现实世界的信息,例如拟合这些信息的统计特征时,我们所说的隐马尔可夫模型(HMM)在语音处理领域得到了非常成功的应用,包括语音识别、语音Synthesis and Speech Enhancement 717 3.1, 12, 1417 1, 2 25.2521.27.76, 4, 414444, 在某些应用中,HMM 是一个强大的模型,可以描述语音信号中的非平稳但有规律的可学习的空间变量 HMM 是关键语音声学模型,因为它具有顺序马尔可夫状态。这使得 HMM 能够分段处理短期静止语音特征,并使用它来近似全局非静止语音特征序列。

阅读剩余
THE END