- 深度 | David Silver 全面解读深度强化学习:从基础概念到 AlphaGo
- 深度 | 深度学习漫游指南:强化学习概览
- 重磅 | 详解深度强化学习,搭建DQN详细指南(附论文)
- 独家 | 吴恩达NIPS 2016演讲现场直击:如何使用深度学习开发人工智能应用?
- 深度 | 迁移学习全面概述:从基本概念到相关研究
- 深度 | 理解深度学习中的卷积
- 专访 | 东南大学漆桂林教授:知识图谱不仅是一项技术,更是一项工程
- 综述 | 知识图谱研究进展
- 盘点 | 机器学习入门算法:从线性模型到神经网络
- 深度神经网络全面概述:从基本概念到实际模型和硬件基础
- 想了解概率图模型?你要先理解图论的基本定义与形式
- 机器理解大数据的秘密:聚类算法深度详解
- 图灵测试通过事件的噱头以及沉思
- 重磅 | DeepMind 最新生成模型 WaveNet,将机器合成语音水平与人类差距缩小 50%(附论文)
- 谷歌最新的全端到端语音合成系统
- 人工智能能骗过人类吗?愚人节特写:这不是玩笑
- 三张图读懂机器学习:基本概念、五大流派与九种常见算法
- LSTM 入门必读:从基础知识到工作方式详解
- 从语言学到深度学习 NLP 一文概述自然语言处理
- 最全的 DNN 概述论文:详解前馈、卷积和循环神经网络技术
- 从贝叶斯定理到概率分布:综述概率论基本定义
- 追根溯源!一图看尽深度学习架构谱系
- 徒手实现 CNN:综述论文详解卷积网络的数学本质
- 读懂概率图模型:你需要从基本概念和参数估计开始
- 从零开始:教你如何训练神经网络
- 开发者必读:计算机科学中的线性代数
- 学界 | 定量研究:当前机器学习领域十大研究主题
- 机器学习和深度学习引用量最高的 20 篇论文(2014-2017)
- 从贝叶斯角度,看深度学习的属性和改进方法
- 良心 GitHub 项目:各种机器学习任务的顶级结果(论文)汇总
- 深度 | 从朴素贝叶斯到维特比算法:详解隐马尔科夫模型
- 揭秘深度学习成功的数学原因:从全局最优性到学习表征不变性
- 深度 | 从 AlexNet 到残差网络,理解卷积神经网络的不同架构
- 从 Pix2Code 到 CycleGAN:2017 年深度学习重大研究进展全解读
- OpenAI 详解进化策略方法:可替代强化学习
- 从自编码器到生成对抗网络:一文纵览无监督学习研究现状
- 资源 | 从文本到视觉:各领域最前沿的论文集合
- 从决策树到随机森林:树型算法的原理与实现
- 从概率论到多分类问题:综述贝叶斯统计分类
- 从遗传算法到 OpenAI 新方向:进化策略工作机制全解
- 综述 | 一文帮你发现各种出色的 GAN 变体
- 资源 | 生成对抗网络及其变体的论文汇总
- 生成对抗网络综述:从架构到训练技巧,看这篇论文就够了
- 干货 | 物体检测算法全概述:从传统检测方法到深度神经网络框架
- 重磅 | 自动驾驶计算机视觉研究综述:难题、数据集与前沿成果(附 67 页论文下载)
- 神经风格迁移研究概述:从当前研究到未来方向(附论文和代码)
- 深度学习目标检测模型全面综述:Faster R-CNN、R-FCN 和 SSD
- 计算机视觉这一年:这是最全的一份 CV 技术报告
- 计算机视觉这一年:2017 CV 技术报告 Plus 之卷积架构、数据集与新趋势
- 深度 | 2017 CV 技术报告之图像分割、超分辨率和动作识别
- 深度 | 2017CV 技术报告:从 3D 物体重建到人体姿态估计
- 语音合成到了跳变点?深度神经网络变革 TTS 最新研究汇总
- 资源 | 从全连接层到大型卷积核:深度学习语义分割全指南
- 学界 | 词嵌入 2017 年进展全面梳理:趋势和未来方向
- 深度 | 一文概述 2017 年深度学习 NLP 重大进展与趋势
- 学界 | 一文综述所有用于推荐系统的深度学习方法
- 使用深度学习构建先进推荐系统:近期 33 篇重要研究概述
- 业界|谷歌 TensorFlow 的一份全面评估报告:好的坏的及令人讨厌的
- 初学者怎么选择神经网络环境?对比 MATLAB、Torch 和 TensorFlow
- 业界 | 剖析用于深度学习的硬件:GPU、FPGA、ASIC 和 DSP
- 神经形态计算与神经网络硬件最全调查:从研究全貌到未来前景
- 从 GPU、TPU 到 FPGA 及其它:一文读懂神经网络硬件平台战局
- 从浅层模型到深度模型:概览机器学习优化算法
- 综述论文:当前深度神经网络模型压缩和加速方法速览
- 深度 | 从修正 Adam 到理解泛化:概览 2017 年深度学习优化算法的最新研究进展
- 一文概览深度学习中的五大正则化方法和七大优化策略
- 从强化学习基本概念到 Q 学习的实现,打造自己的迷宫智能体
- 回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附 Python 和 R 实现)
- 基于 TensorFlow 理解三大降维技术:PCA、t-SNE 和自编码器
- 一文读懂遗传算法工作原理(附 Python 实现)
- 10 大深度学习架构:计算机视觉优秀从业者必备(附代码实现)
- 从算法到训练,综述强化学习实现技巧与调试经验
- 2017 年度盘点:15 个最流行的 GitHub 机器学习项目
语音合成到了跳变点?深度神经网络变革 TTS 最新研究汇总
近年来,随着深度神经网络的应用,计算机理解自然语音能力有了彻底革新,例如深度神经网络在语音识别、机器翻译中的应用。但是,使用计算机生成语音(语音合成(speech synthesis)或文本转语音(TTS)),仍在很大程度上基于所谓的拼接 TTS(concatenative TTS)。而这种传统的方法所合成语音的自然度、舒适度都有很大的缺陷。深度神经网络,能否像促进语音识别的发展一样推进语音合成的进步?这也成为了人工智能领域研究的课题之一。
2016 年,DeepMind 提出了 WaveNet ,在业内引起了极大的关注。WaveNet 可以直接生成原始音频波形,能够在文本转语音和常规的音频生成上得到出色的结果。但就实际应用而言,它存在的一个问题就是计算量很大,没办法直接用到产品上面。
因此在语音合成领域,仍然有很多工作要做。语音合成有两个主要目标:可理解性(intelligibility)和自然感(naturalness)。可理解性是指合成音频的清晰度,特别是听话人能够在多大程度上提取出原信息。自然感则描述了无法被可理解性直接获取的信息,比如听的整体容易程度、全局的风格一致性、地域或语言层面的微妙差异等等。
去年,我们看到了业界将研究热点聚焦于语音识别,而今年语音合成成为深度学习社区研究的重要领域之一。2017 年刚过去不久,机器之心已经关注到了三篇有关这一课题的研究论文:百度的 Deep Voice、Yoshua Bengio 团队提出的 Char2Wav 以及谷歌的 Tacotron。
在介绍今年的最新研究成果之前,我们先来回顾一下 Deep Mind 的 WaveNet。
WaveNet 受启发于二维的 PixelNet,在这里它被调整为了一维的。

以上的动画展示了 WaveNet 的结构。这是一个完全卷积的神经网络,其中的卷积层有不同的膨胀系数(dilation factors),这让其感受野(receptive field)可在深度(depth)上指数式地增长并可覆盖数千个时间步骤(timesteps)。
在训练时间上,其输入序列是由人类说话者录制的真实波形。训练之后,可以对这个网络进行采样以生成合成话语。在采样的每一个时间步骤,都会从该网络所计算出的概率分布中取出一个值。然后这个值会被反馈进入输入,并为下一个步骤生成一个新的预测。我们可以发现,像这样一次一步地构建样本就会产生很高的计算成本,这也是我们上面所提到的实际应用中的问题。
另外要提到的一点是,为了使用 WaveNet 将文本转化为语音,需要识别文本中是什么。在 DeepMind 这篇论文中,研究人员是通过将文本转换为一序列的语言和语音特征(包含了当前音素、音节、词等方面的信息)做到这一点的。
刚才也提到 WaveNet 在实际应用中所面临的挑战,而深度神经网络应用到语音合成上还有很大的提升空间。接下来,介绍一下该领域最新的三篇研究成果。
百度 Deep Voice
2017 年 2 月,百度研究部门提出了深度语音(Deep Voice)系统,该系统是一个完全由深度神经网络构建的高质量文本转语音系统。
在研究博客中百度研究人员表示,如今建立文本转语音系统最大的障碍就是音频合成的速度,而他们的系统已经做到了实时的语音合成,这相比以前的 WaveNet 推理的实现有 400 倍的加速。
作者们表示,Deep Voice 论文的贡献在于:
- Deep Vioce 受启发于传统的文本转语音处理流程,采用了同样的架构,但它使用神经网络取代了所有组件且使用了更简单的特征。这使得该系统更适用于新数据集、语音和没有任何手动数据注释或其他特征调配的领域。
- Deep Voice 为真正的端到端语音合成奠定了基础,这种端到端系统没有复杂的处理流程,也不依赖于人工调配(hand-engineered)的特征作为输入或进行预训练(pre-training)。

如上图所示,TTS 包含 5 个模块:
- 一个字素转音素模型;
- 一个在语音数据集中定位音素边界的分隔模型;
- 预测音素序列中每个音素时距(temporal duration)的音素长度模型;
- 一个基本的频率模型预测音素是否浊音的;
- 一个音频合成模型,结合以上 4 个组件的输出来合成音频。
在百度的研究中,研究人员通过相应的神经网络代替经典 TTS 流程中的每一个组件,具体实现读者可参阅论文。
百度在研究博客中表示,「深度学习变革了包括计算机视觉和语音识别在内的许多领域,我们相信语音合成如今也到了一个跳变点。」
端到端语音合成模型 Char2wav
2 月份,来自印度理工学院坎普尔分校、INRS-EMT、加拿大高等研究院(CIFAR)的研究者在 arXiv 上发布了一篇论文,介绍他们在端到端语音合成上的研究成果 Char2Wav。
在此论文中,作者们提出一种端到端的用于语音合成的模型 Char2Wav。Char2Wav 由两个组成部分:一个读取器(reader)和一个神经声码器(nerual vocoder)。
读取器是一个带有注意(attention)的编码器-解码器模型。其中编码器是一个以文本或音素作为输入的双向循环神经网络(RNN),而解码器则是一个带有注意的循环神经网络,其会产出声码器声学特征(vocoder acoustic features)。神经声码器是指 SampleRNN 的一种条件式的扩展,其可以根据中间表征(intermediate representations)生成原始的声波样本。

Char2Wav:一个基于注意的循环序列生成器(ARSG/attention-based recurrent sequence generator)是指一种基于一个输入序列 X 生成一个序列 Y= (y1, . . . , yT ) 的循环神经网络。X 被一个编码器预处理输出一个序列 h = (h1, . . . , hL)。在本研究中,输出 Y 是一个声学特征的序列,而 X 则是文本或要被生成的音素序列。此外,该编码器是一个双向循环网络。
作者们表示该工作工作受到了 Alex Graves (Graves, 2013; 2015) 研究的很大影响。在一个客座讲座中,Graves 展示了一个使用了注意机制的语音合成模型,但 Graves 的研究未已论文的形式发表出来。
此外,与用于语音合成的传统模型不同,Char2Wav 可以学习直接根据文本生成音频。这和百度的 Deep Voice 系统一致。
谷歌端到端的文本转语音合成模型 Tacotron
不就之前,谷歌歌科学家王雨轩(第一作者)等人提出了一种新的端到端语音合成系统 Tacotron,该模型可接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音。此外作者们表示他们还提出了几个可以使该序列到序列框架在这个高难度任务上表现良好的关键技术。
测试结果上,Tacotron 在美式英语测试里的平均主观意见评分达到了 3.82 分(总分是 5 分),在自然感(naturalness)方面优于已在生产中应用的参数系统(parametric system)。此外,由于 Tacotron 是在帧(frame)层面上生成语音,所以它比样本级自回归(sample-level autoregressive)方式快得多。

模型架构:该模型接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法以生成语音
总结
一直以来,与机器进行自然的语音交互一直是我们的一个梦想。虽然,语音识别已经达到了相当高的准确度,但在语音交互的回路中不只有语音识别,自然的语音合成也是一个非常重要的研究领域。
在提高语音识别准确度之后,深度神经网络在促进语音合成的发展上也有非常大的潜力。2017 年开始到现在,我们已经观察到了上面所介绍的这样的研究成果(当然,会有遗漏)。我们相信,语音合成就像百度博客中所介绍的那样到了一个「跳变点」,期待接下来会有更多新的研究成果出现,让人与机器能够进行更自然的交互。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论