深度神经网络合成(deep neural network-based speech synthesis),理学-计算机科学技术-人工智能-自然语言处理-语音信息处理-语音合成-﹝语音合成方法﹞,使用神经网络模型进行语音信号合成。自2013年以来,神经网络应用于语音合成得到了很好的效果,受到学术界与工业界的广泛关注。传统的语音合成系统一般包括前端文本分析与后端语音信号合成。其中前端文本分析主要负责对输入系统的文本进行分析得到文本特征,一般的流程包括文本正则化、词语切分、字音转换和韵律预测等模块。后端部分则根据前端得到的文本特征生成语音信号,一般包括基元选取、参数化合成和共振峰合成等方法。深度神经网络由多个网络层组成,每层包含若干神经元。层与层之间、各层之中的神经元通过权重矩阵相互连接。一般地,前向网络中每个神经元将通过权重矩阵连接的上一层神经元的输出进行仿射变换和非线性激发得到输出。理论证明多层非线性激发前向网络可以拟合任意函数。神经网络被应用到语音合成的前端和后端的各个模块,在大数据的支持下,取得了很好的进展。通过将原本人为分割的多个模块联合起来统一建模,合成效果达到进一步提升。