语音信号处理

（理学 | 计算机科学技术）

语音信号处理（speech signal processing），理学-计算机科学技术-人工智能-自然语言处理-语音信息处理，对语音信号进行处理的技术总称。作为数字信号处理与语音语言学的结合，在运用传统信号处理技术的同时，语音信号的处理中着重考虑了语音语言的特性、语音的产生机理、语音感知特性和语音信号的统计特性，发展出了一系列的信号处理方法和技术，包括语音编码、语音识别、语音合成以及说话人识别等。人类产生语音的过程是气流从肺部出发，流经喉部带动声带震动并流经咽腔、口腔和鼻腔组成的声腔，最后经过嘴唇和鼻子辐射出来。这个过程中，声带震动快慢不同可以产生高低不同的频率。声带的震动或声道中气体的震动产生的源信号经过声腔产生谐振，声腔形状不同，谐振效果不同，就可以发出不同声音。在语音感知方面，声音经过外耳共振放大，传到中耳，由听小骨进一步传递到内耳的耳蜗。耳蜗将声音震动机械转换为神经信号传入大脑进行处理。人耳只能听到一定频率范围（20～20000Hz）、一定声压的声音。频率不同人耳能够感知的最低声压级（听阈）也不同。同时，人耳对一个声音听阈会因另一个声音的出现而升高，称为掩蔽效应。