语音信号处理(speech signal processing),理学-计算机科学技术-人工智能-自然语言处理-语音信息处理,对语音信号进行处理的技术总称。作为数字信号处理与语音语言学的结合,在运用传统信号处理技术的同时,语音信号的处理中着重考虑了语音语言的特性、语音的产生机理、语音感知特性和语音信号的统计特性,发展出了一系列的信号处理方法和技术,包括语音编码、语音识别、语音合成以及说话人识别等。人类产生语音的过程是气流从肺部出发,流经喉部带动声带震动并流经咽腔、口腔和鼻腔组成的声腔,最后经过嘴唇和鼻子辐射出来。这个过程中,声带震动快慢不同可以产生高低不同的频率。声带的震动或声道中气体的震动产生的源信号经过声腔产生谐振,声腔形状不同,谐振效果不同,就可以发出不同声音。在语音感知方面,声音经过外耳共振放大,传到中耳,由听小骨进一步传递到内耳的耳蜗。耳蜗将声音震动机械转换为神经信号传入大脑进行处理。人耳只能听到一定频率范围(20~20000Hz)、一定声压的声音。频率不同人耳能够感知的最低声压级(听阈)也不同。同时,人耳对一个声音听阈会因另一个声音的出现而升高,称为掩蔽效应。