话者识别

（理学 | 计算机科学技术）

话者识别（speaker recognition），理学-计算机科学技术-计算机应用-多媒体计算-模式识别-模式识别应用-生物特征识别，根据语音信号中能够表征说话人个性信息的声纹特征，利用计算机以及各种信息识别技术，自动地实现说话人身份识别的一种生物特征识别技术。又称声纹识别。声纹是一种行为特征，由于每个人先天的发声器官（如舌头、牙齿、口腔、声带、肺、鼻腔）等在尺寸和形态方面存在差异，再加之年龄、性格、话语习惯等各种后天因素的影响，可以说每个说话人的声纹是独一无二的，并可以在相对长的时间里保持相对稳定不变。早期的声纹识别主要采用有效的声学特征参数和模式匹配的方法，匹配往往通过特征矢量之间的距离测度来实现，累计距离为匹配结果。到20世纪70年代至80年代，动态时间规整（DTW）、矢量量化（VQ）和隐马尔可夫模型技术（HMM）的出现使得当时的声纹识别性能有了较大提升。到20世纪90年代，高斯混合模型（GMM）以及高斯混合模型-通用背景模型（GMM-HMM）以其简单灵活、鲁棒性强的特点，将声纹识别研究带入一个新的阶段。