语音识别技术

（管理学 | 管理科学与工程）

语音识别技术（voice recognition technology），管理学-管理科学与工程-信息管理与信息系统-信息采集技术-语音识别技术，使用机器采集人类语音信息并准确理解其中蕴含的语法信息和语义信息，提取有用的语用信息或语音特征的技术。语音识别技术起源于20世纪50年代初期，至今其相关研究仍在不断进行。基于长短时记忆单元（LSTM）的深度学习方法（DL）成为语音识别技术的主流方法。语音识别技术通过音频采集设备采集语音，将采集到的声波信息进行分帧，采用特征变换将分帧得到的波形信息转换为多维向量空间中的向量，通过一定方式将帧信息（向量）识别为语音状态并结合成为音素，最终提取声音信息。语音识别技术中常用的模型有声学模型、语言模型和解码器模型。声学模型将声学和发音学的知识进行整合，从输入中提取特征，并通过该模型输出变长特征序列的得分，该模型主要采用高斯混合模型-隐马尔可夫（GMM-HMM）方式进行建模。语言模型通过训练语料学习上下文间的隐藏联系，以估算不同输出序列的概率，该模型常见的是基于N-Gram和RNN的语言模型。