连续语音识别

（计算机科学术语）

连续语音识别，是指针对连续音频流（即来自说话人直接录入的语音，或者电话或其他音视频领域的音频信号）进行识别，将音频信息自动转化成文字。语音识别是人机交互的一项关键技术，在过去的几十年里取得了飞速的进展。传统的声学建模方式基于隐马尔科夫框架，采用混合高斯模型( Gaussian mixturemodel，GMM) 来描述语音声学特征的概率分布．由于隐马尔科夫模型属于典型的浅层学习结构，仅含单个将原始输入信号转换到特定问题空间特征的简单结构，在海量数据下其性能受到限制。