音频声源分离

（理学 | 计算机科学技术）

音频声源分离（audio frequency and sound source separation），理学-计算机科学技术-计算机应用-多媒体计算-多媒体技术-多媒体内容分析和理解-音频和语音分析，在复杂的混合声音中，人类能有效地选择并跟踪某一说话人的声音。又称语音声源分离、语音信号分离。源于著名的鸡尾酒会效应。在自动语音识别系统中，选择性增强感兴趣的语音信号的同时压制噪声和干扰，所涉及的关键技术就是音频声源分离，即从多路混合信号中分离各个原信号，或从被干扰的语音信号中分离出某个或多个特定信号，其基本思想是抽取统计独立的特征作为输入的表示，同时保证信息不丢失。语音分离一般分为五个处理模块：①时频分解。通过信号处理算法将输入的时域信号分解成时频表示。②特征提取。提取帧级别或时频单元级别的听觉特征。③分离目标。利用估计的分离目标以及混合信号合成目标语音的波形信号。④模型学习。通过机器学习算法学习一个从带噪特征到分离目标的映射函数。⑤波形合成。利用规矩的分离目标以及混合信号，通过逆变换获得目标语音的波形信号。