一种利用CNN-BiGRU和多头注意力的语音分离技术
王振中 高勇
针对基线单通道深度聚类语音分离算法分离准确率低的问题,提出了一种基于卷积神经网络级联双向门控循环网络(Convolutional Neural Network Cascades Bidirectional Gated Recurrent Network,CNN-BiGRU)和多头自注意力机制的深度聚类语音分离算法。该算法首先利用CNN-BiGRU挖掘语音的局部空间信息以及捕获语音信号中的时间特征,以实现时间建模;其次通过多头自注意力机制关注对语音分离更重要的全局特征,同时训练过程中使用一种局部线性可控的激活函数,即改进的双曲正切函数(Etanh);最后在分离阶段,利用高斯混合聚类算法(Gaussian Mixture Model,GMM)对混合语音信号进行分离。实验结果表明,相比于基线的深度聚类语音分离模型,所提算法在客观指标上有明显提高,主观听感上清晰度和可懂度较好。