基于图注意力和单中心损失的语音鉴伪
沈宜 杨捍 石珺 贾宇
随着基于深度学习的语音合成技术的不断发展,语音鉴伪面临着巨大的挑战,为了应对多变的新兴合成技术,提高模型鉴别泛化性,设计了基于图注意力网络和单中心损失的语音鉴伪方案。该方案从音频前端处理、音频特征提取、损失函数选择、数据增强等方面进行提升,选用端到端的音频特征提取方式,经过数据增强后,基于图注意力的骨干网络,分别得到音频的频域图和时域图特征,两者融合后得到融合特征,最后结合单中心损失和二分类交叉熵损失,让网络具有更强的鉴别能力。在ASVspoof2019数据集上,对所提方案进行了实验,实验结果表明,所提方案的鉴别效果较好。