基于预训练语言模型及交互注意力的平行句对抽取方法
张乐乐 郭军军 王繁
从互联网可比语料中筛选高质量的平行句对,是提升低资源机器翻译性能的有效手段之一。针对该问题,融合预训练语义表征提出一种基于双向交互注意力机制的跨语言文本语义匹配方法,首先利用预训练语言模型分别获得源语言和目标语言的双语表征,其次基于双向交互注意力机制实现跨语言特征的空间语义对齐,最后基于多视角特征融合后的语义表征实现跨语言句对的关系判定。实验结果表明,所提方法优于已有的平行句对抽取模型。此外,借助抽取出的平行语料,机器翻译模型的性能得到了明显的改善。