我院米成刚博士在《Neural Networks》2022年第148卷上发表题为“Improving data augmentation for low resource speech-to-text translation with diverse paraphrasing”的学术论文。
语音翻译(speech translation, ST)是将一种语言(源语言)的语音翻译为另一种语言(目标语言)文本的过程。虽然通过串接自动语音识别和文本机器翻译也可以实现这一功能,然而,这类语音翻译系统往往存在错误传递问题,即语音识别阶段的错误或导致机器翻译结果出错。随着深度学习中端到端模型在自然语言处理领域的广泛应用,研究者开始探索直接将源语言语音翻译为目标语言文本的方法,然而,高质量的端到端语音翻译模型依赖于大规模双语“语音-文本”数据。对于多数语言对而言,该类数据难以获取。为了缓解端到端语音翻译中的数据匮乏问题,西安外国语大学外国语言文学研究院研究人员与西北工业大学研究人员合作,提出一种基于多样化复述的低资源语言语音翻译数据扩充方法。首先,融合统计机器翻译中的多粒度特征与循环神经网络特征构建目标语言复述生成模型。其次,将生成复述与原有语音数据进行交叉组合,构成“语音-复述文本”候选对。最后,基于语义相似度及“语音-词”对共现等特征构建“语音-复述文本”对过滤模型,选择得分高的候选项作为最终数据训练端到端语音翻译模型。多个语言对上的实验结果表明,与现有基线系统相比,该研究提出的方法取得了显著的性能提升。
《Neural Networks》是SCIE检索期刊,人工智能领域国际权威期刊,中国计算机学会推荐B类期刊(CCF B),中科院2区,2021年影响因子9.657。该成果西安外国语大学为第一完成单位,西北工业大学为合作单位。此项工作得到了国家自然科学基金资金支持。
文章链接:https://www.sciencedirect.com/science/article/abs/pii/S0893608022000260