近日,我院米成刚博士在《Computer Speech & Language》2023年第81卷上发表题为“Loanword identification based on web resources: A case study on wikipedia”的学术论文。
目前,外来词识别模型主要依赖于手工标注的小规模数据进行训练。然而,受限于数据规模,现有的深度学习方法并不能取得理想的识别效果。虽然也有相关工作研究外来词识别的数据增广,但该类工作主要集中在同义词替换、复述生成等方面,产生的数据中外来词的种类并未有明显增加。本论文提出一种基于Wikipedia的外来词识别数据增广策略:首先,将不同语种Wikipedia页面中包含的链接及当前页面的语言作为重要线索,进行篇章级可比语料构建;其次,基于可比语料及小规模双语词典无监督地训练机器翻译模型,并生成伪标记数据;第三,基于上述数据并融合词汇相似度、词对齐及语义相似度等特征构建外来词识别模型。多个借入语言(receipt language)上的实验结果表明,本论文提出的框架优于现有的外来词识别系统。
《Computer Speech & Language》是SCIE检索期刊,人工智能领域权威国际期刊,中国计算机学会推荐期刊(CCF C)。此项工作得到了国家自然科学基金项目(No.61906158)资金支持。
论文链接:https://www.sciencedirect.com/science/article/pii/S0885230823000360