研究成果

当前位置: 首页 - 学术研究 - 研究成果 - 正文


米成刚:Improving the Robustness of Loanword Identification in Social Media Texts

2023年04月04日 点击:[]

 近日,我院米成刚博士在《ACM Transactions on Asian and Low-Resource Language Information Processing2023年第12卷第4期上发表题为“Improving the Robustness of Loanword Identification in Social Media Texts”的学术论文。

 作为一种缓解低资源语言自然语言处理中双语数据稀疏问题的有效方法,外来词识别近年来受到了自然语言处理领域学者的关注。外来词识别就是基于当前语言(receipt language)文本中的单语或者跨语言特征识别其中存在的外来词。在低资源语言自然语言处理任务中,将识别结果与其对应宿主语言(donor language)中的源词语构成“外来词-源词”词对,融合到模型训练过程。然而,现有的方法主要关注书面语中的外来词识别,对社交媒体这一领域关注较少。由于省略、口语化、重复等现象的存在,现有的方法在社交媒体领域外来词识别任务上不能取得理想的效果。本论文提出一种基于多任务学习框架的社交媒体领域外来词识别方法,将拼写检查、词性标注及命名实体识别作为辅助任务。为了进一步提升外来词识别效率,本方法使用双向RNN网络对其中的词、字符级知识进行表示。多个测试集上的实验结果表明,本论文提出的方法在社交媒体领域外来词识别性能上明显优于其他基线系统。

 《ACM Transactions on Asian and Low-Resource Language Information Processing》是SCIE检索期刊,人工智能领域权威国际期刊,中国计算机学会推荐期刊CCF C。此项工作得到了国家自然科学基金项目(No.61906158)资金支持。

 论文链接:https://dl.acm.org/doi/10.1145/3572773





上一条:米成刚:Loanword identification based on web resources: A case study on wikipedia

下一条:石欣玉、黄立波:基于语料库的“主义”词译出译入对比研究

关闭