词语对齐

（理学 | 计算机科学技术）

词语对齐（word alignment），理学-计算机科学技术-人工智能-自然语言处理-机器翻译-统计机器翻译，自然语言处理领域的一种双语分析任务。又称单词对齐。具体而言，词语对齐利用算法自动寻找双语文本中的具有翻译关系的源语言和目标语言单词或者多词表达（mutliword expressions; MWE）对。词语对齐结果通常用单词之间的连线来展现，如果一个源语言单词和一个目标语言单词互为翻译，它们中间就连一条线，一个平行句对通过单词对齐连线形成一个源语言和目标语言句子的二分图（bipartite graph）。词语对齐通常在句子对齐（sentence alignment）之后完成，并且通常在双语文本之上，因此也具体称为双语词语对齐。词语对齐技术是伴随着统计机器翻译技术诞生的，现代统计机器翻译思想最早由IBM公司于1989年的一篇文章中提出，IBM公司随后在1993年发表于《计算语言学》期刊的一篇论文中进一步阐述了统计机器翻译中著名的5个IBM模型（IBM model 1-5）。这些模型用来在句子对齐后的双语平行文本中训练统计机器翻译的翻译模型和词语对齐模型。