BLEU评价指标

（理学 | 计算机科学技术）

BLEU评价指标（Bilingual Evaluation Understudy），理学-计算机科学技术-人工智能-自然语言处理-机器翻译-机器翻译评价，自动度量机器翻译译文质量的方法，一般用于对比不同机器翻译系统的优劣。机器翻译研究者经常会被问到这样一个问题：现在的机器翻译系统译文质量如何？这是一个简单却又很难回答的问题。相对于其他自然语言处理任务，如语音识别，机器翻译任务一般不存在标准答案。只要语义一致，一个源语言句子可以对应多个正确的目标语言译文。如何评价机器翻译系统的译文质量成为至关重要的问题。人工评价是最简单的一种方法。对于某个机器翻译系统输出的译文，聘请专家逐个查看每个译文，评判其正确性。由于“正确性”是一个太过宽泛的概念，通常在人工评测中使用忠实度和流利度作为判断标准。忠实度衡量译文传达了原文意思的程度，保留了原文多少信息，相当于“信、达、雅”中的“信”；流利度则衡量译文是否流畅通顺，是否符合目标语言的表达，相当于“信、达、雅”中的“达”。然而，人工评测不仅成本昂贵，而且效率很低。研究者经常在设计新的机器翻译算法后希望立刻检验该算法的有效性，人工评价就很难满足这种需求。