NIST评价指标(evaluation indicator of NIST),理学-计算机科学技术-人工智能-自然语言处理-机器翻译-机器翻译评价,美国国家标准技术研究院(NIST)施行的一种语言翻译方法。从2001年开始组织举办国际机器翻译评测活动,并采用自动评价的方法对比机器翻译系统之间的优劣。NIST的研究人员发现BLEU评价指标存在不足之处,并于2002年由G.R.多丁顿(George R. Doddington)提出了改进版的NIST评价指标。BLEU评价指标采用元词组匹配率的几何平均,希望对各种元词组(unigram, bigram和trigram等)的匹配率赋予相同的敏感度。由于值较大词组(例如4元词组)出现的概率较低,这种方法实际上并未平等对待不同的元词组。NIST的研究人员提出一种改进方案,采用元词组匹配率的算术平均计算最终得分。此外,BLEU评价指标未区分不同元词组的重要性,实际上信息量较大的元词组应该赋予更大的权重。在机器翻译译文中,出现频率低的元词组往往含有的信息量更大,因此,相比于出现频率很高的元词组,应该对整个译文评分具有更大的贡献。