分词词性标注语料库

（理学 | 计算机科学技术）

分词词性标注语料库（Chinese POS Tagged Corpus），理学-计算机科学技术-人工智能-自然语言处理-﹝语言知识资源﹞-语料库-带标语料库，一种经过分词和词性标注加工的带标语料库。以汉语为例，经自动分词、词性标注和人工校对，构建高质量的带有完整词类标记的语料库是汉语信息处理的基础资源。在此介绍两个公开共享的分词标注语料库：北京大学计算语言学研究所加工的《人民日报》分词词性标注语料库和山西大学计算机与信息技术学院加工的分词词性标注语料库。北京大学计算语言学研究所于1999年与日本富士通公司合作，加工了1998年全年的《人民日报》语料，加工内容包括词语切分、词性标注、专有名词（专有名词短语）标注，还对多音词进行注音。此后，按同样地方式加工了2000年全年的《人民日报》，在当时是汉语最大规模的分词词性标注语料库。2002年，中国山西大学选择500万汉字的中国正在流通的汉语文本，语料的取材、分布等具有科学性和代表性，力求表现当代语言的最新面貌。