带标语料库(annotated corpora),理学-计算机科学技术-人工智能-自然语言处理-﹝语言知识资源﹞-语料库-带标语料库,一种经过人工标注或审定的带有某种特定语言信息标注的语料库。中国计算机自然语言处理领域专家黄昌宁把“带标语料库”这一称谓引申到知识表示的层面上,认为带标语料库是所标注的特定语言信息的知识表示或知识库。即当人们对文本中的某种特定语言信息(分词、词性、命名实体、语块、指代关系和句法树等)进行标注得到的带标语料库是词例化知识最原始、最基本的形态,反映的就是语言知识的原生态。这种词例化知识的内容和表示是关于这种语言知识的一切其他表示形式的母体,面向机器的语言知识的其他表现形式都是从这里派生出来的。例如在汉语的自动分词任务中,带分词标注的语料库对于自动分词研究具有直接的指导意义,人们不仅可以获取这个语料库的完整词表、词频统计数据和N元文法(N-grams),而且可以观察到丰姿多彩的交集型(OAS)和组合型(CAS)歧义字段,蕴藏着丰富的消解分词歧义的知识。人们在处理汉语自动分词问题之初,制定了一系列详尽的“规范”,但都未曾界定清楚汉语的“词”。