可比语料库(comparable corpora),理学-计算机科学技术-人工智能-自然语言处理-﹝语言知识资源﹞-语料库,选取了一种语言以上的相似文本或者一种语言的不同类型文本。可比语料库的概念最早由贝克(Baker)在1995年提出,她认为该类语料库中不同的语料集合不具有翻译关系,但存在某些相似性和良好的对应知识,均为源语言文本,可以比较。中国学界对“comparable corpora”主要有两种译法,一种是“类比语料库”,一种是“可比语料库”。前者一般认为该类语料是同一种语言源语言文本与翻译文本之间的对应比较,多将其应用于翻译研究,例如翻译普遍性研究、翻译教学研究、翻译搭配特征研究、翻译历时语料分析等。后者一般认为该类语料库的语种数量和对比依据均可以拓展延伸,多将此类语料库用于自然语言处理研究,例如翻译等价物抽取、机器翻译、跨语言信息检索、平行语料加工等领域。可比语料蕴含三层含义:①两种语言文本必须独立产生于各自真实的语言环境;②两种语言文本在内容或形式上具有一定的相似性;③两种语言文本之间不具备严格的互译关系。非严格互译是可比语料库区别于平行语料库的重要特征。