文档集模型

（理学 | 计算机科学技术）

文档集模型（document collection models），理学-计算机科学技术-计算机应用-信息系统-信息检索-文档表示，在信息检索模型中，文档集模型是指对整个文档集合构建一个语言模型，用以解决语言排序模型中参数稀疏的问题。具体而言，为构建语言排序模型，首先针对每篇被检索出的文档构建一个语言模型，用于预测查询出现的概率。由于查询中的词有可能并不在文档中出现，因而出现了数据稀疏而导致零概率的出现。为了解决上述问题，语言检索模型通常同时在整个文档集上计算一个全局的语言模型，被称为文档集模型。文档集模型可以对单个文档的语言排序模型进行平滑，即对非零的概率结果进行折扣，并对未出现的词的概率赋予一定的值，较好地解决了数据稀疏和检索零概率问题。语言检索模型通常都会计算文档集模型进行平滑，常用的平滑方法包括潜狄利克雷平滑法、JM平滑法和绝对折扣平滑法。