文档集模型(document collection models),理学-计算机科学技术-计算机应用-信息系统-信息检索-文档表示,在信息检索模型中,文档集模型是指对整个文档集合构建一个语言模型,用以解决语言排序模型中参数稀疏的问题。具体而言,为构建语言排序模型,首先针对每篇被检索出的文档构建一个语言模型,用于预测查询出现的概率。由于查询中的词有可能并不在文档中出现,因而出现了数据稀疏而导致零概率的出现。为了解决上述问题,语言检索模型通常同时在整个文档集上计算一个全局的语言模型,被称为文档集模型。文档集模型可以对单个文档的语言排序模型进行平滑,即对非零的概率结果进行折扣,并对未出现的词的概率赋予一定的值,较好地解决了数据稀疏和检索零概率问题。语言检索模型通常都会计算文档集模型进行平滑,常用的平滑方法包括潜狄利克雷平滑法、JM平滑法和绝对折扣平滑法。