内容排序

（理学 | 计算机科学技术）

内容排序（content ranking），理学-计算机科学技术-计算机应用-信息系统-万维网-Web搜索与信息发现，一般指搜索引擎查询的内容与网页页面内容符合程度的排序，即基于内容的相关性排序。搜索结果与查询需求的相关性是衡量搜索引擎性能的重要指标。搜索引擎根据查询内容判断哪些网页更符合用户搜索意图，将用户最感兴趣的网页排列在前面，方便用户在最短时间内找到需要的信息，提高搜索引擎的用户满意度。搜索引擎基于内容的相关性排序的信息检索模型主要包含向量空间模型、概率模型和自学习排序模型。向量空间模型将网页内容和用户查询分别转化为向量形式，计算两个向量的夹角余弦，并按照递减的顺序排列网页。向量空间模型采用统计学方法的词加权处理模式，将文本和查询信息表示为向量形式，实现了检索结果按相关性排序的要求，并且可以灵活控制检索结果的规模。然而向量空间模型理论明显的缺陷基于它的基本假设：关键词是彼此独立的。概率模型通过估计网页内容与查询相关联的概率，根据关联概率对所有网页进行排序。概率模型的主要优点是理论上有一定依据，“相关”可以解释成一种后验概率，“相似度”可以解释成两个后验概率的比值。