搜索索引压缩(search index compression),理学-计算机科学技术-计算机应用-信息系统-信息检索-搜索引擎架构与扩展性,对搜索引擎中的索引进行压缩的技术。进行索引压缩的主要3个优点是节省磁盘空间、增加高速缓存的利用率以及加快磁盘到内存的传输速度。成熟的索引压缩技术已经能够达到75%的压缩率。索引压缩分为有损压缩和无损压缩两部分。有损压缩的压缩比率可以较高,但会导致原始文档无法恢复,所以应用范围有限。在检索系统中通常使用的是无损压缩。无损压缩技术主要针对检索系统中的词典和倒排索引这两个数据结构进行。词典压缩方面,主要有前端编码等技术,而倒排记录表可以用对高频词项进行低位索引的方法进行压缩。搜索索引压缩技术对于构建高效的信息检索系统非常关键。