查询日志分析(query log analysis),理学-计算机科学技术-计算机应用-信息系统-信息检索-信息检索查询处理,利用查询日志来进行搜索引擎优化(SEO)任务。搜索用户在搜索引擎中的每一个动作都会在查询日志当中生成一个条目,通常包括时间戳、搜索用户的IP、提交的查询、点击的结果等。由于搜索引擎用户规模庞大,因此记录用户行为的查询日志也是非常巨大的,搜索引擎一天的查询日志往往就有几十个G的大小。查询日志分析指的是利用查询日志来进行搜索引擎优化(SEO)任务。例如,搜索引擎会通过对于查询日志的分析,得出对于给定的查询,用户在每个结果上的点击数量、停留时间等,从而调整搜索结果列表的排序,这也被称为用户的隐式反馈(implicit feedback)。此外,由于查询日志是用户产生的内容(UGC)且规模庞大,因此其中存在一部分噪声数据,对于日志的质量造成了很大的负面影响。因此,在进行查询日志分析之前,往往要先过滤掉噪声数据。常用的做法是对于查询日志划分用户会话,并从会话级别检测垃圾数据。