文档过滤(document filtering),理学-计算机科学技术-计算机应用-信息系统-信息检索-检索任务与目标,从按时间顺序依次获得的文档流中过滤出某一类特定文档的信息检索任务。文档过滤常常被用于从文档流中筛选出与主题相关的文档,以满足用户在特定主题上的信息需求;或者从文档流中过滤重复文档和垃圾文档,以节约用户阅读文档流所花费的时间。由于文档流中的文档是按时间顺序依次到来的,文档过滤系统需要在获得文档时作出在线的判断。这是文档过滤任务与文本分类任务的最大不同。同理,由于文档流的时序性,过滤条件常常会随时间的变化而变化,文档过滤系统需要能自动适应这种变化。例如,针对热点新闻时间的文档过滤系统需要根据当前新闻热点的变化而调整其相关性判别功能;垃圾网页过滤系统则需要适应垃圾信息发布者不断变化的策略,以识别新出现的垃圾网页。