文本过滤(Text Filtering),理学-计算机科学技术-人工智能-自然语言处理-文本挖掘-文本过滤,针对文本信息的信息过滤,即从动态的文本信息流中将满足用户兴趣的信息挑选出来,并推荐给用户。文本过滤是信息过滤的一种,信息过滤是用以描述一系列将信息传递给需要它的用户处理过程的总称。信息过滤系统是一个针对非结构化或半结构化的信息系统,而文本过滤主要处理的是文本信息。互联网上有海量的文本信息,如果从这些海量的信息中找到符合用户兴趣或者需要的文本信息,是一种十分迫切的需求。文本过滤一般需要借助自动抽取、分类、聚类、摘要等文本处理技术,找出文件的关键词并加以自动分类,再以自动摘要的技术将文件相关内容做一整理,提供给用户浏览。文本过滤技术的应用场景主要有新闻聚合与推荐等。 文本过滤的方法大致可分为基于内容的文本过滤及协同过滤两种。文本过滤的前提是假设用户的兴趣一般在较长一段时间内不会改变(静态)。 ①基于内容的文本过滤。基于内容的文本过滤一般不考虑不同用户之间的关系,只对单一用户进行建模,然后计算用户和不同文本之间的相似度。