内容分析与属性选取(content analysis and feature selection),理学-计算机科学技术-计算机应用-信息系统-信息检索-文档表示,内容分析是指对文本内容的表示及其特征项的选取。属性选取(又称特征选取)是指模型构建任务中的数据预处理阶段,负责数据属性的选取。内容分析是文本挖掘、信息检索的一个基本问题,它把从文本内容中抽取出的特征词进行量化来表示文本信息。由文本内容分析,可以推断文本提供者的意图和目的。一般情况下,数据中包含大量的属性信息,不可避免的存在一些冗余或不相关信息。因此,需要在尽量减小信息损失的情况下去除掉一些属性信息。属性选取的目的主要有:第一,简化的模型,从而使得研究人员/用户更容易解释模型;第二,缩短模型构建的过程;第三,有效避免维度诅咒;第四,增加模型的泛化能力。