中文文本分析(Chinese text analysis),理学-计算机科学技术-人工智能-自然语言处理-中文信息处理,综合利用语言、统计、机器学习等技术,从非结构化的中文文本中检索结构化信息的过程。具体包括词汇分析、分类、聚类、模式识别、打标签、信息提取、链接、关联分析、可视化和预测分析等。一般中文文本分析由三步组成:解析文本数据、搜索检索、文本挖掘。解析文本数据是对非结构化文本进行数据处理得到结构化数据的过程,如去除无意义的符号和停用词、分词、词性标注等。搜索检索是指对结构化的数据识别出关键字、主题,以及相关性等。文本挖掘是指根据关键字、主题和相关性挖掘出有价值的信息,并展示出来,如情感、预测、摘要等。