文档分析(document analysis),工学-信息与通信工程-模式识别-文档分析,对文档图像进行处理,自动分析文档的物理与逻辑结构,并识别文档中的语义内容的过程。传统文档分析的处理对象一般为文档图像。通常,文档分析和文字识别可以看作并列的两个内容。文档分析的主要任务为,面向或基于文字识别,从文档图像中提取文本及相关信息,包括文字识别前的图像分析和文字识别后的语义处理。图像分析主要包括文档图像预处理(去噪、纠偏和增强等),面向物理结构的文档版面分析、图形识别和文档语种判别等;语义处理主要包括上下文处理、语义信息提取(语义逻辑结构提取)、文档分类、文档理解和文档检索等。另外,针对不同的应用场景,文档分析包括了基于拍照图像的文档分析、图书/档案文档分析、法律文档分析、历史文档分析、金融票据文档分析、多语言文档分析和多媒体文档分析等。更广义的文档分析的处理对象也包括一些电子文档。电子文档的文档分析则要关注电子文档本身的一些特性,一般不涉及一些跟图像处理直接相关的内容,也很少涉及与文字识别相关的内容,其余的内容与文档图像分析的其他内容基本类似。