文字识别(character recognition),工学-信息与通信工程-模式识别-文字识别,利用计算机自动辨识来源于纸质文稿、图片、触摸屏、手写板或其他设备的文字的技术。是模式识别的一个重要应用。当计算机对通过扫描或拍照得到的图像中的文字进行识别时,称为脱机字符识别。若处理的对象为印刷体文字,则称为光学字符识别;若处理的对象为手写体文字,则称为脱机手写识别。有时也把上述光学字符识别和脱机手写识别统称为光学字符识别。当计算机对在线移动轨迹(如手写笔)构成的文字进行识别时,一般称为联机字符识别。而联机字符识别中的文字对象一般都是手写体,所以也常称为联机手写识别。文字识别主要包括以下几个过程:①预处理。一般包括去噪、二值化、文本行切分、字符切分、平滑和规范化处理等。②特征提取。对预处理后的文字区域提取特征,如区域特征、方向特征和梯度特征等,以备分类器训练与判别。③分类判别。在训练过程中学习得到分类器,在测试过程中对字符进行分类,主要的方法有模板匹配、人工神经网络、支持向量机和随机森林等。④后处理。对识别结果进行基于词典语义或应用场景领域知识的纠错、校验与选择,以提高识别精度。