数据质量分析法(data quality analysis),管理学-管理科学与工程-一般管理方法-定量管理方法-管理统计学-数据质量分析法,对数据质量的各维度进行分析评价的方法统称。数据质量是一个复杂的概念,有诸多不同的定义。其反映出数据对特定应用的满足程度,适用性、准确性、及时性、完整性、一致性构成了数据质量的基本要素。数据质量分析的主要任务是在实体数据对象中寻找存在的数据质量问题,并进行标记、汇总,为数据质量评估进行数据准备。数据质量问题可以分为两类,即模式层问题(Schema)和实例层问题(Instance)。前者指数据的外部模式导致的问题,如命名冲突、类型冲突、约束冲突等,后者指基础数据上存在的质量问题,如缺失值、重复值、可疑值等。数据质量分析主要分析实例层的质量问题,常用的有缺失值分析、重复记录分析,针对的数值型数据的概率法、聚类法、泛化法,以及针对文本型数据的匹配法、对比法以及验证法等。数据质量分析的基本步骤是:确定数据范围,确定分析需求,数据质量测试,数据质量原因分析以及分析型数据清洗。