探索式数据分析(exploratory data analysis),理学-计算机科学技术-计算机科学理论-概率统计-统计分析,对数据的各个方面可能存在的主要特征进行探索、理解并以可视化的方式进行展现的一类数据分析方法。探索性分析的目的有多个:以直观的方式将数据特征展示给非专业领域人士;检查数据质量以确保模型的数据基础可靠或提出更有针对性的数据收集策略;挖掘数据特征以支撑随后的模型或假设检验的选择。探索性分析最早是由美国数学家J.图基(John Tukey,1915~2000)提出,在后续的发展过程中逐渐形成了以数据可视化为主线、以非参数统计与稳健统计为主要分析方法的数据分析体系。该体系没有一定之规,鼓励自由探索。探索性分析中常见的可视化工具(见图):箱线图(boxplot)、直方图(histogram)、散点图(scatter plot)、QQ图(QQ plot)。