数据插补(data imputation),理学-统计学-数理统计-【核心概念】,给缺失数据寻找替代值(或插补值)的一种统计分析方法。在实际数据获取过程中,常常存在由于遗漏、忽视、成本过高或无法获得等原因导致数据缺失的现象。数据插补是常见解决数据缺失问题的方法,经过数据插补后可以给数据分析者创建一个“完整”的数据集,不同的分析人员采用相同的数据插补方法,会得到相同(或相近)的插补值,从而保证分析结果的一致性。插补数据不是真实数据,得到的分析结果和真实情况会存在一定的偏差。根据插补值是否包括随机项,数据插补可分为随机插补和确定性插补。随机插补每次得到的插补值可能不同,确定性插补每次会得到相同的插补值。根据确定性插补值时是否使用辅助变量,确定性插补可分为使用辅助变量的插补法和不使用辅助变量的插补法。根据每个缺失值的插补值个数不同,数据插补可分为单一插补和多重插补。单一插补指对于每个缺失值,从它的预测分布中选择一个值进行替代,进而得到完全数据集。