多变量离群点(multivariate outliers),理学-统计学-描述统计-数据变换,对多个变量综合考虑之后的异常值。1963年,美国数学家S.S.威尔克斯[注]发表了第一个在多元正态变量下离群样本点的检测方法。当只有一个离群点时,此方法与经典的用马氏平方距离来寻找可能的离群点的方法是相同的。1984年,比利时统计学家P.J.罗素[注]提出最小协方差行列式(mininum covariance determinant; MCD)方法,利用马氏距离和迭代思想构造出一个稳健的协方差矩阵估计量,由于罗素和K.van德里森于1999年提出了改良的快速MCD方法,再加上统计软件的不断发展,使得MCD方法成为流行的识别多变量离群点方法。另一类比较流行的识别多变量离群点方法是应用投影寻踪技术,该方法于1969年由美国数学家M.D.克鲁斯卡尔[注]首先提出。投影寻踪技术可以广泛应用于不同数据类型,代价是相比于MCD方法需要更大的计算量。在实际统计工作中多变量离群点通常表现为以下2个特点:①单个变量值过大或过小,明显偏离该变量大多数观测值。