超高维数据

（理学 | 数学）

超高维数据（ultra-high-dimensional data），理学-数学-数理统计学-数据分析，在科学、医药工程、社会科学等领域，大数据是普遍存在的。通常情况下，样本的维数也比较高。超高维数据是指样本的维数p随n的增加而增加，并且增加的速度达到一定程度，如样本维数的增长速度达到样本量n的指数级别。可测性、严重的多重共线性、伪相关关系、噪声干扰增强等问题是超高维数据面临的主要问题。解决上述问题的主要思路就是降维。其中，Screening是处理该问题的一个有效办法。Screening方法计算简便，还通过降维提高后续估计、推断过程中的效率。SIS（sure independent screening）是常见的screening方法，它假设各个特征变量之间独立，然后应用边际回归进行筛选变量。通过screening将超高维数据降维成高维数据之后，便可采取高维数据中的降维方法对数据进行处理、分析。