再缩放

（理学 | 计算机科学技术）

再缩放（rescaling），理学-计算机科学技术-人工智能-机器学习-线性模型-类别不平衡学习，一种常用的数据预处理方法。再缩放在机器学习中存在多种释义：①一种常用的数据预处理方法。由于待学习的数据的各个属性可能具有不同的量级，或者来自不同数据库的数据集采用了不同的度量单位，例如，同时存在“米”和“公里”两种长度单位，这种不统一的数据会对机器学习算法产生困扰，因此常用再缩放的方法来将数据变换到统一的形式或量级。常用的再缩放技术包括规范化（Normalization）和标准化（Standardization）两种。规范化将数值按比例缩放到一个小的特定区间中（常用[0,1]区间，称为“归一化”），将其转化为无量纲的纯数值，从而去除数据的单位限制，便于不同单位或量级的指标能够进行比较和加权。常用的规范化方法包括最大最小规范化、小数定标规范化等。与规范化不同，标准化会改变数据的分布，将数值减去均值后再除以标准差，从而将数据的均值变为0、标准差变为1。对于K-Means这样基于距离的算法，常使用规范化进行数据变换；而对于高斯过程这样基于样本分布的算法，则使用标准化处理数据。