再缩放(rescaling),理学-计算机科学技术-人工智能-机器学习-线性模型-类别不平衡学习,一种常用的数据预处理方法。再缩放在机器学习中存在多种释义:①一种常用的数据预处理方法。由于待学习的数据的各个属性可能具有不同的量级,或者来自不同数据库的数据集采用了不同的度量单位,例如,同时存在“米”和“公里”两种长度单位,这种不统一的数据会对机器学习算法产生困扰,因此常用再缩放的方法来将数据变换到统一的形式或量级。常用的再缩放技术包括规范化(Normalization)和标准化(Standardization)两种。规范化将数值按比例缩放到一个小的特定区间中(常用[0,1]区间,称为“归一化”),将其转化为无量纲的纯数值,从而去除数据的单位限制,便于不同单位或量级的指标能够进行比较和加权。常用的规范化方法包括最大最小规范化、小数定标规范化等。与规范化不同,标准化会改变数据的分布,将数值减去均值后再除以标准差,从而将数据的均值变为0、标准差变为1。对于K-Means这样基于距离的算法,常使用规范化进行数据变换;而对于高斯过程这样基于样本分布的算法,则使用标准化处理数据。