类别不平衡学习

（理学 | 计算机科学技术）

类别不平衡学习（class imbalance learning），理学-计算机科学技术-人工智能-机器学习-线性模型-类别不平衡学习，指分类任务中不同类别的训练样例数目差别很大的情况，通常称样本数较少的类为“小类”，样本数较多的类为“大类”。不仅原始数据本身可能出现类别不平衡，在多分类学习中常用的“一对多”或“多对多”策略也可能导致产生的二分类子任务中出现类别不平衡。传统的机器学习方法以最小化错误率为目标，如果直接用于类别不平衡数据，就会出现小类类别被“吞掉”的现象，即把所有样例都标记为大类类别也能得到很高的准确率。