Bagging方法

（理学 | 计算机科学技术）

Bagging方法（Bagging algorithm），理学-计算机科学技术-人工智能-机器学习-集成学习，由Leo Breiman提出的集成学习算法，是并行式集成学习方法著名的代表。从名字（Bagging这个名字由Bootstrap AGGregatING缩写而来）可以看出，它是直接基于自助采样法（bootstrap sampling）工作的。对于包含m个样本的数据集，Bagging方法先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有机会被选中，这样经过m次随机采样操作，就得到含m个样本的采样集，即完成了一次自助采样，初始训练集中有的样本在采样集中多次出现，有的则从未出现。照这样，可以采样出T个含m个训练样本的采样集，然后基于每个采样集训练一个基学习器，再将这些基学习器进行结合。这就构成了Bagging的基本流程。在对预测输出进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法。Bagging的T个自主采样和基分类器训练过程没有相互依赖，可以并行进行，因此训练过程可以高效执行。