引导聚集算法

（管理学 | 管理科学与工程）

引导聚集算法（bagging），管理学-管理科学与工程-预测理论与方法-机器学习-引导聚集算法，一种并行式集成的学习方法。将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器。是一种模型融合的方法，将弱分类器融合之后形成一个强分类器，且融合之后的效果比最好的弱分类器更好。引导聚集算法要求各个弱学习器之间没有依赖关系，可以并行拟合，但该算法对于弱学习器没有限制，其最常用的一般是决策树和神经网络，并在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显。此外，由于引导聚集算法每次都进行采样来训练模型，因此泛化能力很强，对于降低模型的方差很有作用。该算法的基本流程为：输入为样本集，弱学习器算法, 弱分类器迭代次数。对于：对训练集进行第次随机采样，共采集次，得到包含个样本的采样集，用采样集训练第个弱学习器。对于分类算法预测，则个弱学习器投出最多票数的类别或者类别之一为最终类别；对于回归算法，个弱学习器得到的回归结果进行算术平均得到的值为最终的模型输出。