离群点检测(outlier detection),管理学-管理科学与工程-电子商务与商务智能-电子商务法-离群点检测,对一组观测中与其他观测点差异过大而令人对其出现原因产生怀疑的观测点进行检测的方法。又称异常点检测。离群点可能产生于数据的生成、记录、传输、处理等环节,如新品种带来产量大幅提升、大促销造成的销量异常、人工录入错误数据、人为造成用以攻击或测试商业系统等。离群点检测采用各种方法对有标记或者无标记的数据进行分析,从数据集中识别出离群点。对离群点的标识可以分为评分和0-1标签两类,前者并未直接指出数据点是否是离群点,需要分析人员进一步处理,适用于对离群点更加灵活处理的使用场景;后者则简单将数据点标注为是否离群点,方便使用。常见的检测方法包括极值法、概率模型法、聚类法、孤立森林法等统计方法或机器学习方法。对离群点的清理,可以消除这些异常点对主要数据各种统计信息或特征信息造成的较大偏差,使人们可以更容易抓住所关心主体的主要特征(如销量随时间的变化规律等),提升这类信息的可靠性。