频繁项(frequent itemsets),理学-计算机科学技术-人工智能-知识发现-关联规则,频繁项集表示在商品关联数据集中经常一起出现的商品变量。项的集合称为项集。包含k个项的项集称为k-项集。项集的出项频率是包含项集的数据条目数,简称为项集的频率,支持度计数或计数。支持度是指某个集合在所有数据中出现的频率,如果项集的支持度满足预定义的最小支持度阈值,则该项集是频繁项集。频繁项集挖掘是关联规则、相关性分析、因果关系、序列项集、局部周期性、情节片段等许多重要数据挖掘任务的基础。因此,频繁项集有着很广泛的应用,例如:购物篮数据分析、网页预取、交叉购物、个性化网站、网络入侵检测等。经典的频繁项集挖掘算法有Apriori算法和FP-growth算法。在Apriori算法中,用到了频繁项集的先验原理:频繁项集的非空子集都必须是频繁的。Apriori算法的步骤可概括为以下两步:第一步:设定支持度阈值,扫描一遍数据集,找出频繁1-项集。第二步:从频繁1-项集中生成候选2-项集,然后再次扫描数据集,找出频繁2-项集。