数据流挖掘

（理学 | 计算机科学技术）

数据流挖掘（data stream mining），理学-计算机科学技术-人工智能-知识发现，从动态增长的数据流中挖掘未知的知识或模型。通常，数据流由实时监控系统、通信网络、Internet传输信息、金融市场或零售业的联机事务处理、电力供应网、工业生产过程、科学和工程实验、遥感器和其他动态环境产生。与传统的数据集不同，数据流以不同的更新速率连续地流进和流出计算系统。这些数据是按时间排序的、快速变化的、海量的、还可能是无限的。由于数据流的数据量太大，因此计算机不可能存储整个数据流或者对其扫描多次。此外，数据流倾向于在很低的抽象层，而大多数的分析者只对相对高层的动态变化（如趋势和偏差）感兴趣。为了从流数据中发现知识或者模式，必须开发单遍扫描的、联机的、多层的、多维的流处理和分析方法。为了有效地处理流数据，需要建立新的数据结构、技术和算法。因为计算机系统没有无限大的空间去存储流数据，就需要在正确性和存储空间进行平衡。也即，人们通常愿意得到近似而不是精确的答案。从算法角度看，人们希望算法在空间和时间上是有效的。