数据流挖掘(data stream mining),理学-计算机科学技术-人工智能-知识发现,从动态增长的数据流中挖掘未知的知识或模型。通常,数据流由实时监控系统、通信网络、Internet传输信息、金融市场或零售业的联机事务处理、电力供应网、工业生产过程、科学和工程实验、遥感器和其他动态环境产生。与传统的数据集不同,数据流以不同的更新速率连续地流进和流出计算系统。这些数据是按时间排序的、快速变化的、海量的、还可能是无限的。由于数据流的数据量太大,因此计算机不可能存储整个数据流或者对其扫描多次。此外,数据流倾向于在很低的抽象层,而大多数的分析者只对相对高层的动态变化(如趋势和偏差)感兴趣。为了从流数据中发现知识或者模式,必须开发单遍扫描的、联机的、多层的、多维的流处理和分析方法。为了有效地处理流数据,需要建立新的数据结构、技术和算法。因为计算机系统没有无限大的空间去存储流数据,就需要在正确性和存储空间进行平衡。也即,人们通常愿意得到近似而不是精确的答案。从算法角度看,人们希望算法在空间和时间上是有效的。