流式数据(streaming data),理学-统计学-大数据统计分析-数据类型,一组快速、大量、连续到达的有序数据集合,通常其可视为一个随时间延续而无限增长的动态数据集合。1996年H.阿贝尔森( Harold Abelson,1947~)等人在编程语言中提出了流式数据的概念,随着时间的推移,数据的获取方式极大丰富,存储手段日趋完善,流式数据的概念被推广到其他领域,如通过因特网传送音频和视频等数据。流式数据在处理时首先被解析为一系列的记录序列,它是一个包含事件发生时间点和细节的不可变对象,通常事件包含一个记录其发生时间的时间戳。这里所指的事件概念广泛,如用户查看网页或购买产品的即时操作、温度传感器定期传输的测量数据、CPU占用率的连续数据等,它可以编码为文本字符串、JSON或某种二进制形式,这类编码使得事件得以存储和传输。流式数据需要按照记录或者根据滑动时间窗口按照顺序进行递增式处理,可采用多种方法进行处理,如关联分析、聚合分析、数据筛选和取样等。通过对流式数据进行挖掘,可帮助企业了解客户活动、政府了解舆论导向等。流式数据具备四个重要特点:①数据实时到达。