数据演化(data evolution),工学-信息与通信工程-大数据处理-大数据集成-数据演化,数据分布随着时间变化而变化的过程。数据演化过程中演化数据的聚类是一种处理动态数据的方法,演化数据的特征是指其数据的分布随着时间的变化而变化。演化数据的聚类的基本要求是要满足以下两个原则:①不同时刻的聚类结果要反映当时的数据的分布情况;②相邻时刻的聚类结果不能有很大的跳跃,即聚类结果平滑。数据演化对机器学习领域带来的影响主要有:①对拟合或预测未来数据而言,由于独立同分布假设显然不成立,不能像对待传统的学习问题那样,把在历史数据上训练得到的学习机器直接作用于未来的数据,传统的很多理论和方法都需要修正。②从建模的角度来看,数据缺少独立性和同分布性,样本集的概率不能简单地再写成各样本概率的乘积。③在众多应用问题中,不仅需要很好地拟合或预测未来数据,同时也希望它能够揭示出数据的动态演化规律,从而更好地理解数据。比如在网络舆论的研究中,研究者不仅关注每一时刻主体谈论的内容,同时也关注这些内容的发展模式,如微博上的热点话题的产生、传播、爆发、变异、衰落、消亡的过程等。