数据去重(deduplication),工学-信息与通信工程-大数据处理-大数据存储-数据去重,在数字文件集合中,找出重复的数据并将其删除,只保存唯一的数据单元的数据冗余消除技术。又称重复数据删除。随着信息技术的快速发展,各种应用产生的数据呈现爆炸式增长的趋势,这给数据的存储及备份造成一定的困难。利用数据去重技术,不仅可以大量减少所需的存储介质,降低数据存储成本,同时有效降低数据传输过程中所需要的网络带宽,提高数据传输的速度和效率,减少数据的维护开销并降低能耗。不同于数据压缩技术的字节级识别和编码,数据去重是基于文件或块级指纹提取并匹配的数据冗余消除技术。通过比较系统中文件或数据块的哈希值来甄别相同的数据内容,对于发现的重复文件或数据块仅在去重系统中保留唯一的副本,而多余的副本则通过指针映射的方式,映射到唯一副本的地址。数据去重技术实质上是通过记录数据块或文件之间的逻辑引用关系来避免重复存储,从而减小数据保存的实际存储开销。数据去重可以按不同方式进行分类。