匿名化

（工学 | 信息与通信工程）

匿名化（anonymization），工学-信息与通信工程-大数据处理-大数据隐私-匿名化，采用抑制、泛化、剖析、切片、分离等操作隐藏或者模糊数据以及数据源的过程。匿名化技术的早期代表方法是k-匿名（k-anonymity），其本质是按照用户隐私需求降低位置空间粒度，而后在其基础上陆续出现l-多样性（l-diversity）、t-紧密度（t-closeness）、m-不变性（m-invariance）等方法。上述方法均是针对关系数据的，此外，还有一部分的匿名化研究是针对社交网络数据的发布和查询，包括基于聚类泛化法与图结构修改法。k-匿名由美国卡内基梅隆大学提出，最早使用在关系数据库的数据发布隐私保护中，它指一条数据表示的个人信息至少和其他k-1条数据不能区分。其主要目的是解决如何在保证数据可用的前提下，发布带有隐私信息的数据，使每一条记录无法与确定的个人匹配。然而，k-匿名的缺陷是未对等价类中的敏感属性进行约束，从而导致该技术失效。与k-匿名不同，l-多样性方法在匿名关系数据时确保每个等价类至少包含了l个不同的敏感属性值。