
1.2.2 隐私脱敏
隐私脱敏通过采用有失真且不可逆的方法对隐私信息进行保护,使脱敏后的信息无法与数据主体关联起来。隐私脱敏包括但不限于现有的对数据中包含的隐私信息进行泛化(Generalization)、抑制(Suppression)、解耦(Anatomization)、置换(Permutation)、扰动(Perturbation)等方法,未来还需要在隐私脱敏方面进行新的理论创新。隐私脱敏又常被称为隐私化或匿名化。
1.泛化
泛化是将一类属性中的特定值用一个更宽泛的值代替。比如一个人年龄为25岁,可以将其泛化为20~30岁;一个人的职业是程序员或者律师,可以将其泛化为白领(脑力劳动者)。
2.抑制
抑制是指发布信息时将某个属性、属性的值或者属性值的一部分以*代替。比如将手机号码表示为135****3675,信用卡号码表示为4392********。
3.解耦和置换
解耦和置换都是去除准标识符和敏感属性间的关联性,而不改变准标识符或敏感属性的值。解耦是将原始记录表分为两个表发布,一个表发布准标识符属性,另一个表发布敏感属性,两个表只有一个相同的GroupID作为共有属性。置换是把一个数据记录集合划分成组,在组内对敏感值进行置换,从而打乱准标识符和敏感属性间的对应关系。
4.扰动
扰动的主要思想是用合成的数据值取代原始的数据值。扰动后统计信息不发生显著改变,而且改变后的数据与真实数据主体失去关联性。扰动的主要机制包括加噪、数据交换、合成数据生成等。加噪主要用于数值型数据的隐私保护,从一个特定分布的噪声中生成噪声值添加到敏感值上。数据交换的主要思想是交换个人数据记录间敏感属性的值,可以保持统计分析的低阶频数统计或边沿分布。合成数据生成的主要思想是依据数据构建一个统计模型,然后从模型上采样取代原始数据。扰动因为简单、有效且可保持统计信息的特性,所以在统计发布控制中已经有很长的应用历史[11]。
在上述脱敏操作的基础上,发展出了一系列隐私脱敏模型和方法,包括k-匿名[12]、l-多样性[13]、t-接近性[14]、差分隐私[15]、本地化差分隐私[16]等。在后续章节中会对其加以介绍。