1.2.2 隐私脱敏_隐私计算理论与技术-QQ阅读中文轻小说网

上QQ阅读APP看书，第一时间看更新

1.2.2 隐私脱敏

隐私脱敏通过采用有失真且不可逆的方法对隐私信息进行保护，使脱敏后的信息无法与数据主体关联起来。隐私脱敏包括但不限于现有的对数据中包含的隐私信息进行泛化（Generalization）、抑制（Suppression）、解耦（Anatomization）、置换（Permutation）、扰动（Perturbation）等方法，未来还需要在隐私脱敏方面进行新的理论创新。隐私脱敏又常被称为隐私化或匿名化。

1.泛化

泛化是将一类属性中的特定值用一个更宽泛的值代替。比如一个人年龄为25岁，可以将其泛化为20~30岁；一个人的职业是程序员或者律师，可以将其泛化为白领（脑力劳动者）。

2.抑制

抑制是指发布信息时将某个属性、属性的值或者属性值的一部分以*代替。比如将手机号码表示为135****3675，信用卡号码表示为4392********。

3.解耦和置换

解耦和置换都是去除准标识符和敏感属性间的关联性，而不改变准标识符或敏感属性的值。解耦是将原始记录表分为两个表发布，一个表发布准标识符属性，另一个表发布敏感属性，两个表只有一个相同的GroupID作为共有属性。置换是把一个数据记录集合划分成组，在组内对敏感值进行置换，从而打乱准标识符和敏感属性间的对应关系。

4.扰动

扰动的主要思想是用合成的数据值取代原始的数据值。扰动后统计信息不发生显著改变，而且改变后的数据与真实数据主体失去关联性。扰动的主要机制包括加噪、数据交换、合成数据生成等。加噪主要用于数值型数据的隐私保护，从一个特定分布的噪声中生成噪声值添加到敏感值上。数据交换的主要思想是交换个人数据记录间敏感属性的值，可以保持统计分析的低阶频数统计或边沿分布。合成数据生成的主要思想是依据数据构建一个统计模型，然后从模型上采样取代原始数据。扰动因为简单、有效且可保持统计信息的特性，所以在统计发布控制中已经有很长的应用历史[11]。

在上述脱敏操作的基础上，发展出了一系列隐私脱敏模型和方法，包括k-匿名[12]、l-多样性[13]、t-接近性[14]、差分隐私[15]、本地化差分隐私[16]等。在后续章节中会对其加以介绍。

本周热推：

Python网络爬虫：从入门到精通中医诊断学彩色图解经济学国际商法（双语版·第2版）食品化学（第2版）