联邦学习技术及实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2.2 隐私保护的目标

隐私保护的手段众多,从轻量级的K-匿名算法到复杂的密码学算法,都为数据的通信和共用提供了解决方案,为很多复杂但有意义的场景实现提供了可能。这些算法虽然都能有效地保护数据隐私,但它们的原理却有着本质区别,当然对计算资源和通信量负载的要求也不同。根据隐私保护的目标,我们可以将与联邦学习关系较为密切的隐私保护算法分为两大类:差分隐私算法和密码学方法。接下来,我们简单介绍一下这两种算法的隐私保护的目标以及对隐私的保护程度。

在介绍隐私的保护目标之前,我们先简单地介绍几个相关的概念。值得注意的是,以下几个概念都有严格的数学定义,在此为了方便理解,采用通俗的方式进行描述,严格的定义可参考文献[48~50]。

定义2-4 如果两个分布XY的统计距离是可忽略的,那么可以认为这两个分布是统计不可区分(Statistical Indistinguishability)的。

定义2-5 如果对任意多项式时间的算法D和任选的多项式p来说,区分两个分布的可能性满足以下条件,那么可以认为两个分布XY是计算不可区分(Computational Indistinguishability)的,满足式(2-1)。Pr[a]表示事件a发生的概率。

以上两个定义描述了两种分布之间的相似关系。通俗地讲,隐私保护就是将一个蕴含着统计信息的分布(或者可以用来进行机器学习的数据集)通过某种处理,使其与一个均匀分布(或者完全随机的、没有任何学习价值的数据集)的相似性达到某种不可区分的程度。这就是隐私保护的目标,而这个“不可区分的程度”即所谓的隐私保护的程度。举例来说,密码学方法作为一种隐私保护的手段,通过某种数学变换对明文进行处理,使得得到的密文与均匀分布达到计算不可区分的程度。

值得注意的是,隐私保护技术的目的是更好地为多方之间的通信和计算进行服务。我们在考虑隐私程度的同时,也不能忽略其实用性。也就是说,我们应该在隐私程度和算法效率之间进行折中考虑,在业务效率可接受的范围内,最大化隐私保护程度。在密码学研究中,正是基于这种折中的考虑,要求密码算法构造的密文与均匀分布达到计算不可区分的程度即可。

除了使用密码学的方法对数据进行加密从而对隐私进行保护的策略,还有K-匿名等传统的隐私保护方法,但这些传统的隐私保护方法在面对某些特殊的攻击方式(如2.3节将会介绍的差分攻击)时,用户的隐私性还是会受到影响的。因此,“差分隐私”的概念应运而生[50]。差分隐私的提出重新定义了隐私的概念,默认敌手拥有较强的背景知识,且在这种情况下仍无法有效地区分相似数据集下的训练结果,即将两个相似数据集XX'输入算法D,所得的输出结果相差不大。差分隐私的效果也可使用式(2-2)进行描述

式中,S⊆Range(D),隐私程度可通过相关参数εδ进行调节,相似数据集的概念和差分隐私的具体定义可以参考2.3节中的定义2-6。

因此,隐私保护的程度可以简单地分为以上三类。其中,“统计不可区分”对应的隐私保护程度最强,使得处理后的分布(或数据集)与随机选取的均匀分布之间的统计距离达到了可以忽略的程度,也就是说,原始分布(或数据集)的信息在统计意义下被完全隐藏了;“计算不可区分”对应的隐私保护程度稍弱于“统计不可区分”,是指使用现有的计算能力无法判断出两个不同分布(或数据集)的区别,如果不能区分处理后的分布与一个完全随机选取的均匀分布的差别,便无法从处理后的分布来恢复原始分布。差分隐私重新对“隐私”进行了定义,将单个用户在某个数据集中的隶属关系定义为隐私,其对信息的隐藏程度也可通过定义中的参数进行调节。以机器学习为例,差分隐私保证所用的算法无法区分两个相邻的数据集,即使数据集中除了某个特定用户之外的所有用户信息均被攻击者掌握,攻击者仍无法确定该用户是否在已有的训练数据集中,因此攻击者无法分析该用户的隐私,从而实现了隐私保护。但在此过程中整个数据集的统计信息是没有隐藏的,也就是说,差分隐私就像对一张图片进行的马赛克处理,虽然图片的每一个具体像素已经变得不清晰,但是其整体轮廓依然能够被识别出来。如果使用加密算法对数据集进行加密,那么处理后便与完全随机的数据集达到了计算不可区分的程度,就像把一张图片的像素重新打乱,修改后再组合,依靠我们现有的计算能力,图片上的信息已经很难被识别出来了。