隐私保护计算
上QQ阅读APP看书,第一时间看更新

1.1 信息繁荣与隐私危机

从公元前1万年的新石器时代到公元前4000年的青铜器时代,农业革命用了6000年才对文明产生全面而深刻的影响。进入21世纪20年代,在历经另一个6000年后,信息革命终于结出硕果。计算机的诞生开创了一个崭新的时代,技术的蓬勃发展催生了信息的繁荣与兴盛。同时,与之伴生的隐私问题进入大众视野,逐渐演变成了社会焦虑。

1.1.1 数字时代沧海桑田

信息是人类经验传递的一种载体,信息流通则是文明发展的根本需求。事实上,人类一直生活在各种各样的信息社会中,而每一次社会变革都伴随着信息技术的重大突破。信息技术的发展历程如图1.1所示。

语言的产生标志着从猿到人的蜕变。大脑对世界的认知通过对话产生联系,最终形成具有共同文化的社会群体。文字的创造使人类迈向文明,书写历史。信息不再转瞬即逝,人们的思想情感、生活经验和文化习俗得以记录下来,并超越时空限制传递出去。造纸术与印刷术的发明促进了文明的交流与融合,使书籍和报刊成为信息的主要媒介,信息的存储质量和传播范围得到进一步改善。电磁理论与技术的发展深刻地影响了人们的生活、工作与娱乐方式。电报、电话和广播电视的普及使得信息的传播效率大大提高,传播形式也趋于多样化。计算机与互联网的诞生彻底地改变了人们生产和使用信息的方式。“比特”(bit)成为信息的基本单位,而“数据”被用来表示“可传输和可存储的计算机信息”。

图1.1 信息技术的发展历程

与大多数文献一样,本书不对“数据”和“信息”进行太多区分,仅在此浅析二者的差异。数据可以看作对信息的记录。它具有特定的表现形式,但其中并不一定包含信息。信息则可以视为对数据的提炼。它能够消除不确定性,为杂乱无章的数据赋予价值。例如,密码编码学的目标是隐藏信息的含义,其通过加密算法将信息深埋在数据之中。只有拥有密钥的一方才能读取有效的信息,否则看到的只是无法理解的符号。密码破译困难重重,而将数据处理成有价值的信息也绝非易事,需要付出很多努力和代价。数据–信息–知识–智慧金字塔(Data-Information-Knowledge-Wisdom Pyramid,DIKW Pyramid)展现了这一过程,如图1.2所示。信息可以进一步归纳为知识,而知识亦可以通过灵活运用产生智慧。

图1.2 数据-信息-知识-智慧金字塔

过去几十年,信息技术迅猛发展。在这个过程中,久负盛名的摩尔定律(Moore’s Law)就像一只看不见的手,准确地预测着半导体行业的发展。摩尔定律指出,集成电路上的晶体管数量每18个月便会增加一倍。这意味着在相同的价格下,微处理器的性能每18个月就能提高一倍。1971年,世界上第一款微处理器——英特尔(Intel)4004宣告问世,其上仅有2300个晶体管。而在半个世纪后,由苹果(Apple)制造的M1 Max芯片已经可以容纳570亿个晶体管,是前者的近2500万倍。2015年,在摩尔定律发表50周年之际,埃信华迈(IHS Markit)做出了一个大胆的假设。如果将摩尔定律的周期增加一倍,变为36个月,那么全球科技水平将倒退17年,回到1998年。

随着计算、存储和通信的成本呈指数级下降,数据的规模和种类出现爆炸式增长。据资本视觉(Visual Capitalist)统计,全世界所有人每天会发布5亿条推文,进行50亿次搜索,传递650亿条WhatsApp消息,发送2940亿封电子邮件,并产生4PB的Facebook数据。国际数据公司(International Data Corporation,IDC)预测,全球数据总量将在2025年达到175ZB。如果将这些数据存储在DVD中,那么所用光盘的高度将是地球到月球距离的23倍,可以绕地球赤道222圈。与此同时,数据在区域内和区域间的流通速度也在持续加快。2019年,联合国贸易和发展会议(United Nations Conference on Trade and Development,UNCTAD)指出,2022年全球互联网协议流量将超过2016年以前的流量总和,达到150TB/s。

规模空前的数据共享一方面创造了巨大的经济价值,另一方面为整个社会带来了诸多争议和隐患。计算机与互联网不仅让世人拥有更便捷的连接、更精准的服务和更智能的决策,也让大众饱受勒索病毒、网络诈骗、人肉搜索和版权侵害等问题的困扰。新技术的出现令人们感到双重不安:新的麻烦不断产生,而旧有威胁则变得更加严重。

1.1.2 隐私风险无处不在

数字时代就像一座“全景监狱”,让每个角落都充斥着监控与窥探。数据的非竞争和不可分离特性,令其可以在无损耗的情况下被反复使用,并无法与数据主体完全剥离。这使得数据一旦产生,对其流向及用法的控制便难上加难,越来越多的数据在不为人知的情况下得以联结与整合。电商企业熟知用户的购买偏好,网约车平台掌握用户的出行路线,互联网公司保存用户的搜索记录,社交软件清楚用户的朋友圈和聊天内容……这些数据反映了各个领域的微观现实,它们共同描绘出一幅细致入微的个人肖像,本属隐私的信息也因此一览无遗。

在进一步论述隐私风险前,需要明确个人信息这一目标对象,如图1.3所示。个人信息通常是指以电子或其他形式记录的、能够单独或与其他信息结合,从而识别特定自然人身份或反映特定自然人活动情况的各种信息,如个人身份信息、生物识别信息、健康信息及财产信息等。在此基础上,可以定义个人敏感信息。它特指一旦被泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息。除个人信息以外的信息统称为非个人信息。

通常,隐私风险源自数据生命周期的各个阶段,包括数据采集、传输、存储、使用和删除等,如图1.4所示。数据采集是指直接或间接从个人或机构获取数据的过程。数据传输是指将数据从一个实体发送到另一个实体的过程。数据存储是指使用磁盘、云存储服务等载体将数据持久化保存的过程。数据使用是指对数据进行访问、加工、开发、测试、转让及公开披露等操作的过程。数据删除(Data Deletion,DD)是指使数据处于不可检索、不可访问或不可复原等状态的过程。

图1.3 个人信息的范畴

图1.4 数据的生命周期

在数据采集阶段,不当获取数据的案例比比皆是,个人的知情同意权不断遭受挑战。在法律的要求下,服务提供者往往通过隐私声明履行告知义务,并取得用户的同意。然而,大多数隐私政策的篇幅冗长、结构复杂、内容晦涩。有研究表明,如果想将一年中所用应用程序的隐私政策全部读完,需要花费近250小时。某些时候,这些政策不仅沦为企业的免责声明,甚至成为霸王条款的藏身之所。在缺少替代品的情况下,用户只能同意了事,而这种同意显然是迫于无奈、流于形式。退一步说,即使用户获得了一定的书面承诺,他们也难以从技术上对其进行验证。人们唯一能做的便是祈求自己的隐私不会被泄露。

数据传输阶段可能存在针对个人信息的窃取、伪造、重放、篡改等一系列非授权行为。而在数据存储阶段,大量集中存放的有价值数据更易成为攻击者的目标。攻击来源也变得更加多样,外部黑客和内部人员均有可能图谋不轨,甚至彼此勾结。这些问题既属于信息隐私的范畴,又属于数据安全的范畴,需要依靠二者共同的努力来解决。

数据使用阶段的隐私风险主要包括两种:一种是将数据挪作他用,甚至倒买倒卖;另一种则与数据使用的结果,即数据产品相关。尽管机器学习和统计分析的对象是人群而非个体,但对数据的有损压缩处理并不足以抵御算力激增背景下愈发强大的隐私攻击。学习模型会记住用户的敏感信息,而提供太多、太精确的统计量会使隐私完全暴露。已有的攻击手段包括成员辨别攻击、数据重建攻击和属性推断攻击等。通过这些攻击,攻击者可以识别给定样例是否存在于数据集中,也可以对某个或某些样例的值进行恢复,还可以提取不包含在特征中或与学习目标无关的信息。

在数据删除阶段,尽管其目标就是保护隐私,但不恰当的实现方式反而会暴露隐私。正如在前文中所提到的,个人信息的痕迹往往会残留在数据产品中。因此,只删除原始数据本身并不足以完全规避隐私风险。此外,删除操作势必会导致系统状态、产品性能等方面的变化。这些变化几乎不会对常规用户造成影响,但容易令全副武装的攻击者有所察觉。他们可以使用与数据使用阶段相似的手段完成攻击,从而对人们的隐私造成威胁。