数据隐私与数据治理:概念与技术
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 数据隐私面临的挑战

基于上述对隐私的发展及对现有隐私技术的认识,下面对当前社会所面临的隐私挑战进行概括。依据面向对象的不同,我们将当下的隐私保护问题归类为大数据的隐私保护问题、人工智能的隐私保护问题和数据要素的数据治理问题3类。本书后续主体内容也将围绕这3个主题分篇展开。

1.3.1 大数据隐私挑战

随着各类物联网设施的普及,各领域数字化进程加速,移动互联网服务提供商基于其提供的各类服务,主动或被动地收集了大量用户数据。海量的用户数据,加之大数据分析和挖掘技术,使服务提供商掌握了用户方方面面的个人信息并可将其应用于各类商业活动,如精准广告投放和业务营销。同时,大规模数据的收集、存储和分析等环节都存在数据安全和隐私隐患。尽管数据收集和分析是为了面向用户提供更优质的服务,但在其过程中产生的用户隐私问题严重影响了个人的生活和工作,如垃圾邮件、精准广告和推销电话等。

基于上述背景,我们对大数据时代的隐私问题进行总结,将其归类为以下三个科学问题。

1.大规模数据收集问题

随着网络覆盖程度日益提升,摄像头、智能家居、移动设备等智能设备大面积普及,大规模数据通过被动、主动和自动方式被收集。这些数据往往包含大量的用户隐私信息,如医疗就医情况、购物情况、网站搜索历史、个人移动通信记录、出行和位置轨迹等。然而,作为数据生产者,用户不知道哪些数据被收集、被谁收集、数据被收集后会流向何处,以及被收集的数据作何使用,用户失去了对自身数据的掌握权,个人隐私泄露防不胜防。

2.大规模数据监视问题

大规模数据收集导致大规模数据监视,例如购物、社交和出行等数据被各大公司掌握。同时,各个数据服务公司会利用这些数据进行用户画像,以便进行精准的数据分析与营销。在典型用户画像的标签体系中,标签数量一般能达到一百多个,而像阿里巴巴、京东等拥有海量用户数据的互联网巨头,其画像标签甚至达到了上千个。这些标签不仅能以较高的准确率刻画出一个用户的基本人口信息,更包括生理、心理、文化、身份等信息,几乎是对一个自然人各种社会属性的全覆盖。虽然该技术在很大程度上改变了传统的工作模式,大大提高了工作效率,尤其是个性化推荐的精准度,但也对个人隐私安全构成了极大威胁。

3.大规模数据操纵问题

由于数据收集、处理、流通及使用过程的不透明性,用户失去对其自身数据的掌握权,大规模数据操纵的问题随即产生。数据服务提供商可根据数据分析结果,如用户画像等,从事最大化商业利润的行为。虽然目前已有法律法规严令禁止此类数据操作与滥用的行为,但由于监管措施不完善、数据处理流程不透明,我们仍深受数据操纵的影响,对于数据操纵下出现的隐私泄露、数据滥用等问题也难以溯源问责。

面对这样的问题,传统的以攻防策略为核心思想的被动式隐私保护技术已不再适用,针对全流程的主动式隐私保护技术势在必行。我们应当能够将数据隐私保护融入整个大数据隐私处理流程中去,全方位抵御上述隐私问题。差分隐私不依赖于任何背景知识的假设,可在攻击者拥有最大背景知识的情况下保护用户隐私,为解决上述问题创造了条件。为此,针对大数据的隐私保护问题,第二篇对差分隐私、本地化差分隐私及差分隐私与密码学混合的技术进行了介绍,阐述其基础知识,介绍其前沿技术。

1.3.2 人工智能隐私挑战

大数据时代的到来带动了机器学习技术突飞猛进的发展,使刷脸支付、辅助诊断、智能机器人等人工智能应用逐步走入大众视野并深刻改变着人类的生产与生活方式,实现了经济效益和社会效益的共赢。但这也令个人隐私保护面临更大的风险与挑战,主要表现在三个方面:首先,由不可靠的数据收集者导致的数据泄露事件频发,不仅对企业造成重大经济和信誉损失,也对国家安全和社会稳定构成极大威胁;其次,大量研究表明,攻击者通过分析机器学习模型的输出结果,能够逆向推理出训练模型或训练数据个体的敏感信息;最后,数据隐私与数据共享的相悖导致互联网领域下“数据孤岛”问题的产生,形成壁垒森严、界限明晰的数据阵营,长此以往,数据垄断局面愈盛,将不利于国家经济体制深化改革。

针对人工智能中的隐私保护问题,我们从以下两个方面进行讨论,即以集中式架构为基础的传统机器学习和以分布式架构为基础的联邦学习。

1.传统机器学习的隐私保护问题

要实现隐私保护的人工智能,除借助法律法规的约束外,更要求服务提供商必须以隐私保护为首要前提进行机器学习模型的设计、训练与部署,保证数据中的个人敏感信息不会被未授权攻击者直接或间接获取。在传统的机器学习训练框架下,用户数据首先被数据收集者集中收集并存储在单机、集群或云端,此模式无论对模型训练还是环境部署而言都方便可控,因此被广泛应用于实际场景中。不过,大规模数据的集中收集存在严重的泄露隐患。对用户而言,一旦数据被收集后,他们便很难再拥有对数据的控制权,其数据将被用于何处、如何使用,他们也不得而知。对数据收集者而言,一方面他们可能主动或被动地泄露用户数据,造成直接隐私泄露;另一方面恶意攻击者也可能利用逆向推理手段推测出模型或训练数据中的敏感信息,从而造成间接隐私泄露。

2.联邦学习的隐私保护问题

近年来,联邦学习为解决在不共享数据的前提下进行机器学习的问题提供了新思路。联邦学习下数据不需要集中存放,仅需在数据分散存储的节点上训练模型,服务器无法获取原始数据,个人数据隐私得到有效的保护。在数据隐私与安全问题备受关注的今天,联邦学习在避免直接隐私泄露、避免中心点数据受到攻击等方面具备显著优势。此外,传统的机器学习模型不能直接处理异构数据,利用联邦学习技术,无须处理异构数据即可建立全局数据上的机器学习模型,既保护了数据隐私,又解决了数据异构问题。联邦学习可应用在涉及个人敏感数据的机器学习任务中,如个人医疗数据、可穿戴设备数据、面部特征数据、个人资产数据等。然而,联邦学习架构提供的隐私保护机制不足,在模型训练阶段和模型预测阶段都可能导致数据隐私泄露。

不过,目前关于机器学习的隐私攻击大多仅适用于特定条件,如仅在图像识别任务中成功、不适用于复杂模型等。但随着研究的逐步深入,这些攻击将逐步威胁到更通用、更复杂的模型。要解决人工智能的隐私问题,一方面需借助法律法规的约束,另一方面必须从技术上将隐私保护融入机器学习模型的设计与训练过程中,从根源上防止个人隐私被未授权人员直接或间接获取,并以隐私保护为首要前提进行一切相关研究或应用。

在该背景下,无论对集中学习还是联邦学习而言,其隐私保护算法设计均可分为两条主线:以安全多方计算、同态加密为代表的加密方法和以差分隐私为代表的扰动方法。本书将在第三篇对该内容进行详细的介绍。同时,我们在第三篇还兼顾了人工智能算法的公平问题,探讨了人工智能算法的各个环节中公平问题的发生原因与解决方法。

1.3.3 数据治理挑战

随着信息经济的发展,以大数据为代表的信息资源逐渐向生产要素的形态演进,数据逐步与其他要素一起融入经济价值创造过程,对生产力发展产生深远影响。2020年4月6日,中共中央、国务院发布《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》,将数据作为与土地、劳动力、资本、技术并列的生产要素,并提出加快培育数据要素市场。

然而,将数据作为生产要素,必须考虑其在大数据生态中的数据治理问题。在5G、物联网这样的新基建背景下,数据治理问题不局限于传统的隐私问题,数据垄断、决策公平、数据透明等问题也对数据作为生产要素发挥作用提出了新的挑战。同时,这几个问题在数据生态背景下相互作用、相互影响。例如,数据垄断与数据隐私的解决存在相互促进的关系,数据垄断的破除将有效阻止大量数据的汇集,从而降低挖掘、泄露数据隐私的风险;基于扰动技术的数据隐私保护会限制数据价值,从而限制垄断数据的价值,遏制数据垄断的增长。同时,我们也必须认识到,过度严格的数据隐私不利于数据垄断和决策不公平现象的发现,如何兼顾上述问题,实现数据治理十分关键。由此,我们对该问题从数据要素市场、数据垄断、数据公平和数据透明四个方面展开介绍。

1.数据要素市场

大数据时代下,数据已成为一个国家重要的基础性战略资源,并对生产、流通、分配、消费活动,以及经济运行机制、社会生活方式和国家治理能力产生重要影响,为国家提升竞争力带来了新机遇。随着数据在经济发展中起到越来越关键的作用,目前已将其列为一种与劳动力、资本、土地等传统生产要素具有同等地位的新型生产要素,这意味着数据已成为维持企业生产经营活动所必须具备的基本因素。数据要素主要包括互联网应用、物联网设备、企业和政府部门收集的数据等。随着计算机处理能力和人工智能算法的日益强大,数据量越大,所能挖掘到的知识就越丰富,数据要素的价值就越大。实施数据资源的开放共享,不断完善数据交易和数据流通等标准和措施,是深化数据要素市场化配置改革,促进数据要素自主有序流动的关键任务。

2.数据垄断问题

随着数据的累积,数据作为驱动人工智能等技术发展的重要资源,逐渐成为各科技公司争夺的主要对象,不同科技企业在数据资源的储备量上的差异也愈加明显,数据垄断逐渐形成,并催生了“堰塞湖”,各企业间的数据难以互通。孟小峰教授领导其团队完成的《中国隐私风险指数分析报告》基于约3000万用户的App使用数据,对用户权限数据的收集情况进行了揭示。其量化结果表明,10%的收集者获取了99%的权限数据,形成了远超传统“二八定律”的数据垄断。而2018—2020年的研究表明,该严峻形势并没有得到缓解,并且愈演愈烈。

3.数据公平问题

数据驱动的算法在人们的生产生活中广泛应用,甚至参与了诸多权益攸关的决策。在该过程中,“大数据杀熟”等数据公平问题逐渐浮现并受到人们的关注。2021年8月公布的《中华人民共和国个人信息保护法》以立法的形式对数据公平问题加以规制,要求个人信息处理者利用个人信息进行自动化决策,应当保证决策的透明度和结果公平、公正。但如何对公平进行定义和度量、如何定位不公平的来源,以及如何在算法准确性与公平之间进行权衡目前仍未有定论,是该方向有待探索的重要问题。

4.数据透明问题

隐私、公平、垄断等伦理问题产生的根本原因是大数据价值实现过程中的不透明性。当前数据的获取、流通、共享、使用和决策过程都存在不透明性,用户作为数据的生产者,对哪些数据被收集、被谁收集,以及被收集的数据流向何处、作何使用一无所知。人工智能服务的黑盒状态进一步加剧了数据的隐私泄露、垄断和决策结果的不公平。与此同时,与传统的决策相比,由于传统决策依赖“数据—信息—知识”的获取,而人工智能由大数据直接驱动,数据错误与算法不透明都会使最终的决策结果不可信。数据透明问题已然成为包含隐私在内的诸多伦理问题中的关键一环。

上述问题既是独立的数据伦理问题,也是将隐私问题置于数据生态中进行思考的关键问题。其中,数据透明将会成为射入人工智能黑箱的一道阳光,通过数据透明,我们可以实现对诸多数据伦理问题的可查、可感、可监控、可问责,从而从根本上应对上述问题。我们将在第四篇对这4个问题及其解决方案进行详细的探讨。