1.2 大数据安全与隐私保护需求
科学技术是一把双刃剑。大数据在带来巨大价值的同时,也引入了大量的安全风险与技术挑战。要合理利用大数据,首先应满足其安全需求与隐私保护需求,这两者既相互关联又有所不同,下面予以分别讨论。
1.2.1 大数据安全
大数据普遍存在巨大的数据安全需求。大数据由于价值密度高,往往成为众多黑客觊觎的目标,吸引了大量攻击者铤而走险。例如,全球互联网巨头雅虎曾被黑客攻破了用户账户保护算法,导致数以亿级的用户账户信息泄露。雅虎证实其在2013年与2014年分别被未经授权的第三方盗取了超过10亿和5亿用户的账户信息,内容涉及用户姓名、电子邮箱、电话号码、出生日期和部分登录密码。我国也爆发过“2000万条酒店开房数据泄露”等若干安全事件,引起全社会广泛关注。不仅如此,因内部人员盗窃数据而导致损失的风险也不容小觑。盗取和贩卖用户数据的案例屡见不鲜。例如在2017年,我国某著名互联网公司内部员工盗取并贩卖涉及交通、物流、医疗、社交、银行等个人信息50亿条,通过各种方式在网络黑市贩卖。管理咨询公司埃森哲等研究机构2016年发布的一项调查研究结果显示,其调查的208家企业中,69%的企业曾在过去一年内“遭公司内部人员窃取数据或试图盗取”。
经典的数据安全需求包括数据机密性、完整性和可用性等,其目的是防止数据在数据传输、存储等环节中被泄露或破坏。通常实现信息系统安全需要结合攻击路径分析、系统脆弱性分析以及资产价值分析等,全面评估系统面临的安全威胁的严重程度,并制定对应的保护、响应策略,使系统达到物理安全、网络安全、主机安全、应用安全和数据安全等各项安全要求。而在大数据场景下,不仅要满足经典的信息安全需求,还必须应对大数据特性所带来的各项新技术挑战。
挑战之一是如何在满足可用性的前提下保护大数据机密性。安全与效率之间的平衡一直是信息安全领域关注的重要问题,但在大数据场景下,数据的高速流动特性以及操作多样性使得安全与效率之间的矛盾更加突出。以数据加密为例,它是实现敏感数据机密性保护的重要措施之一。但大数据应用不仅对加密算法性能提出了更高的要求,而且要求密文具备适应大数据处理的能力,例如数据检索与并发计算等。目前在产业界中,为了尽量不影响运行效率,绝大多数大数据应用的数据都处于不加密的“裸奔”状态,安全形势极其严峻。
挑战之二是如何实现大数据的安全共享。访问控制是实现数据受控共享的经典手段之一。但在大数据访问控制中,用户难以信赖服务商能够正确实施访问控制策略,且在大数据应用中实现用户角色与权限划分更为困难。以医疗领域应用为例,一方面医生为了完成其工作可能需要访问大量信息,专业性很强,安全管理员难以一一设置;但另一方面又需要对医生行为进行监测与控制,限制医生对病患数据的过度访问。因此,实现大数据访问控制不仅需要智能化的安全策略管理,而且需要可信的访问控制策略实施机制。
挑战之三是如何实现大数据真实性验证与可信溯源。当一定数量的虚假信息混杂在真实信息中时,往往容易导致人们误判。例如,一些点评网站上的虚假评论可能误导用户去选择某些劣质商品或服务。导致大数据失真的原因是多种多样的,包括伪造或刻意制造的数据干扰、人工干预的数据采集过程中引入的误差、在传播中的逐步失真、数据源更新与失效等,这些因素都可能最终影响数据分析结果的准确性。需要基于数据的来源真实性、传播途径、加工处理过程等,了解各项数据可信度,防止分析得出无意义甚至错误的结果。
1.2.2 大数据隐私保护
由于有相当一部分大数据是源自人的,所以除安全需求外,大数据普遍还存在隐私保护需求。大量事实表明,未能妥善处理隐私保护问题会对用户造成极大的侵害。
以往企业认为,数据经过匿名处理后,不包含用户的标识符,就可以公开发布了。但事实上,仅通过这种简单匿名保护并不能达到隐私保护目标。例如,美国AOL公司曾公布了匿名处理后的3个月内的一部分搜索历史供人们分析使用。虽然个人相关的标识信息被精心处理过了,但利用其中的某些记录项还是可以准确地定位到具体的个人。《纽约时报》随即公布了其识别出的编号为4417749的用户是一位62岁的寡居妇人,家里养了3条狗,并患有某种疾病,等等。另一个相似的例子是,著名的DVD租赁商Netflix曾公布了约50万个用户的租赁信息,悬赏100万美元征集算法,以期提高电影推荐系统的准确度。但是当上述信息与其他数据源交叉对比时,部分用户还是被识别出来了。研究者发现,Netflix中的用户有很大概率对非top100、top500、top1000的影片进行过评分,而根据对非top影片的评分结果进行去匿名化(de-anonymizing)攻击的效果更好[26]。而Netflix公司也因公开的数据暴露了用户的性取向和政治倾向而遭到大量用户的起诉,造成了轰动一时的“断背山效应”(brokeback mountain factor)。大量研究表明,仅数据发布时做简单的去标识处理已经无法保证用户隐私安全,通过链接不同数据源的信息,攻击者可能发起身份重识别攻击(reidentification attack),逆向分析出匿名用户的真实身份,导致用户的身份隐私泄露。
由于去匿名化技术的发展,实现身份匿名越来越困难。攻击者可从更多的渠道获取数据,通过多数据源的交叉比对、协同分析等手段可对个人隐私信息进行更精准的推测,使原有基于模糊、扰动技术的匿名方案失效。不仅同质数据源可以去匿名化,不同类型数据之间也可以关联。通过搜集用户的旅游签到、电影点评、购物记录等足够多的信息碎片,将跨应用的不同账号联系起来,将用户不同侧面的信息联系起来,也可以识别出用户的真实身份。例如新浪微博明星小号曝光导致明星形象危机的事件层出不穷。此外,用户轨迹、行为分析也可能导致用户个人身份泄露。例如在150万用户15个月的手机通信位置记录中,即使将用户的位置模糊扩大到基站范围,仍有95%的用户可通过4个位置点唯一地被区别出来[27]。此外,通过匹配用户的地点转移规律[28]、统计用户对不同地点的喜好程度[29]、识别出个性化的家庭地址-单位地址对[30],[31]、将地理位置作为准标识符[32]等方法均可以识别用户身份。一旦用户身份通过其个性化的轨迹信息被识别出来,将导致用户其他隐私信息泄露。
此外,人们面临的威胁并不仅限于个人隐私泄露,还有基于大数据对人们状态和行为的预测。随着深度学习等人工智能技术的快速发展,通过对用户行为建模与分析,个人行为规律可以被更为准确地预测与识别,刻意隐藏的敏感属性可以被推测出来。以社交网络为例,由于社交网络中的拓扑结构增加了用户间的联系,可通过用户的朋友具有的属性、用户加入的群组等属性推测用户可能具有的属性,用户所隐藏的敏感属性很可能被挖掘并公布出来。例如通过分析用户的Twitter信息,可以发现用户的政治倾向、消费习惯以及喜好的球队等[2],[3]。此外,随着互联网用户数据的积累,用户行为所表现出来的共性和规律性成为人们挖掘的重点。例如,研究者基于用户历史轨迹建立隐马尔可夫模型,利用此模型可成功地对用户出行的目的地进行预测[33],甚至预测用户即将出现的地点[34]。通过用户的社交关系和访问地理位置分布,可向用户推荐其可能感兴趣的新地点[35]。
总体而言,目前用户数据的收集、存储、管理与使用等均缺乏规范,更缺乏监管,主要依靠企业的自律。用户无法确定自己的隐私信息的用途。而在商业化场景中,用户应有权决定自己的信息如何被利用,实现用户可控的隐私保护。例如用户可以决定自己的信息何时以何种形式披露,何时被销毁,主要包括数据采集时的隐私保护、数据共享和发布时的隐私保护、数据分析时的隐私保护、数据生命周期的隐私保护以及隐私数据可信销毁等。
1.2.3 大数据安全与大数据隐私保护的区别与联系
在讨论隐私保护需求时,一般仅聚焦于匿名性。而大数据安全需求更为广泛,关注的目标不仅包括数据机密性,还包括数据完整性、真实性、不可否认性以及平台安全、数据权属判定等。另外,虽然隐私保护中的数据匿名需求与安全需求之一的机密性需求看上去比较类似,但后者显然严格得多。匿名性仅防止攻击者将已经公布的信息与现实中的用户联系起来,数据本身并不具有敏感性,完全可以在充分匿名后用于数据共享分析;而机密性则要求数据对于非授权用户是完全不可访问的。
我们在分析大数据安全问题时,一般来说数据对象是有明确定义的,可以是某个具体数据,也可以是一个信息系统中的全体信息,例如某个大数据中心所存储的数据内容等。而在涉及隐私保护需求时所指的用户“隐私”则较为笼统,可能存在多种数据形态。例如用户敏感属性隐私既可能显式存储于某项数据条目,也可能隐式存在于其他公开属性中,可由公开属性推理而知。广为人知的由用户的历史购物信息推理出顾客是否为孕妇的案例就属于这种情况。而且,关于“隐私”范围的界定目前存在大量争议,不完全属于技术范畴。