1.3 大数据生命周期安全风险分析
大数据的生命周期包括数据产生、采集、传输、存储、分析与使用、分享、销毁等诸多环节,每个环节都面临不同的安全威胁。其中,安全问题较为突出的是数据采集、数据传输、数据存储、数据分析与使用4个阶段,其关系如图1-2所示。本节讨论这些阶段所面临的安全风险,这些安全风险是大数据安全与隐私保护技术选型的主要依据。
图1-2 大数据生命周期中的采集、传输、存储、分析与使用4个阶段的关系
1.3.1 数据采集阶段
数据采集是指采集方对于用户终端、智能设备、传感器等产生的数据进行记录与预处理的过程。在大多数应用中,数据不需要预处理即可直接上传;而在某些特殊场景下,例如传输带宽存在限制或采集数据精度存在约束时,数据采集方需要先进行数据压缩、变换甚至加噪处理等步骤,以降低数据量或精度。一旦真实数据被采集,则用户隐私保护完全脱离用户自身控制,因此,数据采集是数据安全与隐私保护的第一道屏障,可根据场景需求选择安全多方计算等密码学方法,或选择本地差分隐私等隐私保护技术。
1.3.2 数据传输阶段
数据传输是指将采集到的大数据由用户端、智能设备、传感器等终端传送到大型集中式数据中心的过程。数据传输阶段中的主要安全目标是数据安全性。为了保证数据内容在传输过程中不被恶意攻击者收集或破坏,有必要采取安全措施保证数据的机密性和完整性。现有的密码技术已经能够提供成熟的解决方案,例如目前普遍使用的SSL通信加密协议或专用加密机、VPN技术等。
1.3.3 数据存储阶段
大数据被采集后常汇集并存储于大型数据中心,而大量集中存储的有价值数据无疑容易成为某些个人或团体的攻击目标。因此,大数据存储面临的安全风险是多方面的,不仅包括来自外部黑客的攻击、来自内部人员的信息窃取,还包括不同利益方对数据的超权限使用等。因此,该阶段集中体现了数据安全、平台安全、用户隐私保护等多种安全需求,是本书讨论的重点。
1.3.4 数据分析与使用阶段
大数据采集、传输、存储的主要目的是为了分析与使用,通过数据挖掘、机器学习等算法处理,从而提取出所需的知识。本阶段的焦点在于如何实现数据挖掘中的隐私保护,降低多源异构数据集成中的隐私泄露,防止数据使用者通过数据挖掘得出用户刻意隐藏的知识,防止分析者在进行统计分析时得到具体用户的隐私信息。