2.2.5 联邦学习
人工智能领域,往往需要足量数据进行机器学习才能产生良好的建模效果。李开复在《AI·未来》一书中提到:“当计算机的运算能力和工程师的能力达到一定的水准之后,数据量的多寡就成为决定算法整体效能与精准度的关键所在。”能否掌握足量优质的数据,决定了人工智能训练效果的优劣。在实际工业环境中,仅靠一家企业难以利用自身数据推测用户多元化、多平台的消费习惯。因此,为了更精准地做出决策,需要充分利用信息资源。
不同的网站、研究者、广告商和商业机构想要将彼此的数据汇总或者统一整理进行训练,传统的处理模式之一是将不同源数据整合,形成聚合数据库,虽然聚合数据库能实现对多个独立的数据库进行相互操作,但过程中存在各单元数据库的交互过程,存在着交互过程中的安全风险以及无法保证隐私安全的隐患。另外,实际情况下,数据源往往分布于企业和个人,相互独立,形成了一个个阻碍技术发展的“数据孤岛”。
为了解决上述问题,满足隐私保护和信息安全的联邦学习技术应运而生。
1. 联邦学习的概念
联邦学习是一种新兴的人工智能技术,在保护数据隐私安全的同时,提供解决“数据孤岛问题”的方案。如图2-9所示,联邦学习提供了跨企业的数据使用方式和模型构建蓝图,适用于B2B和B2C等业务,可被广泛应用于各个领域,实现让各个企业的自有数据不出本地,只通过加密机制进行参数交换,在保护数据隐私安全、合法合规的前提下,联合优化机器学习模型,达成机器学习模型效果的强化,将人工智能的重点从以人工智能基础算法为中心转移到以保障安全隐私的大数据架构为中心。
2. 联邦学习的发展
(1)联邦学习的框架和标准化制定
目前,联邦学习的国际标准化工作正在进行。2019年6月15日,IEEE联邦学习基础架构与应用标准工作组的第二次会议在美国洛杉矶召开。会上,13家来自科技、金融、教育、医疗等不同行业的知名研究机构及企业,从多角度探讨联邦学习技术的应用案例,对联邦学习标准草案的制定提出建设性意见。2020年3月,联邦学习IEEE标准草案撰写完成并且通过标准工作组表决,该标准预计在两年内推出,将为立法和监管提供更多技术依据。
(2)联邦学习与物联网的融合
由于竞争关系、数据安全等因素,物联网(Internet of Things,IoT)节点之间存在阻碍数据流通的壁垒,形成了一座座“数据孤岛”。物联网生态环境中,联邦学习可以用于人工智能模型的分散训练,助力物联网透过多个节点小数据联合建立应用模型。目前国内多家企业正在致力于研发物联网设备的联邦学习解决方案。例如,微众银行与极视角联合推出的应用于城市管理的联邦视觉项目,极好地实现了联邦学习与物联网的融合。传统城市管理项目存在诸多问题,如数据分散、标签数量少、集中管理成本高、数据隐私保护严格、模型更新反馈延迟等。联邦视觉项目通过将联邦学习与物联网的融合,解决了一些问题,实现了模型效果的提升。
(3)对多方安全计算的积极探索
在数据隐私保护的研究应用方面,基于多方安全计算技术,腾讯开展AI创新实践,推出“腾讯云数盾”。数盾以数据安全治理为核心,构建了可用于外部攻击防护、数据交换保护、内部防泄露等全流程的数据安全保护方案,用于帮助企业进行数据安全建设。数盾通过使用匿名化、差分隐私、安全多方计算架构等方式,在数据使用安全的基础上,平衡隐私保护与数据挖掘价值,满足数据在共享环境中合规使用的需求。
蚂蚁金服于2017年开始研究共享学习技术,研发共享智能平台,主要思想与联邦学习相同,即基于数据安全和隐私保护,在多个参与方之间通过共享加密数据或加密机制下的参数交换与优化,进行机器学习。作为虚拟的共享模型的产品平台,蚂蚁金服共享学习平台本着数据共享建模方案不泄露用户隐私且保护数据安全的原则,实现了数据的多方协同和授权共享,得到更准确高效的模型和决策,进一步释放数据价值。
3. 联邦学习的分类
(1)根据联合方式
联合方式上,可以将联邦学习分为单方和多方两种方式。单方联邦学习是指对一个实体进行分布式内容抓取和系统管理。模型以联合方式训练在所有客户端设备中具有相同结构的数据。大多数情况下,每个数据点对于设备或用户是唯一的。例如,应用程序可以通过单方联邦学习技术为个人用户建立个性化音乐推荐引擎。多方联邦学习则需要两个或多个组织或特许经营商组成联盟,在其各自的数据集上训练共享模型。例如,多家银行可以培训一种通用的、强大的欺诈检测模型,而无须相互分享敏感的客户数据。
(2)根据用户和用户特征结构
各参与方的数据结构和参数通常相似但不必相同,根据不同的数据特征分布形式,如同数据库原理中的数据特征分布状态,联邦学习又分为3种不同的处理方式:横向、纵向和迁移。各参与方的数据集具有高度重叠的特征维度,样本重叠较小时,使用的方法称为横向联邦学习(又称同构联邦学习);各参与方的数据集具有高度重叠的样本维度,特征维度重叠较小时,使用的方法称为纵向联邦学习(又称异构联邦学习)。如果各参与方的数据集在样本和特征维度上都没有足够的重叠,就则使用联邦迁移学习。
4. 联邦学习的未来
对想要进行联合机器学习的各参与方,联邦学习具有保护隐私和多方本地数据安全的极大优势。避免集中式存储数据,安全合规地从多源不互通的数据中创造新价值,充分利用各方数据资源,优化机器学习训练结果,学习参与方可以在联合形成协同合作的联邦大数据环境中,形成联邦学习生态。联邦学习生态可以视为一个由多种数据来源合作产生、基于联邦学习原理协同规范、用于联邦学习过程的无共享多方数据集群环境。用户、方案提供商、服务商、运营商以及生态链上游厂商融入一个大环境中,提供优化服务,真正达到联邦学习的资源融合作用,对金融、互联网、通信、零售、交通运输、工业生产等行业提供计算服务支持。我们可以从以下4个方面探索联邦学习的未来。
(1)丰富的数据资源是联邦学习最大的金矿
原本分散在各个企业中的数据,随着联邦学习生态的达成,可以发挥自身作用,也拥有了更好的用武之地。例如,在精准营销方面,通过机器学习建模,把顾客群体细分,对每个群体“量体裁衣”,采取相应对策。整合各方有用资源,构造更好的机器学习效果,以此产生利益价值。利用“联邦学习+人工智能”真正赋能大数据并反哺个人和企业业务,用数据和科学提升业务效益。
(2)打破传统企业、机构的数据边界
改变过去商务智能和政府仅依靠机构内部数据的局面,协同各企业、机构,达成优化合作,降低彼此间的交易摩擦成本和数据风险,提升机器学习的准确性和更新的及时性,在智慧城市、智慧医疗、智慧金融、企业数据联盟等方面提出新的使用方向。
(3)了解市场,发现用户需求
更了解市场,发现用户需求并将联邦学习产业应用落地。从市场业务中挖掘数据使用场景,找出联邦学习在市场环境中的使用场景及应用范围,结合目前个人和机构的使用需求,利用联邦学习环境,提供丰富的资源,强化机器学习效果,辅助加速各产业智能化。
(4)行业联手,共建全行业的联邦学习生态
联邦学习的出现已经开始改变大数据在各行各业的应用方式,联邦大数据生态的构建离不开学界和工业界的共同探索和推动。使用联邦学习技术的各方应当携手,联合制定数据联邦行业规范,促成多方联邦数据协议,达成标准化、协同化、规范化的联邦学习环境,共建全行业的联邦学习生态。
在信息流通日益渗透到企业和个人的今天,联邦学习将逐渐成为金融、保险、投资、医疗等众多行业实现商业价值和隐私安全保护的最佳途径,其应用将在各行业全面展开,联邦学习的新纪元已经到来。