1.1.1 联邦学习的背景与发展
近年来兴起的人工智能浪潮对医疗、金融、教育等领域产生了深远的影响。从人脸识别到自动驾驶,再到已被普遍应用的精准营销,人工智能正逐步影响生活的方方面面。回顾人工智能的发展,我们可以看到探索的道路曲折起伏。20世纪六七十年代,由于当时科技条件的约束,人工智能的发展走入低谷;20世纪90年代,互联网技术的发展,加速了人工智能的创新研究。可以说每一次人工智能的发展都伴随着研究方法的突破,深度学习是近年来机器学习技术突破的重要代表之一。近年来,随着GPU、数据存储等硬件技术的发展,移动端、传感器等边缘设备为深度学习提供了海量的数据,这些都促进了大数据、云计算、互联网、物联网等技术的突破。
在大数据时代,由于缺少监管和完善的法律约束,在商业利益的驱动下,很容易出现对用户数据滥用的情况,一些隐私数据有意或者无意地被泄露,进而对用户乃至整个国家安全造成难以估量的危害。比如著名的“脸书剑桥分析公司丑闻”(Facebook-Cambridge Analytica Data Scandal),英国咨询公司剑桥分析在未经用户同意的情况下,获取数百万脸书用户的个人数据并用于广告业务。出于对个人隐私数据的安全考虑,不少国家和地区颁布了隐私和数据保护的条例和法规。这些法规的出台,明确了隐私保护的责任和义务,对个人隐私数据的保护起到一定的作用。除了法律条文的规定,技术层面的研究也随之兴起。联邦学习是为了解决数据孤岛问题而产生的,它支持在满足用户隐私保护、数据安全、数据保密和政府法规要求的前提下的联合机器学习模型。
联邦学习最早由谷歌兴趣小组提出,他们首次将联邦学习用于智能手机上的语言预测模型更新[1]。许多智能手机都存有私人数据,为了更新谷歌Gboard系统的输入预测模型,即谷歌的自动输入补全键盘系统,研究人员开发了一个联邦学习系统,以便定期更新智能手机上的语言模型。谷歌的Gboard系统用户能够得到建议输入查询,以及用户是否点击了建议输入的词。谷歌的Gboard系统单词预测模型可以不断改善、优化,不仅基于单部智能手机存储的数据,而且通过一种叫作联邦平均(Federated Averaging, FedAvg)的技术[2],让所有智能手机的数据都能被利用,使该模型得以不断优化。而这一过程并不需要将智能手机上的数据传输到某个数据中心。也就是说,联邦平均并不需要将数据从任何边缘终端设备传输到一个中央服务器。通过联邦学习,每台移动设备(可以是智能手机或者平板计算机)上的模型将会被加密并上传到云端。最终,所有加密的模型会被聚合到一个加密的全局模型中,因此云端的服务器也不能获知每台设备的数据或者模型。在云端聚合后的模型仍然是加密的(例如,使用同态加密),之后会被下载到所有的移动终端设备上。在上述过程中,用户在每台设备上的个人数据并不会传给其他用户,也不会上传至云端。