隐私保护机器学习
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

本书讲述的是如何应用隐私保护技术来解决机器学习中的隐私问题。我们常常可以听到,如今这个时代是“大数据”的时代,而“大数据”正是人工智能、机器学习得以茁壮成长的原料。但是,我们又常常面对这样一个现实:数据是分散的、碎片化的,它们分散在用户的各个终端,如手机、平板电脑等。传统的方法是将这些数据集中到一个中心服务器,然后在该服务器上进行集中式训练。然而,这样的方法会引起严重的隐私泄露问题,引发用户对个人隐私被侵犯的担忧。随着各国相继出台隐私保护的相关法律法规,这样的做法也越发变得不可行。

为了保护隐私的安全,越来越多的隐私保护机器学习方法正在被提出,也有很多隐私保护机器学习系统在工业界落地,如谷歌的联邦学习、蚂蚁集团的Hess-XGB等。这些方案在某些特定的领域中能够解决相应的隐私保护问题,但也面临着很多挑战。例如,基于密码学的隐私保护方法,通常可以在不怎么牺牲正确性的情况下,达到隐私保护的效果,但常常面临严重的效率问题;基于扰动、加噪的方法,可能需要在准确性和隐私性之间取得平衡;基于可信执行环境的方法,有着高效率的优点,但需要所有用户都信任TEE的可信根,从而制约了其使用场景。

在这样的背景下,本书将详细介绍隐私保护机器学习的原理、方法和应用。本书的第1章是引言部分,介绍了人工智能的发展历程、相关背景。第2~4章是机器学习和隐私保护技术相关基础知识的介绍,以及对隐私保护机器学习所面对的场景的定义。第5~12章则是隐私保护机器学习的具体应用,我们将讲述隐私求交技术、安全多方计算平台,以及如何将隐私保护技术应用于线性模型、树模型和神经网络,还会介绍推荐系统、可信执行环境和MPC编译优化方法。第13章是全书的总结和展望。

处于这个时代的算法工程师和科研人员,见证着机器学习带来的最深刻、最迅猛的变革,也面临着人工智能带来的种种问题和担忧。希望本书能为对该领域感兴趣的读者提供相关知识的概述,也能帮助相关领域的从业人员构建隐私保护机器学习的框架。

本书特色

本书所涵盖的范围很广,基本包括了隐私保护机器学习的各个方面,可以为读者提供一个全面的概览。在内容深度方面,本书不仅仅是一本“概况书”。自然,书中会包含隐私保护机器学习的概况,但是在每一章里,都会深入讲解技术原理,可以作为高等院校相关专业的本科生、研究生的学习参考资料。在新颖度方面,笔者在写作每一个章节时都查阅了相关领域的最新进展,希望能将最新的研究成果呈现给读者。

本书读者

(1)工业界的相关从业者。本书涵盖了隐私保护机器学习的方方面面,希望可以给从业者提供一个了解相关技术的途径,进而在工作中选择合适的方案,扬长避短,不断改进技术点。

(2)有一定计算机基础,该领域的爱好者、高等院校的学生。本书在保证深度的同时,用尽量易于理解的方式讲解原理,可以作为本科生、研究生的参考资料。

欢迎交流

机器学习的发展日新月异,而我知识有限,难免有疏漏之处。欢迎读者将阅读时发现的问题反馈给我,或者与我讨论相关技术。

致谢

本书的写作并不轻松,由于时间仓促,在写作过程中几乎挤出了所有时间查阅相关文献、梳理技术框架、构思写作顺序,希望能以尽量通俗易懂的语言将相关内容呈现给读者。限于时间紧迫和本人的知识水平有限,书中的疏漏不当之处恳请各位读者批评指正。

在此,感谢参与编写人员:陈超超、方文静、季珂宇、卢天培、卢益彪、栾明学、王磊、王力、王志高、徐又任、殷泽原、余超凡、袁鹏程、张秉晟、张心语、张兴盟、周爱辉、周俊、周哲磊。

著者
2021年3月