隐私保护机器学习
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

序言2

随着计算机技术的高速发展,当今社会已经开始逐渐从信息时代向智能时代迈进。在信息时代,整个世界上的行为和活动被数字化,人们通过各种计算机应用,能够越来越方便地使用数字化的信息,获得知识,享受娱乐。但是,在信息时代,数据主要是为人服务的,随着信息化的深入,人们对四面八方涌来的数字信息应接不暇,这就造成了所谓的“信息爆炸”。为了解决这一问题,以机器学习和人工智能作为基础技术的智能时代渐渐拉开了帷幕。

在智能时代,大部分的数据是为算法服务的。机器学习和数据分析算法自动处理大量的数据,从中获得洞见和知识,指导人们的行为,帮助人们决策。而在这个过程中又会产生更多的数据,可以被用来提高算法的性能,形成一个正向反馈。数据作为智能时代最重要的生产要素,能够在这个过程中产生巨大价值,推动整个社会的进步。

但是,如何用好数据,让数据创造最大价值,是一个非常复杂的课题。从经济学角度上来讲,与传统生产要素(如土地)不同,数据具有非排他性。数据可以被非常容易地复制多份,每一份都和原来的内容一模一样,这就容易造成资产的流失。同时,为了保护个人隐私,国内外很多法律法规对数据,特别是与个人隐私相关的数据的传播和流通做了很多限制。这些特性使得很多敏感数据(如公司的财务数据)及和个人相关的数据(如个人的消费数据)非常难以被使用起来,而恰恰是这些类型的数据往往具有非常高的价值。一个典型的例子是在医疗领域,近年来通过医疗信息化,医院和卫生机构积累了大量的诊疗数据。如果能够在保护数据安全和个人隐私的前提下使用这些诊疗数据,训练机器学习模型,辅助医生提高治疗效率和治疗效果,会具有极大的社会效益和经济价值。另外,在金融、保险、政务、营销等各个领域,类似的例子也比比皆是。可以毫不夸张地说,在智能时代,谁能够用好数据,能够在保护数据安全和个人隐私的前提下从数据中获得最大价值,谁就能够在竞争中获得优势,在市场上获得最大回报。

正是在这样一个背景下,这本系统性介绍隐私保护与机器学习的专著应运而生。隐私计算是数种基于严格的信任假设下对原始数据实现安全和隐私保护下的计算与处理的计算机技术的统称。本书系统介绍了隐私计算的基本理论,以及这些技术在机器学习中的应用。隐私计算作为一个新兴的技术领域,在国内还没有太多相关的书籍,本书是一本这个领域难得的参考文献。本书的作者都是在隐私计算研究和应用方面具有丰富经验的专家学者,并在多年商业化实际落地应用中验证了各种算法的有效性。相信本书对推动隐私计算技术和隐私保护下的机器学习会产生非常积极的推动作用。

张霖涛
翼方健数首席科学家