1.3 数据无处不在又无处所在
数据产生的源头是人类的活动,随着人类活动的在线化,全球互联网体量已经非常庞大。据IDC统计,早在2019年,全球网络数据体量就已达到4.4泽字节,预计2025年将进一步膨胀到175泽字节,增长近40倍。举个相对具体的例子,用标准的DVD来存储175泽字节数据,把这些DVD叠起来,可以绕地球222圈;用现在的平均网速来下载,要18亿年才能下载完。
数据大爆炸所带来的有效信息并没有随着数据总量的上升而持续提升,仅电子邮件这一方面,根据电子邮件服务标记监测的统计数据,全球每天平均产生145亿封垃圾邮件,占邮件总收发量的45%~75%,而这其中又有约73%的垃圾邮件是冒用身份的“钓鱼”邮件。也就是说,每天通过电子邮件,就产生105亿次假冒身份的欺诈尝试,更不用说比电子邮件的交互频率更高的QQ、微信、WhatsApp等。据我国公安部发布的数据,仅2020年就破获案件32.2万起,累计挽回损失1876亿元。这是我国公安机关全力加强电信诈骗预警的巨大投入之下的成果。互联网犯罪是全球性难题。2020年,据美国联邦调查局互联网犯罪报告统计,2020年美国网络犯罪造成的损失高达41亿美元,共有案件79万起,较2019年增加69%,通过资金冻结仅成功追回损失3.8亿美元。可见,在新冠肺炎疫情(下文简称“疫情”)的影响下,当今的互联网面临个人数据安全、数据隐私、数字化财产安全等挑战。而如何从源头重构数字世界的规则,构建新的数字世界秩序,让失序的互联网回归可治理甚至自治理的良好环境,成为如今技术发展的新课题。
追本溯源,问题的根源可能是当前的信息互联网源于1969年的军用局域网ARPAnet。在冷战期间,美国为了防止核攻击下指令失灵,需要一个多点分布的通信网络,于是ARPAnet诞生了。
从最早的连接4个节点,到后来连接100多个节点,并最终引出了当今互联网的核心协议TCP/IP协议。可以看出,互联网的雏形诞生于一个去中心化的诉求,能够防止在遭受核攻击时军事指令瘫痪。但随着技术的发展,美国在计算机与互联网发展早期具有明显优势,形成了中心化的信息互联网组成形式。
信息互联网中有个叫作DNS(Domain Name System)的系统,它就像是现实世界中的地址系统,管理着成千上万的线上服务的地址。当你要访问一个网站时,需要知道其“住址”,也就是信息互联网中的IP地址。这个“住址”被分成国家、省份或州、城市、区、街道、幢、单元,只有完整记下来,你才能按图索骥找到对的网站进行访问。当前的互联网协议中,国家的信息、身份的信息、城市的信息都是由各级域名服务器管理的。如图1-4所示,为了访问一个网站,至少需要8个步骤。这8个步骤需要向各级域名服务器进行请求,而在过去的很长一段时间里,其中所不可绕过的根域名服务器、顶级域名服务器全部都在西方国家且大多都在美国。
图1-4 8个步骤
也就是说,在过去,一旦美国针对某个根域名停止服务,一个片区的服务器都将无法被外部访问。早在2004年利比亚的顶级域名.ly就被屏蔽了。而在伊拉克战争期间,伊拉克的顶级域名.iq也被删除过。事实上,直到2016年,美国政府才在理论上解除了对互联网的行政控制权,将互联网管理交接给了非营利性组织——ICANN。不过这个组织几乎被永久固定在美国加利福尼亚州,受到加利福尼亚州和美国的法律管辖。这也是我国在升级到新的IPv6的过程中极力争取将顶级根域名服务器部署在国内的原因。当然,移动互联网的兴起也让我们不再依赖域名解析,我们使用互联网的习惯已经逐渐由打开浏览器输入网址,变成了打开App浏览内容,而这个过程完全可以直接通过App内设的IP地址进行访问,从而绕开域名解析的步骤,如图1-5所示。
图1-5 信息中心网络
然而,除了DNS管理中心化的问题,从上述的访问过程不难看出,当前信息互联的整个通信机制是面向服务器之间的,而并非基于信息或基于数据进行标识,这也就造成了当前的信息互联网仅能确保连接而不能保证质量,因为整个信息互联网的协议只对是否成功连接负责。从显性角度来看,我们现在虽然已经能够通过蓝牙、AirDrop、HUAWEI share进行照片、视频、文件等面对面快速传递,却没有办法即时地针对任何设备进行点对点的交易与结算,缺乏面向所有设备的通用标识系统。所有互联网设备之间的相互访问,仍然需要基于服务器一层一层地通过IP地址进行访问,我们所体验到的秒级支付体验,也都是在一个闭环服务体系当中才能够实现的,如银联、支付宝、微信用户之间,并非面向任何对象、任何设备,使用蓝牙之前需要配对也是类似的道理。
当然,不允许所有设备点对点交易的另一个原因是,在信息互联网设计之初,我们访问各类网站所使用的超文本传输协议(HTTP),在传输信息的过程中均使用明文。也就是说,你在访问这些使用HTTP的网站时,所有的通信都可以被中间人截获,在这种情况下自然不会有人敢随意发起有价值的交易,因此信息互联网上一般不会留下特别具有价值的信息(见图1-6)。
图1-6 使用HTTP时的情景
即使如今大规模普及了HTTPS(见图1-7)并实现了加密通信,通过假Wi-Fi认证页面和钓鱼页面进行账号密码盗取的现象仍然比比皆是。在如此的设计背景下,每一次互联网的交互背后都是无数服务器之间的连接,反倒比起设备之间的直连更有效率、也更安全,但这些连接并不具备清晰的路径和痕迹,被访问服务器的管理也并不透明。因此当前的互联网中存在着大量无序且无规则的信息,或是杂乱、难以被管理也难以被使用,或是被有心操纵、窃听、删改,导致失真。当各类可连线设备的数量达到了百亿级时,我们会发现,现在基于服务器通信的互联网,似乎正在成为自身发展过程中的绊脚石。
图1-7 使用HTTPS时的情景