自己动手做大数据系统(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一部分 大数据概述

第1章 大数据的时代背景及应用落地

1.1 大数据与“云大物区智”的关联

在你看到本书之前可能对大数据也有一些了解,但你是否认真地思考过大数据与你真正有什么关系,能给你带来什么益处?

如果你生活在10 000年前,就不需要了解大数据。你只需要借助石木工具等来狩猎、取火,就可以在原始社会中生存。

如果你生活在1000年前,那么,只靠石木工具就满足不了当时的环境,冶金工具的应用才能提高你在农业社会中的生存能力。

如果你生活在100年前,那么,只有掌握电和机械工具的应用,才能提高自己在工业社会中的生存能力。

现实是你生活在智能社会的今天,驱动社会进步发展的核心能力之一是对信息的聚合加工应用能力,而大数据技术就是对信息聚合加工应用的一套方法论和技术组件。

我们可以将信息理解为现实中出现的人、事物在人脑中的映像,而人脑的记忆及计算能力和计算机比起来会差百万倍,所以我们需要把信息用计算机来存储计算。用计算机来存储的信息被称为数据。大千世界中的数据类型多样,因而也造成了计算机中存在各种数据类型。这里既有文档、图片,也有音频、视频(数据类型多样,Variety)。我们既需要处理KB级别的文档,也需要处理TB、PB级别的视频等海量数据文件(数据量大,Volume)。而这些数据都需要是现实信息的原始记录(数据的真实性,Veracity),需要从分散在各地的环境中集成海量数据进行快速运算(数据处理速度,Velocity),以产出较高的商业价值(数据价值,Value)。以上数据特征及聚合处理产生价值的5个关键词,即数据类型多样(Variety)、数据量大(Volume)、数据的真实性(Veracity)、数据处理速度(Velocity)、数据价值(Value)被统称为大数据的5V特征。

在数据平台架构设计方案中,大数据的5V特征依次体现在数据层、处理层和服务层,如图1-1所示。

图1-1 数据平台架构设计方案和5V特征

云计算可以被理解为资源跨越时间和空间的高效传输服务。通过云计算可以将存储计算网络资源实现集成和按需使用。

物联网可以被理解为现实空间所有物体的数字化、信息化。通过物联网,可以将我们所接触的实体信息使用网络传输的方式采集、存储到云端。

区块链可以被理解为将物体间的可追踪关系数字化。通过区块链的分布式技术和加密算法可以实现低成本的信任解决方案,从而构建出产品价值权责利可以高效分配的机制。

人工智能可以被理解为具体业务产能。人工智能通过大数据、物联网、云计算的技术来获取海量的数据及机器算法应用,以产生更高效的生产能力。

图1-2描述了云计算、大数据、物联网、区块链和人工智能(简称“云大物区智”)5个概念在数据应用领域内的相互关系。

图1-2 “云大物区智”之间的相互关系