量化投资与Python语言(21世纪经济管理精品教材)
上QQ阅读APP看书,第一时间看更新

2.3 大数据的特征

业界通常用4个V(即volume、variety、value、velocity)来概括大数据的特征。这四个特征其实主要也是从大数据本身的特点来进行分类或者解释的。

一是数据体量巨大(volume)。截至目前,人类生产的所有印刷材料的数据量都是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。

二是数据类型繁多(variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高的要求。

三是价值密度低(value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

四是处理速度快(velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

除了上述主流的定义外,我们还可以用3S或者3I描述大数据的特征。

3S指的是:大小(size)、速度(speed)和结构(structure)。

3I指的是:

(1)定义不明确(il-l definite)。多个主流的大数据定义都强调了数据规模需要超过传统方法处理数据的规模,而随着技术的进步,数据分析的效率不断提高,符合大数据定义的数据规模也会相应不断变大,因而并没有一个明确的标准。

(2)令人生畏(intimidating)。从管理大数据到使用正确的工具获取它的价值,利用大数据的过程中充满了各种挑战。

(3)即时(immediate)。数据的价值会随着时间快速衰减,因此为了保证大数据的可控性,需要缩短数据搜集到获得数据洞察之间的时间,使得大数据成为真正的即时大数据,这意味着能尽快地分析数据对获得竞争优势至关重要。