量化投资与Python语言(21世纪经济管理精品教材)
上QQ阅读APP看书,第一时间看更新

第2章 大数据

2.1 大数据的定义

如果有人问你到底什么是大数据,可能你也不一定很容易解释清楚吧,我的意思是至少让对方觉得你很专业。至少我们不能说就是大的数据,或者说我用Excel操作了几十万的数据,也觉得是做的大数据。

这里我们仍然可以从分类的思想进行解释。

我们面对这个纷繁复杂,充满竞争的世界,需要一种收智商税的能力,那就是分类的能力。

想想中国古代,周易是一个很先进的分类方法,把这个客观世界进行了64种分类。《易传·系辞上传》:“易有太极,是生两仪,两仪生四象,四象生八卦。”我们可以看作是古人把信息做了一个分类,初步分成了8种。

关于一叶障目和一叶知秋。“一叶障目”相当于是用小样本分析近似推理,而真理可能存在于全样本的海量数据之中,借助大数据则可完全克服。“一叶知秋”其实就是反过来说的,小样本可以预测大数据。

接下来谈大数据,为什么我们现在才谈大数据呢?这要从两方面来看,一方面是计算机技术的发展,特别是存储技术和计算技术的发展,以前不能存储的数据现在可以存储了,现在的科学计算技术更多更深入了,运行、计算速度越来越快;另一方面是信息爆炸式增长。而这两方面就像DNA一样是螺旋式增长的,是相互促进、相互影响的。

这么来看大数据就很清晰了,为什么提大数据,大数据怎么定义就很清楚了。

维基百科中只有短短的一句话:“巨量资料(big data),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。”

维基百科的定义是从大数据的特征入手的。

我们还可以自己定义,比如按照大数据的功能进行定义:大数据是在多样的或者大量数据中,迅速获取信息的能力。