大话数据科学:大数据与机器学习实战(基于R语言)
上QQ阅读APP看书,第一时间看更新

2.1 大数据进位

大数据5V的第一个V是巨大海量,估计到2020年数据的总量为40 ZB字节,这是多少?

《孙子算经》是中国南北朝的数术著作,成书在四五世纪,也就是约一千五百年前。中国的算数是以“万”(104)为进位单位,万万为亿,万亿为兆,万兆为京;英文的数值是以“千”(103)为进位单位,千为 K,1000K为M,1000M为G,一万是10K,一亿是100M。中国进位单位到“载”(1044),万载到了尽头,已经是天文数字。

表2-1 中国和英文的算术进位

现在通常只用到“兆”(1012)这个单位,不知道再过多久,“京”(1016)或P(1015)会成为常用的单位。

微软公司的比尔·盖茨在1981年说:640K对任何人来说都应该足够了,而现在个人存储已经都用TB为单位。

摩尔定律说:当价格不变时,集成电路上可容纳的元器件的数目,每隔18~24个月便会增加一倍,性能也将提升一倍,换算为成本,即每隔一年半成本可降低一半。这种趋势已经持续了50多年,虽然摩尔定律已经被宣告趋缓或结束,但信息技术前进的步伐并不会变慢。

人类数据的成长是每年几十倍。大数据和人工智能也就是在这个趋势下成长起来。

这二十年来,人类文明的进步,除了信息科技,还有开放共享,例如R语言,这也是本章和本书的重点。