1 大数据现象的本质
大数据源起:先知的诱惑
大数据(Big Data)时代,我们周围充斥着各种不同的信息、理论、观点,还有“噪声”。软件在加速吞噬物理世界,数字化、信息化、网络化之后正在走向虚拟化、智能化,我们所生活的世界,就像一片信息混沌(Information Chaos)。大数据一直在爆炸式增长,并以惊人的速度进行传播,前沿信息技术高速发展所带来的冲击加大了未来的不确定性。不管是线上还是线下,当我们接收的数据和信息越来越多时,面临的选择就越多,如若不善于过滤、挖掘和分析,进行各种决策时就可能会造成负面影响,从而放大我们对未来不确定性的焦虑。小到个人选择,大到国家决策,都在这样一片混沌中煎熬着。如何从信息混沌中发现有价值的规律,成为预测未来的“先知”,抑或是少出几只“黑天鹅”。这是历代人类的梦想,不管是古人的占卜、算命,还是前些年的专家系统、数据挖掘、商业智能,还是当下的机器学习、人工智能、深度学习等技术和应用,都源于我们对未来不确定性的担忧,当然还有应对庞杂信息管理时的失控状态。物理世界正在信息化、软件化,而大部分人对其原理和特性却知之甚少,就像我们的金融交易系统一样,一旦出现黑天鹅事件,系统越复杂,造成的冲击就越大,而机器学习、深度学习等黑箱算法应用正在加剧这一趋势。另外,高速网络和社交软件的实时性打破了数据生成和发布的时空限制,信息流动的速度和广度让传统管理与决策面临挑战。
随着舍恩伯格教授的《大数据时代:生活、工作与思维的大变革》一书的面世,让我们认识到了大数据的重要性。只要抓住大数据这根救命稻草,我们就有机会做“先知”吗?从而更有能力把自己和周遭的信息世界管理得更好吗?在一定程度上讲是这样的,但我们也要知道,任何技术都是把双刃剑,大数据的可预测性、大数据的迭代性本质和应用闭环特征,创造了一种新的认知范式和管理、决策思维。但数据分析模型的黑箱和操作的自动化,却削弱了我们对数据问题本身的理解和深度探索能力(在没有大数据工具的条件下),机器的量化分析、智能学习能力与人的主观决策判断在短时间内还难以有机融合。大数据应用为什么难以落地,虽然我们已经不缺模型算法、计算和数据资源,但还是缺乏提出正确问题和有效利用大数据分析工具解决问题的能力,就好比用大炮没有打到蚊子,我们不能说大炮没用,而会说这个人的方法搞错了。
案例分析《大数据时代:生活、工作与思维的大变革》提出的三大核心观点
《大数据时代:生活、工作与思维的大变革》一书提出了几个颠覆传统认知的核心观点:
一是不需要抽样的样本,而是要全体数据。比如传统的人口调查或产品品牌评价分析,多是基于小数据抽样的统计方法,因为当时条件下很难有获取大数据的渠道,而且如果要做全样本分析,则人力、物力的投入极其巨大。大数据时代,基于移动互联网、物联网、社交网络等技术,在一定程度上解决了全体数据源采集的问题,但也不能一概而论,很多情况下要获取全体数据是不现实的,需要抽样小数据进行辅助分析。
二是大数据并不精确,而是混杂的。这是相对于大数据的多源异构性特点来讲的,全体数据一定是来源于多个渠道的,数据格式多样化,再加上大规模的量级,大数据集中包含“噪声”、错误或偏差数据项都很正常,这就需要大数据处理技术能包容这一问题。基于大数据的简单模型预测往往比基于小数据的复杂模型预测更有效,这个观点首次由Google提出,深度学习的广泛应用验证了这一观点。
三是大数据分析要解决的关键问题不是因果关系,而是重在相关性分析。这个说法存在较大争议,理想的大数据技术不应该只解决相关性分析,还要能解决因果的推理,只是相关性分析相对更容易实现。
上述观点的提出可以说是对统计学时代的传统分析方法提出了质疑,大数据时代DT技术的变革,其核心理论基础多是基于上述几点。
从《琅琊榜》看大数据本质
从前些年的物联网、云计算到现在的大数据和人工智能,为什么这些信息技术能够兴起并备受各方关注?大数据现象的本质是什么?怎么认识和理解大数据智能?笔者不想再向大家啰唆4V还是5V,而是来谈谈一部武侠剧《琅琊榜》。为什么叫《琅琊榜》,因为有一个高端神秘的大数据公司——琅琊阁,每年都会发布武林高手排行榜,并为各方提供及时的情报服务。
要理解大数据技术,我们可以分析一下琅琊阁的这些榜单到底是怎么排出来的,为什么琅琊阁的情报服务让皇家也趋之若鹜。我们都知道,现代的各种排行榜,都是以海量数据作为基础进行深度分析的。影片开头青山绿水之间的琅琊阁地宫就是座海量“大数据中心”(分布式存储,见图1-1),江左盟广布天下的分站和盟员就是数据采集端(手机APP、网站、传感器等设备终端),而飞鸽传书就是古时候的高速信息传输通道(物联网、移动互联网),当然琅琊阁还有帮隐秘的数据科学家(负责数据挖掘分析和智能预测建模),所以才能成就广为人知的麒麟之才——梅长苏,“麒麟才子,得之可得天下”的关键不在于梅长苏个人,而在于他背后的神秘大数据公司琅琊阁。
图1-1 琅琊阁的“大数据中心”
不管是书家笔下的军师诸葛亮、刘伯温,还是抗战轶事中的林彪将军,都是善于收集和分析情报的数据科学家。只要掌握足够的数据和信息,就能对事物的本质,对时局和对手有深入的认识,足不出户而知天下事。大数据时代更是这样,我们每个人的一切都在加速数字化,吃穿住行用,甚至我们的身体和思想本身在各大IT巨头的数据中心里都能找到对应的数字副本,只要能集中分析这些大数据,就能从多个层面解码任何一个人。在万物互联和数字化、网络化的世界,控制了信息流就控制了一切,而不仅仅只是获得商业垄断优势,从广义上讲,大数据崇拜的本质是希望获取更多的信息权,毕竟,掌握信息权和做“先知”的诱惑太大。当然,除了数据,还有对人事的把握、对时机的掌控等,这一系列大数据智能技术之外的因素也很重要,否则关键数据的缺失就会让分析结果“差之毫厘,谬以千里”。从《琅琊榜》看大数据,历史就是大数据,观历史可预知未来,有人先知先觉,有人后知后觉,有人不知不觉,关键取决于对大数据智能技术的应用和把握!
案例分析 关于4V和5V的争论
IBM提出了大数据的5V特性:高速性(Velocity)、多样化(Variety)、大体量(Volume)、价值性(Value)、准确性(Veracity)。这几个V的阐述其实有不准确的地方,不同领域不同数据类型的大数据,很难说都符合上述特征。比如大数据的Value,有些大数据的价值密度高,也有一些价值密度低(比如做欺诈检测,正负样本严重不平衡,有价值的欺诈样本更是少之又少,这类应用对大数据的分析模型提出了较高要求)的大数据集。同样,大数据的Velocity,有些数据分析应用(比如Hadoop的Mapreduce离线批处理框架,在非实时应用的场景下,计算处理多放在系统资源空闲时运行,尽量不与在线服务的资源需求相冲突)的处理速度可能比较慢,时效性要求并不高。