01 大数据,为什么很多人只会谈,不会做
众说《决战大数据》
林奕彰 eBay 大中华区CEO
我跟品觉相识多年。在大数据还没流行以前,他就开始关注这个趋势,研究数据应用的意义以及怎样真正读懂数据和利用数据。这本书深入浅出,把深奥的大数据讲得生动有趣,非常好读;书里面集中了很多品觉个人的真知灼见,非常值得一读。读此书是一种享受,正如我享受与品觉的友谊一样。
有人说,大数据就像国王的新衣,每个人都在国王面前说着动听的话,国王信以为真,其实竟然不知道自己在裸奔。
的确,网络上有很多人在谈大数据,但是他们只会谈,不会做,因为他们根本就没有做过,包括那些所谓的“大数据专家”,他们真的做过吗?没有。
事实上,这些人对大数据内在的问题一点儿都不了解,更别说知道大数据的水有多深了。
目前,在大数据方面,无法深入应用的原因在于,从收集到使用的大数据价值链出现了问题。从理论上来说,从收到用的螺旋式循环是一个巨大的涡轮,只有先数据化运营,然后才能运营数据。而现在的情况是,用数据的人不知道大数据从哪里来,做数据的人不知道大数据如何使用。用的人不敢用,因为大数据的真实性;做的人不知道怎么用,因为大数据的复杂性。这一问题造成的结果就是,数据量变得越来越大,而且越来越无法有效地使用。
大数据从来不是免费的午餐
大数据从来不是免费的午餐。大数据的来源是多种渠道的,偏倚、随机的误差总是存在。
我先问一个数据管理上最现实的问题:“大数据如何备份?”毫不夸张地说,大数据已经这么庞大了,如果再备份一次,你的成本起码会增加一倍。
做大数据基本上都要从大量地收集数据开始,因为这些数据在未来会大有用处。但是,你是不可能无止境地收集下去的。在这里,你已经看到了一个再清晰不过的伪命题——大数据的确能够备份,但是成本会增加两三倍……然而,“以前重要的数据肯定都需要备份啊,”你自然会问,“如果不能备份,我该怎么办?”而这就是一个大数据管理中必然要遇到的问题。
我再问一个问题,如果你在数据使用方面一直得心应手,整个商业链条和数据紧密相关、相辅相成。但是,现在数据链忽然断了,或者不再有效了,你该怎么办?
你需要注意的是,这一问题说的不是你有没有使用好数据,而是说曾经你可以得到的数据现在无从获得了;或者说这些数据不能再在线上收集,只能从线下获取,成本也就相应升高了;抑或说,这些数据存储在其他地方,你不能使用了。在诸如此类的情况下,你该怎么办?
当然,如果你对于数据的使用本来就很生疏,而且也觉得无关紧要,那么数据链消失了、断了、失效了,你也不会有太大烦恼。但假如正是你将数据使用得风生水起的时候,如果出现这样的问题,那你也就只能束手无策,眼睁睁地看着机会溜走。
大数据从来不是免费的午餐。伴随着大数据热潮的到来,关于大数据的一些新问题层出不穷——大数据会夹杂着虚假信息;大数据的数据量很大,但有用的信息不一定多,甚至还会破坏核心信息;大数据的来源是多种渠道的,偏倚、随机的误差总是存在。
但是,我们也需要客观地认识到,大数据现在面临的这些问题,其实就是把小数据中的一些问题放大了。小数据中难道就没有噪音会破坏我们的核心信息吗?当然也有,只不过当大数据把数据量放大和变多的时候,噪音的破坏性也相应增大。小数据中难道就没有渠道偏倚和随机的问题吗?当然也有,但是在大数据的背景下,问题就被更明显地放大了。
人的断层
断层才是大数据所面临的最严重的问题。现在,收集数据的人并不清楚未来使用数据的人要做什么,这是目前大数据的一大关键命门。
说了这么多,事实上还没有触碰到如今大数据面临的最大问题:人。
很多人都会问,大数据能带来什么价值?怎么衡量大数据创造的价值?事实上,最直接的衡量标准就是,在经营上它为你赚了多少钱,带来了多少实际的利润提升。
对于这一问题的解决,现在很多人最倾向使用的方法是计算“在用了大数据之后,点击率提高了多少,转化率提高了多少”。但是要知道,转化率和点击率能提高的数据,可能根本不是投资人或者公司最高管理者对大数据的期望。对于业务人员来说,转化率能提升5个百分点就已经非常好了,如果将转化率从2%提高到3%,简直就是奇迹了,但对于公司最高管理者来说,也许这并不是他想要的大数据。
你需要认识到,断层才是大数据所面临的最严重的问题。现在,收集数据的人并不清楚未来使用数据的人要做什么,这是目前大数据的一大关键命门。
在使用大数据时,我们通常的做法是先把数据收集起来,因为我们知道在未来的某一时刻,这些数据对我们可能有用。不过,“未来可能有用”就注定会引发一个问题——收集数据的人不知道未来使用数据的人要做什么。这时候,如果你再问收集数据的人“如何才能更好地收集数据”,那么,数据的使用就会陷入一个死循环。
事实上,不仅是收集数据的人,就连使用数据建模的人,同样也不清楚当前的数据是如何获得的。数据建模是数据使用的关键环节,使用数据建模,就是根据以往的经验,从中寻找到一些潜在的规则,然后把这些规则结合起来去解决问题。
举个例子来说,我现在身上只有10元钱,我可以用它买一本杂志,也可以用它坐几次公交车,或者可以用它来买方便面充饥,这三种选择在一般情况下都是可行的。但是,如果再加上一个“我没有吃早餐”的场景时,在以上三种可能性中,我选择去吃方便面的概率自然会比较大。这其实就是一个简单的模型——输入“拥有10元钱”和“没有吃早餐,肚子饿”这两个场景,输出“买方便面”这个结论,它帮助我们快速地选择了一条解决之路。
选择“吃方便面”的这个场景虽然看上去很简单,但同样是一个经验的总结,这个经验就是“肚子饿了要吃饭”。把建模这个过程说得更加复杂或者专业一点,就是基于很多以往的经验,进行总结,或者是对旧有数据使用规则的发现,将经验和数据相结合,最后输出一个可以被套用的业务规则。
不过,此时使用数据建模的人并不一定完全清楚数据是如何产生的,这是一个客观存在的难题。因为就大数据研究来讲,我们很多时候使用的都是他人的数据,而他人的数据你又怎么能够保证会完全清楚地知道呢?
现在,在运用大数据时流行一个例子,比如我在搜索引擎里发现某个地方搜索“感冒药”的频率非常高,于是,我就断定这个地方可能出现了流行性感冒。而这个数据源是从何而来的?我虽然知道很多人搜索了“感冒药”这一词语,但是却完全不知道在搜索引擎里搜索这个词语的人到底是谁。而提供数据的人既没有责任要告诉我数据是怎么来的,也不必告诉我数据的质量如何,更不必告诉我数据到底会不会有偏差。这样的结果推及到大数据领域就是,研究数据的人完全不清楚数据是怎么来的。
模型数据从何而来
创建模型的人也不知道自己所采用的数据在未来是否稳定,而使用模型的人也不知道整个数据的来路或加工过程。
当使用模型的人不知道模型数据从何而来时,其使用模型的角度就要发生改变,具体来说就是视场景而定。比如说,今天你要来杭州的淘宝城,有人告诉你“今天你应该从文一西路过来”。你问原因,他回答说:“因为模型是这样提供路线的。”他不会跟你解释,就说模型是这样的,因为下午2点钟到4点钟,从文一西路过来比较快。这个例子就是模型使用的一个场景,选择文一路则是模型的一个输出。那么,你要不要走其他的路?走文二路或者文三路?可是,这种选择的结果就是未知的了。
模型对于很多人来说是一个黑盒子,充满神秘性和未知性。所以,即便是模型创建者将模型公开,也会因为创建者和使用者专业能力和知识背景的不同,使二者之间出现信息不对称的情况,使用者自然也就不知道为什么会选用此种解决方法。也就是说,创建模型的人可能不知道此种模型效果好不好,而使用模型的人也不知道该怎么去反馈使用的结果。这样一来,这种信息不对称会越来越严重。
这一问题恰恰体现了如今大数据实践中非常严重的断层问题——不只是收集数据的人不知道将来的人怎么使用数据,就连创建模型的人也不知道自己所采用的数据在未来是否稳定,而使用模型的人也不知道整个数据的来路或加工过程,这些都是普遍存在且很现实的问题。
从公司管理层的角度来看,投资人了解数据的意义是什么吗?高层管理者对数据的期望和中层管理者之间又有什么不同?他们知道数据能帮助企业做什么吗?这些问题的答案完全会因立场而异。
中层管理者大都不知道数据能帮助他们做什么,他们没有管理者的视野,相比之下,你只需要告诉他们数据能解决什么问题即可。相反,数据分析师可能就会更加困惑不解:“我做了这么多东西,为什么你们不用?”
每个层级和功能部门都是一个断层,而且对数据价值的内在衡量都不一样。所以,当我们讲到数据价值时,没有人能对此给出一个合理的定位,原因就在于有几个关键问题没有区分清楚。一是要明确这是谁心里的数据价值,投资人、管理者、中层、数据分析师们心中对数据的价值自然不同;二是要明确数据的分类,不同类型的数据所产生的价值各不相同。为什么我们在大数据应用方面存在障碍,一个重要的原因在于,应用人员对于数据价值和数据分类没有明显的界定。对于这个话题的探讨,我们会在随后的章节中重点讲述。
更主动的管理,更多的创新
这是一个“从用数据到养数据”的过程;这是一个“从数据化运营到运营数据”的过程;这同样也是一个“从看到真用”的过程。
在当下的大数据环境里,数据其实与商业模式密不可分,每个人都认识到它的经济价值是巨大的,但今日的大数据发展趋势之快,对于很多公司来说,变得更加虚无缥缈,难以把控,让每个人抓狂,让每个人手足无措。
而在这一方面,阿里巴巴已经对数据化运营做了不少有益的尝试。从2005年开始,淘宝有了第一个数据分析师,并一直致力于一件事情,那就是用数据来帮助企业运营和解决问题。但在不断使用数据的同时,也发现了数据本身的问题——大数据需要更主动的管理,也需要更多的创新。
数据化运营就是用数据去解决问题,但是如果我们想把数据做得更好,解决更多新的问题,就需要去做一件以前未曾做过的新事情——运营数据。对于阿里巴巴来说,这件事情是从2011年才有计划地进行的,企业主动收集数据,并且以此去创造更优质的新数据,让新数据更好地服务于企业的运营。这是一个“从用数据到养数据”的过程;这是一个“从数据化运营到运营数据”的过程;这同样也是一个“从看到真用”的过程。
从数据化运营到运营数据是一个循环,今天的电商企业正走到了其中的一个节点上。在经历了起初大数据的喧嚣之后,大家终于感受到,要使大数据产生真正的商业价值,我们要关注的内容并非4个V那么简单,而应该将焦点放在如何真正让数据落地之上,即从数据化运营到商业管理能力的提升。
数据化思考 问题就是答案
大数据改变了人类学习、工作和生活的方式,更改变了人类的思维方式,而今天我所谈及的数据化思考正是在大数据的特色中产生的。
西方式的思考着重于系统性分析,因此对一件事情的理解过程,大都是利用数据来对之进行细分/归类、对比、溯源,以及从三者的动态趋势中去找出变化的规律。我们可以从以下几点中看出:
●P——目的,我们的目的是如何让自己更“好运”。
●I——定义,我们要定义什么是“好运”,例如可以细分为:财运、健康或者人缘。
●M——量化,如何量化“好运”?请参照前面的定义寻找可量化的目标:工资增长率、体检中某项指标的高低等。量化了之后,我们可以从趋势中预判出做什么可以更“好运”。
●A——评估,执行后,评估什么做对了、什么做错了。
可见,西方式思考中的溯源,就是从事物中找出因果关系,寻找能够有效地获得成功的驱动力;而东方式思考中的溯源则是从本质找出根源,例如,“好运”的本质可能在经过分析后会体现为“快乐”,但量化出来的结果却是“笑”。
然而,不管是东方,还是西方,要溯源,一切答案都得从问题开始。因此,良好的提问技巧能使我们在寻找答案的道路上事半功倍,好问题(Deep Question),可以使我们离答案更近一步。有一位知名CEO曾很得意地问了我老师一个问题:“你觉得到底是eBay的商业模式好,还是Amazon的商业模式好?”其言外之意是,今天Amazon比eBay做得好,是不是也就意味着它的商业模式比较好。我的老师并没有直接回答这位CEO的问题,而是反问了一个问题:“你的问题也许跟商业模式无关,产生这样的结果会不会只是因为Amazon的CEO比eBay的CEO做得好呢?”无须多言,问题就是答案。所以,对一件事情的认知,要看你是否具备了用问题解决问题的能力。
2011年的时候,我所在的公司要从数据化运营开始转向运营数据。当时,我负责支付宝的运营数据工作,却很是苦恼,毫无头绪。我没有任何思路,于是我打电话求助我的老师,咨询他对于这个问题我应该如何思考。
接下来发生的事情让我非常难忘,我的老师并没有直接回答我,而是问了我三个问题。
现在你所在的公司,面对的3大问题是什么?公司未来3个月中,要解决的问题是什么?在过去的1个月中,你做对了什么,做错了什么?
我现在给你5分钟时间,如果你说不出来公司目前面临的3大问题,而你作为商业智能部的负责人,就基本上不该继续坐在这个位置上了。
当然,我明白这3个问题里面已经包含了答案。当你要做数据化运营或者运营数据的时候,你必须要问自己这些问题。如果你没有问自己这些问题就去想如何收集数据的话,那肯定会出问题,这是很关键的一点。所以,思维方法很重要,在有了数据、有了对商业的理解的前提下,思维方法是不可或缺的关键。思考的方法是无穷尽的,就像两个武林高手过招,假设一方面对的是功夫高手李小龙,作为局外人的我自然无法给出应该如何胜利的建议,而是需要他自己动态地去寻找答案。
寻找答案的过程中,有一个很重要的衔接点。很多时候,我们会受一些固有问题的影响,如果不懂得变通、不懂得如何提炼核心的话,就会产生思考的盲点。如果你的思考出现了盲点,就注定问不出一些非常关键的问题,就好比,对方明明是男性,还问他是不是男性,就显得很没有价值了。
有时,有些东西并非是你认为的那样,所以,你才会连问问题都懒得思考,就问出像前面那位CEO的“eBay和Amazon谁的商业模式更好”那样奇怪的问题。
话说回来,在知道自己的思考有盲点的情况下,即便问题问得不好也并不丢人。但如果自视很高,什么问题都不问,盲点注定会相伴一生。我曾经见识过一位顶级CEO,其厉害之处就是,凡事都说:“我不懂,麻烦你再解释一下。”
最重要的是思考,尽管你懂,但如果在问问题、看问题的角度上没有拓宽视野的话,想解决问题依然很难。就好像咏春拳里的“问手”,它并不能用于过招,而是寻找答案的一种方式。你一碰,它就有答案。你不动,它不动,而且它会避开,你只能寻找破绽再出击。“问题”是用数据来拿数据,而“问手”就是用一个问题引出另一个问题。
在大数据的商业环境里,要既懂数据,又懂商业,还要拥有一套好的思维方法,而数据化思考正是这样一个崭新的事物。
当我们想知道问题的答案时,就要首先学会如何问对问题,因为一个好问题会引发出很多答案,这是一门艺术。在我看来,人的思考方式在大数据充斥的商业时代尤为重要。在后面的“数据化思考”中我将谈到一些有关思考的例子,以供大家参考。
答案不重要,思考的角度才重要。可见,要习得一套巧妙的数据化思考方式,三分靠想法,七分靠实践。所以,切勿空谈。