02 数据相关性比数据本身更重要
未来人人都是分析师
· 在信息爆炸时代,拥有大量信息可能是灾难而不一定是好事,也不等于你有能力使用它。
· 一切数据收集活动的出发点都来自业务需要或者可以应对未来的业务发展。
· 从业务过程中收集信息、分类信息、整合信息,必须要成为日常思维的一部分,这是成为数据驱动型公司的必要条件。
· 数据开发的速度是营运大数据的必然瓶颈。
· 一切皆可量化,表面上看似不存在的数据,其实也是有迹可循的。
· 当我们学会量化以后,就是一个个从无到有的过程,很多重要的东西就这么“无中生有”了。这也是在新时代的特质下,企业想要实现“弯道超车”的一个难得的快捷方式。
假设这样一个场景:一个惬意的早上,你一觉醒来。吃着早餐,打开计算机,你突然想查一些信息,但是却毫无头绪,因为信息太庞杂、太碎片化。苦恼之际,你猛然想起自己无意间养成的一个习惯,每当看到一些感兴趣的信息时,无论文章也好,照片也罢,你都没有让它变成过眼烟云,而是花了点时间保存了起来。这时,你的计算机人工智能扫描了你的信息库,通过你平时保存的信息,分析出你可能感兴趣的章节。你打开一看,发现正是你想看的。顿时你心情大好,开始了新的一天……
你很惊讶。为什么计算机可以找到这些信息?因为计算机的计算是人脑无法比拟的。为什么计算机能够帮你寻找目标信息?因为你早已在无意中习惯性地保存了庞大的信息,建立了属于自己的信息库。这个有点科幻意味的场景是不是很熟悉呢?作为数据界的“老谋”,我敢肯定地告诉你,这一天必定很快会到来。
养兵千日,用兵一时
大数据时代衍生的变化,体现在信息的产生及获取变得更为快捷,沟通(包括发布、传播、互动)从单点到互联,信息变得更网状、无序和碎片化。然而,获取速度又快数量又多的信息,很容易被错误地解读为唾手可得,而且成本越来越廉价。如果你目前有这种想法,那你可能已经在不知不觉间被卷进了“数据越多越有用”的误区。在信息爆炸时代,拥有大量信息可能是灾难而不一定是好事,也不等于你有能力用好它。近日,畅销书《大数据时代》的作者维克托·迈尔—舍恩伯格(Viktor Mayer-Schönberger)在一次演讲上也强调了数据相关性的重要性。简单地说就是,收集、存储和管理数据的综合成本不菲,是每个企业必须面对的问题。
根据业务战略而制定的大数据战略变得尤为重要,我们首先需要重新去审视或者辨识有用信息,并判断哪些数据可以放弃。一切数据收集活动的出发点都来自业务需要或者可以应对未来的业务发展。例如,阿里的电商数据战略就离不开“人、货、场”的组合。接下来,就是以短期问题作为出发点,并以中长期的发展趋势为准来决定资源的优先分配顺序。
从业务过程中收集信息、分类信息、整合信息,必须要成为日常思维的一部分,这是成为数据驱动型公司的必要条件。例如,在产品设计环节中除了加入PRD(Product requirement document,产品需求文档)之外,还要加入DRD(data requirement document,数据需求文档),以重点描述数据相关的需求及变更。以此类推,在业务的各环节中都要考虑数据的收集、汇总及使用,并评估所收集的数据与主体业务之间的相关性。但目前大部分企业依旧秉持“取之所用,无用则弃”的传统信息理念,而不会同时考虑长远数据战略所需的积累。仅仅服务于当前,为短期目的所收集的数据肯定会偏于狭溢,大数据更需要为未来业务方向做好储备。换句话说,数据战略的目的就尤如“养兵千日,用兵一时”。
明确了业务的长中短期目标及实现这些目标将会面临的障碍之后,还得理解数据能力对这些目标有何贡献。作为战略部署,我们还需用系统思维去发现周边生态的数据与主体业务之间的关联。举个例子,要真正了解淘宝的商品交易细节,除了买家的需求外,物流、支付、竞争对手、卖方营运等数据,都是整体必不可少的一部分。有了大方向之后,从数据战略到数据落地策略,大致可分为4个步骤:
· 确定业务目标与信息缺口之间的关系,明确数据收集的方向。
· 寻找相关信息的同时,评估零散信息整合的难度及数据源的质量。如果数据来自外部,应优先考虑以元数据较完整的信息来源。
· 关注各种数据资源的使用情况及其在场景中的反馈结果,同时尽可能地记录下数据从产生到应用的过程。这个过程是一个从“计划经济”到“市场经济”的落实点,数据必须被运用起来才有其价值,以点带面式的经营数据更显稳健。
· 最后回到第一步,识别信息源与业务目标的关系,优化信息收集、存储、整合的过程。
随着智能物件、人工智能场景的普及,信息产生的形式和速度也变得难以预测。我们需要有更加便捷、成本更低的方法寻找及收集多源异构的零散信息,并把它们缝合起来。所以一直以来我都在致力于建立大数据的技术平台,促进以上各个环节都能够更自动化地完成。从我在阿里管理大数据的第一天开始,我就感受到,数据开发的速度是营运大数据的必然瓶颈。不要小看这个缝合的技术,它是细节上的魔鬼,做好它方能称得上真正做好了大数据营运。
系统之美
在轰轰烈烈的大数据时代,学会系统思考(又称系统动力学,System Dynamics),有利于摆脱线性局限、小数据时代的思维方式,转变为人工智能与大数据亦步亦趋的思维方式,这两者截然不同。为什么?我还是那句老话:“以偏概全怎么能和以全概偏相比?”
什么是系统?系统是一组相互关联的主题,一定时间内,以特定的行为模式相互影响,而且具有自适应、自我组织及自我演进的能力。当系统受外力触发时,不同的系统可能会产生不同的结果。一个完整的系统必定由三个点组成:要素(主体)、连接点和目标。当主体与连接点及其功能产生了相对固定的关系时,我们便认为这个系统形成了。
以淘宝为例。简单来说,这个生态系统(目前流行的叫法是“平台”)由卖家、买家、物流商、平台管理方组成。他们之间互相连接,目的是为了匹配需求方与供应方,然后顺利地把货物从卖家送给买家。情况稳定时,各方相安无事,平台管理方可以坐享其成。当然这不是系统的真相,在这个系统中,买家与卖家的连接来自交易,更重要的是交易后买家给卖家的评价。根源是平台为了减少买卖双方之间的投诉及纠纷,让评价好的卖家得到更多曝光机会。
在这个加强版的反馈机制中,平台让买家优先看到的都是诚信得分较高的卖家。没有足够生意流量的卖家知道,快速得到大量交易和好评,是争取曝光机会的重要因素。“诚信”卖家变得奇货可居,而“好评”有价,最终促始一个黑色产业——专业刷评师出现,“江湖”(系统)从此不再太平。平台与刷评师之间展开了一场博弈,系统中出现了一个旋涡,真假评价之争让平台管理方左右为难。正因如此,卖家更一度围攻平台方,不能删除被怀疑的假评。
以上故事在互联网时代未来临之前,曾经也发生过。只是在互联网时代特别是大数据时代,数据更有利于还原真相。大资料也自然成为发现真相的利器。不过我认为更值得反思的,是如何使用大数据分析去防患于未然。而此时,系统思维就更为重要了。
过去,我们习惯在简单的线性关系中寻找规律,因为我们假设没有数据以及数据稀缺是常态,只能局限于逻辑推敲。这就像蚂蚁拼命在二维空间中苦思为什么无路可走时,却不知道我们其实身处的是三维世界。
大数据的存在,就是让我们把复杂系统变得可描述、可量化、可溯源。随着科技的发展,物联网、人工智能技术的进一步完善,我们越来越不缺少数据,但大家还未意识到万物互联之后的世界,系统思维的重要性。
量化一切,数据化一切
如果你是阿里的分析师,在月度经营报告之后,你会好奇地跑去问老板:“我做的这份报告,什么地方是您比较感兴趣的?哪些地方又是我需要多花点力气再精益求精的呢?”世上如果有一位老板会耐心地回答你的问题,那么恭喜你。而大部分情况是,如果老板完全知道自己需要什么的话,也就不需要你了!
一次,我去丽江参加一个零售集团的闭门会议。因为是临时决定去的,所以我并没有做太多准备。结果,主办方忽然通知让我给大家做一个演讲!我灵机一动,用上了“无中生有”的伎俩,并量化了早上的会议,目标是了解集团CEO关注什么。我快速将其他人演讲的内容记录下来,同时记录了在其他人演讲期间CEO的几个动作信号:点头、写笔记和发问。大家可能已经明白,我是在量化领导对每一个主题演讲的专注度。当然,如果领导从头到尾都在玩手机的话,说明他对内容根本不感兴趣。领导的一举一动,无疑都间接地反映了他对什么内容比较关注或者有想法,什么内容是被他当垃圾扔掉的。经过早上“无中生有”的量化过程,下午我便择优而上,把领导关注的内容用上面所提到的三个信号的频次配合当下的关键词做了一个简单分析。结果当然不出所料,我演讲后,那个领导兴奋地对我说:“你怎么比我的手下还要懂我?”
在阿里工作期间,我偶然看到了一本叫《数据化决策》(How to Measure Anything)的书。但我比较喜欢它的英文书名,因为比较平实。这本书的主题是:一切皆可量化,表面上看似不存在的数据,其实也是有迹可循的。量化是对被量化的事物的一种映射,就像照X光片。关键是,我们要明白量化后的数据是为了解决什么问题,以及在量化的过程中如何降低噪声,增加稳定性。
互联网技术的发展加快了信息数字化的进程,我们对量化的态度,也必须与时俱进。过去,我们假设数据很难获取,所以喜欢用经验预设简单维度,这种局面随着大数据时代而被快速打开。一些看似毫无关联的事情,却是过去分析时的盲点所在。要改变传统观念,将思维方式从经验驱动转变为数据驱动。
当我们学会量化以后,就是一个个从无到有的过程,很多重要的东西就这么“无中生有”了。这也是在新时代的特质下,企业想要实现“弯道超车”的一个难得的快捷方式。记住,要学会无中生有的量化,要有足够的观察、足够的理解及数据收集。我在阿里时,毫不夸张地说,正是运用这种方法,我基本都能在CEO及高管想要看什么数据之前,提前预估到他们可能会看这些数据,并且早早做好功课。我告诉手下,要把月度报告也当成一个产品去量化,不断从反馈中改善。这也正是我在上面提到的在丽江的例子中所做的。
说了那么多,最后总结一下基本的量化法。表面上好像不存在的数据,其实也有迹可循,可以量化的。关键是我们要明白量化后的数据是为了解决什么问题。量化是对被量化事物的一种映射。如果X是我们关心的事情,我们就应该做到以下几点:
· 澄清什么是X。例如,你想量化“开心”,但究竟什么是“开心”?“开心”跟“快乐”是否一样?你需要不断用问题去澄清X!
· 如何量化X?如果我们认为开心的表现是笑,那我们可以量化“微笑”吗?面部情感识别的技术,微软已经有较成熟的软件了。
· 量化之后能够增加我们对X的了解或者减少不确定性吗?我们能否找到量化后的“开心”指数,并在应用中确认其价值?否则只能回到第一步,重新澄清什么是X。
以上方法虽然简单,却非常有效。优秀的业务分析人员必须学会这个方法。学会量化,“无中生有”的力量是很大的,并有着“此时无声胜有声”的作用。
大数据的下半场,
企业与个人如何让数据从看到用?
扫码下载“湛庐阅读”APP,
“扫一扫”本书封底条形码,
听作者车品觉讲述数据的本质。