02 大数据的本质就是还原用户的真实需求_决战大数据：驾驭未来商业的利器-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

02 大数据的本质就是还原用户的真实需求

众说《决战大数据》

沈亚唯品会创始人，董事长兼CEO

在我眼中，品觉一直是我非常尊敬的国内数据领域的大师级人物，这是他的第一本著作，也是汇聚了他十几年数据行业经验，呕心沥血的精髓之作。他一直强调数据是尊重人性的，只有有商业实效性的数据才是有质量的数据；他一直强调不能只是纯粹地看数据，要用数据还原真实的现实与场景。这些见解不仅对每个企业的未来发展具有极大的指导意义，而且对每个普通人建立数据化思维和进行个人数据管理都有很好的启发作用。这本书贵在坦诚和实用，每个人都能从书中收获颇多。

当我们身边的所有人都在兴奋地讨论着大数据时，你有没有心存不解——虽然我们每天都在收集数据，但我们为什么要关注它们？这些数据又如何能够为我们所用？

的确，当回归到“数据能够帮助你产生什么价值”这个问题时，如果你自己都没弄清楚，那么就算给你再多的数据，你也只会手足无措。我们身边的大数据现象越来越普遍，数据的广度和深度都呈现出几何级甚至指数级增长的趋势。在思考数据的价值时，我认为，可以从三个维度来考虑。

首先，你能否清楚地识别（Identify）用户的身份？其次，你能否搞清楚收集的数据对你的价值（Value）是什么？最后，收集数据时的场景（Situation）是什么？

识别，让似是而非的行为数据串联起来

企业有多大的能力去识别一个“碎片化了的个人”，将是一个巨大的考验和机会。

我先来说说识别。现在，很多人都同时拥有手机、个人PC、平板电脑等多个数码设备。比如，某个人拥有两部手机、1台iPad、3张信用卡，这个人每天都登录你的网站。在这种情况下，你能不能知道这是同一个用户？你有没有这种识别能力呢？银行用户的信用卡虽然可以识别静态个人的身份，但银行缺少当事人使用电脑、手机或平板电脑等更广泛的网上浏览设备时的身份识别能力。

这时，有谁能够识别这三个设备和三张信用卡背后的用户都是一个人？而目前，企业有多大的能力去识别一个“碎片化了的个人”，将是一个巨大的考验和机会。

在识别过程中，分辨用户其实并非难事，比如，企业可以查看用户电脑里的cookie，依此获取用户的E-mail地址、网购时的收货地址，甚至私人手机号码、亲密联系人、信用卡与身份证信息，等等。而以上这些信息都可以作为鉴别“碎片化了的个人”的依据。

需要注意的是，这些属性有些是唯一的，有些却不是，但它们依然有很大的参考价值。比如说，你经常会将手机借给别人使用吗？经常会将电脑借给别人使用吗？当然不会。那么信用卡呢？想必应该会更少外借了吧。

了解了识别身份的方式之后，我们就可以把散落于网站内外似是而非的行为数据串联起来。不同的网站，收集到的数据是不同的，数据的价值也千差万别。如果某个网站连接了你的三台设备和三张信用卡，那么这个网站收集到的内外数据就很容易将你识别出来。所以，是否知道用户是谁，决定了企业数据收集行为的意义大小。

价值，企业价值Vs客户价值

从企业价值来看，数据收集实现的是企业资源的合理分配；从客户价值来看，数据收集实现的是顾客体验的提升。

数据收集的价值包含两个维度。一方面，你是否能衡量这个数据对企业产生的价值——你不会将用户的所有行为都记录下来，而是记录那些对企业自身有帮助的数据，即企业价值；另一方面，你是否能衡量这个数据对顾客的价值——这个数据如何帮助企业为客户提供更好的服务，即客户价值。

从企业价值来看，数据收集实现的是企业资源的合理分配。例如，把推荐系统做得更好，让更多的用户可以有更高的概率找到他们想要的商品。这样，就能提高商品的购买率，为企业创造更大的经济效益。

从客户价值来看，数据收集实现的是顾客体验的提升。例如，便捷的搜索引擎可以使顾客更容易地找到他们所需要的商品，为他们创造更加优质的购物体验。

数据提供的价值，从不同维度看会有不同的结果。比如说，每天下午两点钟左右，招商银行门口会有很多客户排起长龙。如果以客户价值为核心，那么思考的角度就应该是每个在下午两点钟去招商银行办业务的用户，平均到底需要多少分钟才会得到相应的服务。但是，招商银行的做法是对大量数据进行研究，目的是想得出在下午两点钟时如何减少排队的人数，这就是以企业价值为核心的考量。

以企业价值为核心去审视就是，如何帮助企业在下午两点钟时分流排队的人数；以客户价值为核心去审视则是，如何让客户减少等候的时间，并得到所需的服务。同样一件事情，这两者的提炼是不一样的：一是思考能否缩短在这家银行排队的时间，让用户提前两分钟就能享受企业的服务；二是思考能否使用手机来解决排队问题，通过手机银行让实体银行里的排队人数减少。

我的观点是，数据价值的确要分是从谁的角度出发的。所以，当我们谈大数据价值的时候，第一点要注意的就是角色不一样，对于数据价值的看法也就不同，所以在衡量价值时要考虑到受众和给予者这两个对立面的不同看法。在招商银行的例子中，后者更多地是看，在两点钟有20多名用户在排队，而受众哪里会对排队人数产生敏感啊，他们只会觉得若10分钟内没有得到服务，就是等了很久了。

从电子商务的角度来看，推荐系统的做法跟银行类似。现在，所有的电子商务公司在考核推荐系统时，都是以点击率作为KPI KPI（Key Performance Indicators），关键绩效指标，又称主要绩效指标、重要绩效指标等，是衡量管理工作成效最重要的一个指标。——编者注的。

从企业考核推荐系统的角度来说，点击率是主要指标。它们想的是如何让用户更多地点击自己的产品，而对于消费者来说，却并非如此。用户想的是：“今天我有一个很想买的东西，我能不能买得到呢？”

所以，在使用数据改善用户的购物体验时，企业应该是仅仅改善推荐系统，还是要了解用户整个购买决策的链条结构？可能的答案是，企业需要知道用户在登录网站之前的情况，而不是登录之后的情况，这就需要企业全面客观地去看自己的网站是不是有能力还原用户的需求了。

场景，你知道当时所有的场景吗

场景与还原并行——前端还原消费者场景，后端还原业务需求。

在准确识别和衡量了数据价值之后，我们再来看一下数据收集时的场景。现在，大数据的价值吸引了很多企业和组织的兴趣，因此它们非常重视自身的数据收集与存储。但是，在现实操作过程中，问题仍然层出不穷。大量的碎片化数据是噪音，让事实串联的行为本身变得非常困难。而值得思考的另一方面是，当我们把这些枯燥的数据串联起来时，就一定能代表事实吗？

数据分析实例

早上，你在上班的路上，看见有个男生穿了一件非常好看的T恤，你心动了。于是，你来到公司，坐在座位上的第一件事情，就是在购物网站上搜索T恤。结果呢？出现了10万个相关商品。

你正在犹豫怎么挑选的时候，老板突然在办公室里宣布，大家集体去会议室开会。你坐在会议室里，发现开会好无聊，于是打开了手机应用，继续想怎么买到那款T恤，然后你筛选了一些比较中意的品牌，但是依然没有找到那款你在路上碰到的、中意的T恤。

最后，手机上弹出了一个手机促销活动的广告，你发现一款你非常喜欢的品牌的手机价格很便宜，虽然你已经有手机了，但是你依然毫不犹豫地买下了它。

那么，在向你推荐产品时，一家公司到底有多大的能力，才能还原你所处的场景呢？

搜索引擎暴露出你目前住在上海的事实——你是最近搬过来的，网上的收货地址换到了上海。所以，它更多地推荐了上海的卖家给你。而你在到公司上班之前，才看到了那件T恤，觉得很好看，所以决定搜索T恤。但是，在你没有登录电商网站之前，T恤这个因素只有你知道，电商不知道。

因此，当你在搜索引擎里描述一件T恤的时候，你跟这家电商的第一个接触点就出现了，所以，电商还原的场景是“早上九点半，你搜索了T恤，搜出了10万个结果，但你一个都没有点击进入”。电商完全不知道，这时候你不点击的原因仅仅是老板在叫你开会。

而会议开始后不久，你打开手机应用再次搜索T恤，这是和此电商的第二次接触。那么，后来在无数的品牌里面，你为什么忘记了早上喜欢的那款T恤，最终选择了一部比较便宜的手机？有谁知道你为什么这么选择？最后，你买了一部手机，选择了上海的卖家，事实上你只是过去在上海出差了几个月，而现在却在杭州。

试问，一家公司能有多大的能力猜到这些复杂的场景，以及这些每一天每时每刻每一个进入网站的用户背后发生的特别故事？

所以，每一个数据分析师都闭着眼睛说：“我不管用户之前看过什么T恤，反正他搜索了之后什么都没点击，可能是推荐的算法不给力。”而在手机端中，又有一名数据分析师说：“这是这个用户第一次登录无线终端啊，也是第一次点击了T恤搜索选项。”

正如你看到的，在本应有那么多连接性的数据里面，在购买T恤的案例中却没有了任何连接性，那么，企业怎么还原你的购物场景呢？每个人都在猜想可能的原因。而且，值得一提的是，这个案例仅仅涉及了用户在一个网站上做出的购买行为，且没有做过全网比价，而在真实的购物场景中哪里会这么简单？即使是这么简单的一个场景，企业又该如何实现还原呢？

每天都有大量的碎片化数据产生，每天我们都在假定。那么，用这种状态分析数据，能有多可靠？

所以说，企业在收集数据的时候，一定要明确，自己是否有能力去辨别用户，是否有能力去收集其在你的网站中发生的所有行为，是否有能力把手机端和PC端区分开来？另外，企业又拥有多大的能力看到具体的场景是怎样的，比如说，今天南方有没有下雨，东北有没有下雪。归根结底，我想说的是，作为企业，你到底有多大的能力去还原用户的真实需求？

还原是一个瞄准器

数据的本质就是还原，这是收集元数据的关键方法。

当我们在进行用户的场景还原时，必须认清数据收集的领域是什么。在不同的领域里收集到的数据，可以找到与其所在领域里不同的东西，比如，搜索引擎和社交网络（SNS）得到的数据就是不一样的。而企业首先要做的是，确认用户是不是同一个人，比如在SNS里涉及的很多信息主要都是聊天内容，如果我是做SNS的，我就会更多地去寻找这个人和其他人的关系。他今天跟张三聊了3分钟，明天跟李四聊了5分钟，这项数据在SNS领域里可以获得。但当我们要真实地还原整个人的行为的话，最好要有不同领域作为互补，这会让你掌握更多更全面的信息。

你有多大的能力知道哪些数据是同一个用户的，这是企业首先必须解决的问题。然后再去关注，收集到的数据的量这么大，广度这么宽，价值在哪里。而当企业不清楚收集到的数据是不是同一个用户的时，那这个数据又有什么用？所以，在大数据里，最重要的还是收集人的数据。

而数据的价值，正如我们前面所分析的，必须来自场景。

对于消费者数据的收集，其中一个瞄准器就是你能否还原用户购买行为的场景。基于科技的不断进步，如果有一天Google眼镜成为每个人的标配，或者是有一天，我们买的每一部电脑，其本身都是跟手机捆绑的，那么这两种交叉数据是很容易获取的。

为什么场景会变得如此重要？场景是不是被准确地表达了？场景是否会成为一件事情的背景，用来还原整件事情？有一年的“十一黄金周”，我们发现很多用户使用iPad购物，为什么？你或许不会想到，这是因为那年的“十一黄金周”第一次实行黄金周高速公路不收过路费的政策，很多人堵在了路上，没有其他事情做，所以只能使用iPad购物。如果企业在分析数据的时候，没有考虑到10月1日整个中国的高速公路都出现拥堵的这个场景，企业就没有办法还原整个场景，也就无法解释这个现象。

我还发现了一个新场景。有一天，我们研究了一些无线数据——用二维码让用户到达我们预想让他到达的页面。我们可以看到，iPhone手机在扫完二维码后就到达了页面，但是安卓却没有。在中国，很多装有安卓系统的手机在扫完二维码之后都无法自动跳转到关联页面。这时，安卓手机就成为用户登录网站购物的重要场景。不管是一部iPhone手机、一部三星手机，还是一部其他类型的手机，手机的大小和系统的兼容性本身都能对场景产生巨大的影响。而如果我们盲目地去观察数据本身，自以为是地认为用户没有进行点击，那就大错特错了。事实上，是他点不了。

可见，有很多看似无关紧要的东西都在场景里，而在无线移动终端的世界里，这个场景又平添了很多其他的东西，这都需要我们仔细地甄别。

当我和数据分析师们聊天时，我总是会特别提醒，在研究无线数据的时候，要特别注意的是用户在每天移动的时间点和非移动的时间点里都做了什么。从起床到睡觉，有几个时间点基本是固定的，所以基本上就可以判断每个人一天的行为走势是什么。

我曾经在一次电商大会的圆桌论坛上提出了一个观点，当时与会者都很认同，就是我建议把一些以前用来观察用户忠诚度的框架，比如RFM模型 RFM模型（Recency Frequency Monetary），该模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱这三项指标来描述该客户的价值状况。来做收集数据的瞄准器。有什么数据能让我更好地看到R，更好地看到F，更好地看到M？RFM是一个收集维度，个人PC、手机、平板电脑是另一个终端场景维度，PC能更好地收集R，手机能更好地收集M，这样就可以通过场景的不断变换来收集更多的数据。

现在，有一些终端的确可以收集以前收集不到的数据。以前，我们不知道一些数据的收集背景是不是移动的，但现在可以。用户做一件事情的时候是不是正在移动？他是不是在银泰百货里面？面对不同的场景，我们的框架也要相应改变。所以，现在做数据分析报告，最后的一个问题变成了：“无线变了，这个报告的结果还是一样吗？你的报告应不应该也变一下？”

我认为，数据的本质就是还原，这是收集元数据的关键方法。如果没有这个概念，你就不知道未来你需要什么数据，就更不懂得什么是重要的数据，到最后只会产生越来越多的无从辨别的数据。一旦数据多到了连你的公司都没有办法处理的时候，那么其他会处理的人、公司和国家就会把你毫不留情地挤出市场。

“未来一定是国家和国家之间的数据大战，公司与公司之间的数据大战！”信息时代催生了海量数据的出现，这个世界上每时每刻都在产生大量的数据。此时，大数据已经不再是一个单纯的概念，而是像空气一样围绕在每个人的身边，每个人都是数据的制造者。也正是因为每个人都在通过不同的设备生产着数据，使得数据更多在“量”这个维度上不断膨胀，但是，“量”的单纯膨胀却对企业真正了解一个用户的需求产生了极大的挑战。所以，如何更好地识别各个设备的使用者是否为同一个人，如何更好地理解用户在各个不同场景下表现出来的不同需求，如何更好地理解数据融合后产生的价值，将是未来商业中每一个企业都必须考虑的问题。

在不久的将来，随着O2O的深入和穿戴式设备的兴起，企业和企业之间必须进行更多的数据融合和交换，必须进行更多的跨行业的数据交流，这样才能更好地还原用户真正的需求，让用户在任何一个场景中都能够获得由数据带来的便利。

总而言之，更深化的数据连接使海量数据经过提炼更真实地还原了事实，也使我们运用数据科技去解码未来的需求成为可能。

数据化思考 CEO们关心哪三个数据

我在面试数据分析师的时候，必然会问他们一个问题：“假如我是一家知名电商的CEO，而今天是星期一早上9点钟，请你给我提供三个数据指标向我证明在过去的一周里，企业运营得一切正常，可以让我踏实下来。你认为，会是哪三个指标呢？”

绝大多数应聘者对这个问题的回答比较一致：第一个是流量；第二个是交易量；第三个是其他，这个其他包括转化率、交易额等。

当他们这样回答完后，我会反问他们：“刚刚我问的问题，你真的听清楚了吗？”

这时候，有人会回答说，我听清楚了，而答案就是这三个数据。

往往这个时候，我会提醒应聘者说：“请注意，我要的数据是给CEO看的，而且还是顶级电商的CEO，而且时间轴是周敏感数据。”面试进行到这一环节，我就发现大部分面试者根本听不懂“CEO”的含义。事实上，既然是CEO，就意味着他是公司里的最高领导层，那么给他看的东西明显要与其他人不同。

在这个例子中，我们会发现绝大多数应聘者很少会换位思考。也就是说，事实上，他们都是从自己的角度来思考，而不是以一个数据分析师、一个要给CEO汇报三个数据指标的分析师的身份来思考问题。

那么，什么是以数据分析师的身份来思考问题呢？通常来说，在我问出问题时，作为数据分析师的你首先要想的是CEO会关注什么数据，是长期的，还是短期的？是风险最大的，还是风险一般的？或者是最近发生了什么事情？以及给CEO提供的数据要有什么注意事项，等等。

所以，我要再问问应聘者：“当你坐在面试桌对面给我答案的时候，有没有想过在星期一的早上，这家知名电商的CEO真正想看的是什么？”

再想想这个问题，你到底有没有真正听清楚“CEO”、“知名电商”、“周敏感数据”这些关键词？CEO要的是“踏实”——他听完了就可以安心地吃早饭了。

在面试时，如果面试者不对这几个问题进行询问就贸然回答的话，满分是10分，我只会给5分。因为这个问题里面本身就有很多问题，比如，什么是踏实？踏实是一个概念，你不问清楚“踏实”的含义，就给我三个指标，无论如何都是错的。

在正常情况下，首先不要急于回答我提出的问题，而是先问清楚什么是踏实，切勿自己先做假定。以下，我们可以假定一个相对理想的面试场景。

你反问：“什么是踏实的状况？”

我回答道：“最近这家电商和另一家电商在打价格战，而它最近又新推出了图书类目，那么CEO自然最关注的是这些图书的业务做得好不好。”

你再问：“什么是好？是否基于每天来买书的新增用户和原有用户购书的数量多少？而且，CEO是希望更多地用书来吸引新用户，还是想通过图书业务的推广让现有的用户进行交叉购买行为？”

在这些思考结束之前，你绝对不能给出指标。因为，在没有解决一个问题的内涵之前，任意给出的一个指标，必错无疑。所以，我才会问应聘者到底听清楚问题没有。

在我做面试官的经历中，很多看似有经验的数据分析师，往往在我提出的问题还没有解释清楚时就抢着作答。绝大多数人在思考不到一秒钟的时间里就给出了答案，而这一秒钟的答案，我可以确定他们根本没有听清楚我的问题。

通常这个时候，我会再给他们一次机会，问他们：“刚才你给我的这个答案，如果我给你满分10分，你会给自己打几分？”而此时，大部分人只会打6～7分。

当应聘者给自己打7分时，我会反问：“另外3分丢的原因是什么？”他开始反思，说自己刚才给的可能并不是CEO想要的指标，因为他对这家电商的近况不是很了解……

接下来，当我再反问：“刚才我的问题是‘假如我是一家知名电商的CEO，今天是星期一早上9点钟，你给我三个数据指标向我证明在过去的一周里，企业运营得一切正常’，你听清楚了吗？如果你确认自己清楚了，能请你再给我一次答案吗？”

这时候，聪明的人不会再用一秒钟就给我答案了，而是重新思考，开始问问题，再给出答案。这时候的答案，当然会比第一个答案要好得多。

最后，当我再问他：“现在，10分满分你给自己打多少分？”此时，他们自己给出的分值通常都会高一些。至此，我的面试也就结束了。

事实上，关于这个问题，我根本就不关注打分的结果。当然，如果评价是10分，那就不用面试了，因为在没有仔细考虑过答案的时候就自信满满地回答，这种人必然无法承担做数据分析师的责任。虽然，自信是对的，但是思考更重要。

作为一名数据分析师如果你不把自己的分析与当下结合，是没法进步的。

有趣的是，当我把这个问题贴在网上时，还是会有很多人追问我答案是什么、CEO关心的到底是哪三个数据。这时候，我真的很想说，答案不是结果，方法才是。