数据的本质
上QQ阅读APP看书,第一时间看更新

01 大数据不是独奏,而是不断连接、无处不在的数据

未来人人都是分析师

· 商业基础正因众多终端带来的全域大数据而发生着改变。

· 当下不认真对待数据,之后想要用好数据的时候,就会被死死卡住。

· 数据的价值,必须来自场景。

· 移动大数据的核心重在实时(real time)、适时或最佳时机(right time)以及全时(all the time)。

· 最大的数据来自最小的设备。

· 开启“上帝视角”是未来趋势。


五年前,我们还在为移动化兴奋不已,而今天已开始面对全域大数据,面对四面八方的传感器,大数据已经完全不是移动化这么简单了。智能手机是一个超级终端传感器,但未来还有智能电视、智能家居、物联网汽车……我们将实现与所有东西的连接和互动。随着无处不在的终端开始收集越来越多的数据,将来有一天,无论你去哪儿,都会留下“脚印”。我们收集到的数据会越来越全,这虽然令人兴奋,但从伦理道德的角度看,却可能很危险。

全域大数据时代

我们应该清楚地认识到,商业基础正因众多终端带来的全域大数据而发生着改变。它带来的变革不限于数据本身,还有思考社会和商业模式将如何被改变的全新角度。在全域大数据的大潮之下,每家公司都要重新思考,当互联网的场景从单一的桌面转移到多源、多终端时,不仅会带来丰富的空间维度,还会增加更多从前匪夷所思的新场景所产生的数据。

这么多零散的数据和维度叠加在一起,下一难题就变成了如何保证有效地存储、更新、辨识和连接这些数据,并灵活地使用它们。这么多数据的作用是什么?从古至今,每当人们遇到困难时,都会从自己或他人的经验中寻找解决办法。无论成败,积累的经验会成为衡量下一个同类决策的基础。这种决策过程循环往复,我们的预测能力越来越接近现实,而数据就像是我们的瞄准镜。

以前,我们知道的信息不全,但在未来,我们会因为拥有全域大数据而变得更见多识广。举个例子,你每天开车去公司的途中到了某个路口时会习惯性认定左拐是最快捷的选择。偶然有一天你发现,很多同事都会在同一个路口右拐。好奇心让你询问了几位同事,才发现原来右拐更便捷。这个例子暴露出,我们过去获取信息的意愿、方法或条件并不充分。

在移动互联网时代,预期之外的大数据不断出现,人们对周边环境的感知能力伴随传感器数据,发挥了极大作用。而这些促进今天的人工智能进入发展的新纪元。

在我看来,开启“上帝视角”是未来趋势,这无疑是激动人心的。这些数据都可以沉淀,复杂的数据环境给我们带来了巨大挑战,但同时也为我们带来了前所未有的机遇。在机会面前,我们还不够明智,做起事来仍然各自为政。每家公司、每个人都想独自画出数据链上的全景图。我就曾见过同一家公司内的各事业部,都在做自己的软件开发工具包(SDK)以收集数据,他们没有分工,也没有标准化的讨论,所得数据之乱可想而知。

我们还忽略了数据的一体性。当下不认真对待数据,之后想要用好数据的时候,就会被死死卡住。的确,当公司规模生态还很小时,我们会觉得数据的质量问题不值得注意;但一旦我们想精准地应用数据时,就会发现曾经的“差一点儿”已成了云泥之别。

在线的数据,才是数据

我们应该清楚地认识到,商业的基础正因移动互联网的普及而改变。比如,美国一家初创公司Appsee提供的移动产品分析中,有些功能就很有意思。例如使用“use recording”(不同于收集)记录下用户使用App时的行为,包括点击、滑动、放大、摇一摇等各种动作,从而可以了解用户的兴趣、意向和需要。

移动化带来的变革当然不限于数据分析,但这无疑是最为敏感的。你是否已经用全新的角度去思考无线业务做得好不好?在移动化大潮之下,每家公司都要从上到下重新思考。不过,当数据从传统PC端转移到移动终端时,我们往往会遇到两大误区。

第一个误区是把智能手机当作一个新增的媒体渠道,相当于另一个屏幕,这是完全不够的。手机作为功能设备产生的行为数据,不仅有时间维度,还有空间维度和社交维度,这么多维度叠加在一起,分析的层面和方式也远远多于传统网页。

第二个误区是用同样的方式考评PC端和移动终端。在PC端,我们更关注流量转换的指标,而移动终端更在乎的是参与度,例如用户在一个App的停留时间、是否愿意接收提示、版本更新等。手指信息如点击、滑动、放大、摇一摇等,在无线时代均会成为关键。

与大数据的4V(量大、多样、速度、价值)相比,移动大数据的核心重在实时(real time)、适时或最佳时机(right time)以及全时(all the time)。任何一个完整的高效服务都离不开这3T。


以零售业为例,实时是实时数据的获取和推送能力。未来我们将通过智能手机或智能穿戴设备,赢得越来越多接触用户的机会。这些机会将为我们提供大量的时空信息,把每一刻感知到的用户数据延续,就是全时。

有了这种感知能力之后,你如何知道何时是推荐服务的最佳时机呢?这时就必须要有全时的数据收集,才会知道用户的需求规律以及营销的关键点并做到有效触达。只有在具备3T的能力下,你才能明确在什么地方、什么时间点,给什么样的用户、什么样的特别优惠。你已经熟知用户过去的消费习惯,甚至行路习惯,所以才会知道第二天下午一点半推荐一杯半价咖啡将是非常有效的促销方式。

最大的数据来自最小的设备。手机会变得越来越智能,它可以“感受”,可以处理文字、图像,可以通过网络连接你身边的一切。这是最完美的集中,这不是一种创新,而是“一群”创新。

未来,没有谁会比你的智能手机更了解你,它甚至会了解你的情绪,而无须自然语言。智能手机将成为你的数据收集者,也会成为你的数据守门员。智能手机能判断可以将哪些数据分享给哪些商家;而商家自己都不用建立数据库,它的数据存储在每个人的云空间,只要被授权就可以拿出来用。这将会是用户、数据和商家之间的一种全新关系。

用数据获取更多数据

很多人同时拥有智能手机、个人PC、平板电脑等多个数码设备。比如,某个人拥有两部智能手机、一台iPad、三张信用卡,而且每天都登录你的网站。在这种情况下,你能否知道这是同一个用户?你有没有这种识别能力呢?通过信用卡,银行虽然可以识别静态个人的身份,但缺乏辨别当用户使用电脑、智能手机或平板电脑等更多元的网上浏览设备时的身份的能力。

有谁能够识别这三种设备和三张信用卡背后的用户是一个人?企业有多大的能力去识别一个“碎片化了的个人”,将是一个巨大的考验,也会是一个巨大的机会。

在识别过程中,分辨用户其实并非难事。比如,企业可以查看用户电脑里的cookies,以此获取用户的E-mail地址、网购时的收货地址,甚至私人手机号码、亲密联系人、信用卡与身份证信息,等等。以上这些信息都可以作为鉴别“碎片化了的个人”的依据。

需要注意的是,这些属性有些是唯一的,有些却不是,但它们依然有很大的参考价值。比如,你经常会将手机或电脑借给别人吗?当然不会。那么信用卡呢?想必应该更不会外借了吧!

了解了身份识别的方式之后,我们就可以把散落于网站内外的行为数据串联起来。不同的网站,收集到的数据是不同的,数据的价值也千差万别。如果某个网站连接了你三台设备和三张信用卡,那么这个网站收集到的内外数据就很容易将你识别出来。所以,是否知道用户是谁,决定了企业数据收集行为的意义大小。

现在,大数据的价值吸引了很多企业和组织的兴趣,因此它们非常重视数据的收集与存储。但是,在现实操作过程中,问题仍然层出不穷。大量的碎片化数据是噪声,让事实串联本身变得非常困难。而值得思考的另一方面是:当我们把这些枯燥的数据串联起来时,就一定能代表事实吗?


假设早上你从家步行至地铁,忽然想起明天是太太的生日。途中路经了一家首饰店,你在外面看了一下,便被其中一个橱窗里的一副耳环吸引了。你走进店里,看了多个款式,但不是价格太贵,就是不知道太太会不会喜欢。结果,因为赶时间上班的关系,你没能买上心仪的礼物。坐地铁去公司的途中,你还是不甘心,于是用手机淘宝又搜了一下,期望可以找到早上看到的心仪款式。可惜,你真的不知道该如何形容那副耳环是什么样子,于是你不得不重新花时间利用关键词搜索一下碰碰运气。结果,你如大海捞针一般毫无收获!

从首饰店的角度来看,肯定也想了解这些信息:每天都有什么人在店外经过?进店的顾客是熟客还是新客户?他们有什么喜好?他们是受什么的吸引进店的?他们有没有明确的需要,在店内看过什么,又买了什么?店员如何知道要不要推荐什么给这位顾客?即使顾客没有当场购物,有没有可能在其他渠道重新唤起他的需求?这些一直以来都是零售业梦寐以求想要解决的问题!


以上情况随着智能手机的普及、各类传感器包括RFID(射频识别技术)的使用,以及人脸识别和视频分析的进步作为支持,大量线上线下的消费者活动行为被大量收集和打通。零售商和消费者开始从应用中感知到当人(消费者)、货(商品)、场(渠道)这三种数据的高度连接所产生的“完美信息”及洞察力,而这意味着更贴心的服务和更多商机。最近有人就把这场革新叫作“新零售”。其实这样的情况又何止是在零售业有出现,社会正达到一个新的临界点,虚拟与现实的边界进一步被拉近。如今,互联网虚拟世界的线上数据正在反哺线下场景,线下场景也在不断弥补线上的不足。这个循环正是用数据去取得更多数据的典型。

数据的价值,必须来自场景。很多看似无关紧要的东西都在场景里,而在无线移动终端的世界里,这个场景又平添了很多其他东西,这都需要我们仔细甄别。要学会用数据去获得更多数据。

为了能够使用更多大数据所驱动的服务,作为普通消费者,你是愿意分享个人数据,还是会担心个人隐私泄露而避免分享?作为一家公司,把数据分享出去到底意味着损失还是获益,这笔账容易计算吗?我相信,类似这样的问题未来将会困扰每一个被“数字化”的企业和个人。

这到底是人类自己编织的甜蜜烦恼之网,还是一个噩梦的开始?且让时间来验证吧。