3.2 三言两语大数据
3.2.1 信息量泛滥的社会
大数据可谓“炙手可热”,有大数据新兴产业的真实热度,也有大数据人为炒作起来的虚假热度。“大数据”,顾名思义是数据量级特别大的数据。那量级达到什么程度才算是“大数据”呢?
首先我们简单了解一下用以测量数据容量的“度量衡”。
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
1EB=1024PB
1ZB=1024EB
国际数据公司(IDC)的研究结果表明,尤其是最近几年,各种信息源产生的数据总量,如图3-2所示。
图3-2 全球产生的数据量(单位:ZB)
据说到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约5EB之多。
有学者认为,大数据概念是炒冷饭,因为“数据概念”在之前就已经风靡过了;这说明对大数据的理解还比较肤浅。数据时时刻刻都存在,只是,信息社会数据增量越来越快。如此大规模的数据,一些价值发现和规则挖掘甚至数据中心的处理手段都大相径庭。
学术上严格定义,一般把量级达到1PB的规模数据称为“大数据”。同时规定,“大数据”符合所谓的“4V特征”(即Volume、Variety、Velocity、Value),不过,真正能达到学术层次的大数据量级的企业和政府结构目前还寥寥无几,仅有大型银行、大型互联网公司、大型通信运营商等,以及人类基因序列数据等能达到这个级别。不过,大数据也是结构化的,比如多数大数据来自监控摄像头的视频、商业视频网站的影像资料,以及企业和政府机构的业务流水,价值密度低。
不过需要说明的是,在很多情况下,大数据的量级是自定义的,没有达到1PB在一些特定或者惯性环境下仍然可以唤作“大数据”。环境和前提不同,大数据的定义自然会有所不同。
笔者以为,大数据的本质是信息链接,无它。例如,国内某股份制银行,拥有140套IT系统,34万数据存储字段和100多台数据服务器,且每个IT系统之间数据割裂,完全成了独立的信息孤岛,但是实现大数据之后,信息就可以通过直接和间接的主键链接起来。
本书约定,数据量级特别大的数据(哪怕是1PB以上的规模)并不一定是大数据,只有各种数据源之间实现了信息链接才叫“大数据”;不论是什么数据,只有创造价值才会有价值,反之则毫无价值!大数据产业不是点缀在企业和政务报表中的可有可无的产物,而是深入捆绑在具体业务之中。
3.2.2 泛滥的数据如何有效存储
每天都产生大量的数据需要及时保存下来,且从信息安全的角度来说,数据还需要备份,占用的服务器及耗费的人力和财力对于任何一家机构来说都是一个痛,因为这需要相当昂贵的投资;最关键的是,收集到的“大数据”对于实际业务的开展是否有价值尚未知晓,如果没有用或者用不上,那就是浪费。所以对于大数据,科学、节俭的存储方式显得尤为重要。
1.更换更高配置的硬件服务器;当单纯更换服务器已经无济于事的时候,需采用更加先进的集成存储和分析技术。
2.根据商业目的有选择性地存储数据,及时丢弃一部分无用数据,这样做其实有信息丢失的隐患。
3.采撷数据的数字特征进行存储,比如一个客户历年的购买流水就可以将其浓缩成最早一次购买日期、最近一次购买日期、最大购买金额、最小购买金额、总购买次数、总购买金额等来替代客户具体的交易行为明细数据,如此总数据量会压缩很多。
4.数据区分年限分段管理;封存三年以上的数据,分析使用最近三年的数据,之前的历史数据不去分析,这种方法显然简单粗暴。
5.还有其他的办法,比如云存储介质。
3.2.3 迄今为止大数据成功的部分案例——没有啤酒+尿布
大数据成功应用案例,这里没有沃尔玛的啤酒和尿布的经典传奇,因为笔者去沃尔玛购物从未见到啤酒和尿布放在一起,啤酒总是和酒类放在一起。大数据应用不能只停留在人云亦云的概念上,否则真的只剩下概念了。
1.谷歌和百度的搜索引擎
谷歌和百度这两家互联网巨头都是通过变形的pagerank算法遍历对全球几百亿网站进行竞价排名从而获利。搜索技术的特点是虽技术复杂但是单一,机器作业人为干涉少。
一直以来网络搜索和电子邮件是当今社会最重要的两项互联网应用(现在增加“点赞”也是一项重要的应用),读者应该都能感同身受,故不再赘述。技术细节亦不在本书讨论范围之内。谷歌和百度的出现,让宅在深处的数学家及工程师们看到了各自的价值曙光。
谷歌和百度是早期真正意义上的大数据公司,因为他们是完全依仗大数据进行盈利且养活整个公司员工的互联网巨头,而不是把大数据作为公司战略的一种补充或者点缀。
2.各种导向性标签
对于客户的各种口碑难以在网页上一一简洁呈现,依据大数据制成评价标签可以很好地引导客户进行消费抉择。如图3-3所示,为评价标签簇。
图3-3 评价标签簇
3.推荐系统
推荐系统是老生常谈的大数据产品了。系统的输入、推荐算法、输出三个层面共同构成了完整的推荐系统;其中,推荐算法为核心。推荐系统的算法有很多,比如常见的协同过滤算法。一个协同过滤算法的基本方法是对访客或者成交客户遍历搜索,以便找到需求或者兴趣相似的簇群。算法会对这些人群偏好的内容进行考察,然后个性化地推荐给这类群体,基本原理如图3-4所示。
图3-4 分类算法示意图
需要特别说明的是,并不是任何情况下根据大数据都能设计推荐系统,这里的前提条件是推荐环境一定具有“容错性”,比如说医院根据孕妇的验尿报告,若系统自动化推荐用药和护理方案,这肯定不行。因为在这种环境下不具备容错性,只要机器错了一次后果都是不堪设想的。
推荐系统跟搜索引擎在技术上有相似的地方。目前,推荐系统已经发展得非常成熟了,也非常精细和人性化,比如能做到基于Viterbi算法的消费者情绪推荐,甚至可以做到根据女性的例假生理周期来推介商品和广告。因为,根据研究结果,女性在不同的生理周期对于同一份广告的感受度差异显著。
个性化推荐的目的是为了改善信息的分配和使用,目的在于给用户预先去噪,用户都是很懒的——懒得寻找,懒得比较。
4.排行榜
例如小说排行榜、电影排行榜、美食口碑排行榜等都是大数据排行榜的应用。
5.消费者活动半径的描绘
可以依据网购邮寄地址、免费Wi-Fi获取地址及消费流水,清晰地描述客户群的特征,从而精确对目标客户群体画像成为可能。
6.打车软件
打车软件市场上主要以滴滴+快的两家为主。打车软件原理是基于LBS地理位置的大数据服务。以司机为圆心的一组同心圆,以打车者为中心的一组同心圆,打车软件的本质就是研究两组同心圆最佳及最快的匹配方式,如图3-5所示。
图3-5 打车用户与出租车司机地理位置同心圆匹配示意图
7.大数据医疗
大数据医疗已渐成雏形。任何一个信息可能不对称的场景,大数据越有可能释放威力。
大数据将在以下但不局限以下方面得到系统性的应用。
(1)网络在线挂号。
(2)挂号、缴费、打印病历等完全封闭式信息流。
(3)患者好评度是医生绩效的主要评定依据。
(4)机器学习海量病历样本的先验知识并广泛应用在疾病诊断和预防方面。
大数据应用现在已经非常广泛,就不再一一列举。大数据对于商业形态的影响是循序渐进、潜移默化的,但是对政府机构的冲击可能是更加深远的,比如某个人身份信息进行变更,需奔波于不同的政府机关单位、出具各种证明。我们已经知道大数据的本质是信息链接,一旦实现了大数据,这些平时看起来非常重要的政府办事窗口及其配套都面临下岗的风险。再看如火如荼的不动产联网登记制度,本质上也是大数据,同样一旦实现了信息链接,其影响力将会辐射到各种犄角旮旯。
大数据最大的应用场景是商业和政府的各种资源优化配置与规划。
在一般情况下,大数据看趋势,看宏观,看周期,看机会,看行业,虽然大数据本身噪声可能较大,刷单数据(即虚假交易数据)、长尾数据(即奇异点数据,比如超出常规的天价商品)加上其他情形足以使数据严重变形,不过因为大数据本身巨大的量级使之具备较强的容错性,所以对于事物运转大势的判断通常不会有错;小数据精细,主要用来看细节,看微观,看单点,看局部,看能不能锦上添花,但是通常改变不了格局和形式。如果用大数据看细节,则可能会造成意想不到的后果,举例来说,用网络爬虫爬取一部电影的所有口碑和人气(新媒体转发数、评论数、点赞数、收藏数)数据来预测电影的票房很可能武功全废,这些数据很大程度是刷出来的,不纯净;但是如果用大数据来观察电影上线的最佳档期比如假日波段、每周排片率、每日观影高峰时段势必不会有错。