数字中国:大数据与政府管理决策
上QQ阅读APP看书,第一时间看更新

01 大数据时代到来

大数据是什么

大数据的概念由来

1980年,著名未来学家阿尔文·托夫勒在其《第三次浪潮》一书中,第一次提出了“Big Data”概念,但该概念当时并没有引起关注和广泛传播,直到2011年,麦肯锡全球研究院公开发布《大数据:下一个创新、竞争和生产力的前沿》研究报告,报告中正式提出“大数据时代”已经到来,“Big Data”才开始广受关注。报告称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来。”此后,随着高德纳(Gartner)技术炒作曲线和2012年维克托·迈尔—舍恩伯格、肯尼斯·库克耶联手著作的《大数据时代:生活、工作与思维的大变革》的推广,大数据(Big Data)概念才风靡全球。

2012年初,《大数据,大影响》(Big Data, Big Impact)在瑞士达沃斯论坛发布,报告称:“数据已经成为一种新的经济资产类别,就像货币和黄金一样。”这实际上是对传统思维的一种颠覆。

同年3月,美国白宫科技政策办公室发布《大数据研究和发展计划》(Big Data Research and Development Initiative),并组建高规格的大数据指导小组,以协调和管理政府部门在大数据领域的2亿多美元投资,这意味着美国把大数据提升到了国家层面,并形成了全体动员的国家战略格局。当时的奥巴马政府甚至以“未来的新石油”来定义大数据,认为一个国家拥有的数据规模和运用数据的能力将成为综合国力的重要因素,而对数据的拥有和管控将成为国家间、企业间竞争和争夺的焦点。

此后,英国首相卡梅伦提出全新的“数据权”概念,再次强烈冲击了人们的思维习惯。

那么,大数据究竟是什么呢?

大多数人的第一感受是很多数据、很大规模的数据以及很难处理的数据。维基百科的定义是:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”大数据具有体量大、种类多和存取速度快等特点,涉及互联网、经济、生物、医学、天文、气象、物理等众多领域,是从各种来源(如企业、政府、产业管理部门、网络、电子邮件、视频、图像及社交媒体等)中收集到的海量数据信息的总称。全球90%的数据都是在过去几年产生的,而绝大部分有价值的数据仍然沉淀在政府等相关部门,目前尚未全部有序地开放。

从20世纪60年代的数据处理,七八十年代的信息应用,90年代的决策支持模型,发展到21世纪初的数据存储和挖掘,直到今天才有大数据的说法。我国大部分与大数据相关的技术和分析应用则是从2010年左右才开始出现的,如今大数据在我国仍然处于早期发展阶段。

什么是大数据?我认为,大数据是综合利用新的技术方法对多源、异构、动态的数字资源进行规模化整合和处理,通过构成新的、复杂的逻辑结构以帮助人们解决具体问题的信息集成。大数据是以信息技术为基础的决策支持系统的演进,可以被看作统计插上了信息化的翅膀。

基于应用的大数据解释

入选国家“千人计划”、赛凡信息科技(厦门)有限公司总经理黄剑博士在2015首届大数据论坛上对大数据应用做出了自己的解释:大数据不应该仅仅是量,更主要的是数据之间的关联。原来未曾想到有关联的数据,经过大数据的分析后,产生了一些关联结果,而这些结果可能是原来想到的,也有可能是没有想到的。通过超级计算机,采用一些特殊的算法来寻找数据的关联关系,同时找出关联关系的价值,这就是基于应用的大数据解释。

将语义搜索技术、推荐算法等运用到电商平台或者媒体平台来提升用户体验可以理解为大数据应用。大家在电商平台购物时会发现,搜索和购买商品的体验越来越好,这是语义搜索技术的应用,利用数据进行文本语义分析、同义词挖掘、机器学习等,将使在线购物的交易率大幅提升,而这对于商家来说就意味着营业额的增长。同样,今日头条也是充分利用了大数据推荐算法,根据读者的浏览轨迹,计算出读者的阅读偏好,实时个性化推荐阅读内容,以提升读者的阅读体验,从而获得大量用户,并以广告等模式来实现企业的盈利和发展。

通过分析微博、微信、Twitter等社交媒体数据发现用户特征并提供精准服务可以理解为大数据应用。现在,很多消费品公司会在进行以精准营销为目的的数据分析后,借此提升品牌或产品的忠诚度和消费量。而一些商业机构往往受利益的诱惑会侵犯消费者的隐私,这一点需要特别注意。

基于SAS系统的实时定价机制可以理解为大数据应用。这种机制使商场、百货公司或超市可以根据顾客需求和库存的情况,对上万种商品进行实时调价,以响应市场的价格策略,保持竞争优势。

从数据结构上看,来源于网络和云的海量数据大约80%以上是非结构化的,尽管如此,当前的数据环境也为发现和创造价值、丰富商业智能以及支撑领导决策提供了新的机遇。当然,大数据也面临着复杂、安全和隐私风险等挑战。传统的BI(Business Intelligence,即商业智能)已经无法满足业务发展的需要。尽管我们经常接触到大量的企业级BI平台,但这些传统的BI平台只能实现事后的报告和滞后的预测。我们应该开始构建真正能预测顾客忠诚度的模型,并基于历史交易数据,采用多个变量进行分析预测,识别出即将流失的客户或者即将成交的订单。

另外,大数据重新定义了数据管理的范围,由数据采集、转换、加载演变为净化和组织非结构化数据的新技术。新的数据管理系统旨在应对大数据带来的挑战,如分布式数据库技术是一个开源平台,是目前在管理存储和接入、高速并行处理大规模数据集等方面应用最为广泛的技术。然而,对很多中小企业或者政府部门来说,分布式数据库技术是一个挑战,这些机构往往不具备应用大数据所需的专业人员和经验,需要外部资源帮助。大数据应用需要的不是纯粹基于技术的技能,如何找到具备正确分析大数据技能的人才是实际应用面临的最大难题。对于大部分机构来说,发现和选择胜任的数据专家是困难且昂贵的。[1]

大数据主要来源于本地数据、互联网数据和物联网数据。本地数据无处不在,人类自从发明文字开始,就在记录各种数据。在互联网普及之前,绝大多数数据都存储在本地,不是公开的数据资源。例如,政府统计数据、居民消费数据和企业运营数据等历经多年的沉淀,数据量巨大,一旦开放,就将成为一座巨大的数据宝库,有待研究者们进行挖掘。随着互联网的普及,人们每天都会通过使用网络产生数以十亿计的海量互联网数据。如谷歌地图、百度地图等出现后,其产生了大量新型的代表着行为和习惯的位置数据;随着微博、Facebook、Twitter等社交媒体的兴起,用户可以随时随地在网络上分享内容,由此产生海量的用户生产数据;电子商务的热潮带来了支付行为、购买行为、物流运输等方面的数据……这些海量的互联网数据中隐藏着代表特定人群的行为和习惯,经分析挖掘后能够帮助企业准确识别出影响用户行为的因素,有效地将客户需求分级,从而能够既有创造力又有效率地满足客户需求。物联网是新一代信息技术的重要组成部分,也是信息化时代的重要发展阶段,其用户端已延伸和扩展到了在任何物品与物品之间进行信息交换和通信,因此其数据量规模、数据生成频率、数据传输速率、数据多样化、数据真实性等均优于传统互联网。大数据的发展离不开物联网,物联网为大数据提供了足够且有利的数据资源,大数据技术也推动着物联网的发展。


注释

[1] 高常水,江道辉,蒋钦云.大数据在政府部门的应用[J].物联网技术,2014(6):6—10.