云上贵州 贵州省大数据发展:探索与实践
上QQ阅读APP看书,第一时间看更新

一、探源:三个关键问题

(一)数据从哪里来?

发展大数据产业,推动大数据应用,海量的数据资源是基础。数据从哪里来?数据源有哪些?如何获取数据?在安全的前提下,政府的数据怎样整合开放?企业的数据怎样汇集进来?这是贵州发展大数据需要回答的首要问题。

1.数据源

大数据的产生方式、存储载体、访问方式、表现形式等都不同于传统数据。当今的大数据主要来自以下三个方面。

第一,机器产生数据。随着物联网技术的发展,越来越多的机器配备了连续监测周围环境情况的传感器,传感器可以感知和传输不断产生的数据,如传感节点采集的视频监控数据、PM2.5数据、人流数据等。移动互联网出现后,移动设备的传感器采集了大量的用户情况数据,也成为数据非常重要的来源。随着政府业务在互联网、移动互联网、物联网等领域广泛和深入的应用,这类数据的规模在迅速增加,数据的巨大价值日益显现出来,相关数据的处理技术也逐步成熟。

第二,行为产生数据。进入了Web 2.0时代后,互联网行为体现为用户参与和交互应用,大量的网络参与和交互创造出了海量的社交行为数据。这些数据,如电子商务、通讯通信、银行交易、社交网络中的数据,包含着关于互联网使用者行为的有趣信息,揭示出人们的行为特点和生活习惯,可以提供对他们潜在需求和愿望的有用认知。尤其是,电商的崛起导致了大量的交易数据的产生,包括支付数据、查询行为、物流运输、购买喜好、点击顺序、评价行为等。另外,传统的互联网入口转向搜索引擎之后,用户的搜索行为和提问行为也集聚了大量的数据,用户在网上的每个点击及时间都会留下浏览痕迹,利用这些痕迹,服务商可以对用户模式仔细分析,并进行更有效的市场营销和产品推广,基于用户的需求和行为提供更为个性化和定制化的服务。

第三,集中共享数据。在数据的存储、加工、开放、利用过程中,对数据的压缩、规则的适用、智能分析、共享利用等,越来越以多云计算的方式进行。数据量变大最重要的推手其实就是云计算,各类数据被搬到云上之后,更容易被分享、开放和使用。过去那种各自分割存储的数据往往不具备太大价值,只有不同领域打通共享,数据金矿才能呈现眼前。集中共享的数据源越来越多,这也正反映了大数据精髓所在。

2.数据获取途径

如果说过去土地是政府手中的财富,那么现在数据便是一种新的财富,是未来的金矿和石油。它既是政府的战略资源,也是企业发展和民众福利的源泉。在大数据时代,谁掌握了足够的数据,谁就有可能掌握未来,现在的数据采集就是将来的流动资产积累。数据获取主要包括三种途径。

第一,智能采集,直接获取数据。采集是大数据价值挖掘最重要的一环,对于技术也有着较高的要求。移动互联的发展催生了更为多样化、非结构化的数据。在传统的企业中,数据都是以高度结构化的表格形式保存在数据库中,所有的信息格式都完全标准化,便于编程处理。而在大数据时代,不仅数据量更为庞大,数据类型也更加多种多样。最常见的数据类型,包括普通文本、照片、视频等数据,还有位置信息、链接信息等XML类型的数据。智能化采集数据是一种直接的数据获取方式,这种途径主要是针对电商数据、社交数据、电信运营商管道数据等企业和社会数据进行专业采集、获取,并将数据资源商品化以形成具体的产业形态。

第二,依托数据基地和中心,加工得到数据。通过加工、存储产生数据是数据获取的第二个途径。主要依托大数据基地和中心,以数据存储和数据加工为基础,通过数据清洗、挖掘、脱敏、分析、建模等加工从而获得数据。从大数据的加工和分析技术上看,需要组织技术力量尝试改进已有数据挖掘和机器学习技术,开发特异群组挖掘、数据网络挖掘、图挖掘等新颖实用的数据挖掘技术。同时,侧重发展基于对象的数据相似连接等前端大数据融合技术。在此基础上,加大力度研发面向用户兴趣、网络行为、情感语义分析等领域的大数据挖掘技术。这些技术的发展和成熟对于未来的大数据产业规模化和盈利化,产生着重要的作用。

第三,推进大数据交易和备份,间接获取数据。数据获取途径之三是大数据交易和引入数据库备份间接获得数据。收集数据显然不是目的,目的在于数据交换和交易。当前,信息界和企业界普遍关注到了这样的机遇和趋势,一些地方也正在开展数据交易的探索实践。数据交易主要包括三个数据交易品种:源数据、数据产品和数据模型。如何理解这些品种呢?中关村大数据交易产业联盟秘书长秦翯曾举过一个很形象的例子:“假如你有一堆土豆,你把它们直接卖掉,这叫作源数据交易;你把它们切好后炸成薯条卖掉,这叫作数据产品交易;如果你炸的薯条特别好吃,卖得也特别好,并像麦当劳那样将经营模式推广至全球,这时你就是在完成数据模型的交易。”数据交易不仅是一项数据来源,更对应着大数据的即时交换及相应服务。它与大数据业态的设计和规划息息相关,其中包括大数据交易、移动金融、众筹金融、大数据金融投资、大数据征信和大数据资产评估等。

(二)数据放在哪里?

解决了数据从哪里来的问题,还需要考虑数据放在哪里的问题。解决数据放在哪里这个问题需要重点考虑两个制约因素:一个是存储体;一个是通道。前者是静态的存储平台,后者是动态的流动网络,两者共同构成数据存储和流动的生态网络。

1.数据存储载体

数据放在哪里的核心问题在于安全、有效的存储。这个问题涉及不同载体的属性、功能,也关系数据存储方式和地址的选择。一般而言,数据存储载体包括以下几种。

第一,大数据中心。大数据中心是数据存储的重要场所。伴随大数据热潮而至的是全行业对数据中心的倍加关注。当前,我国的数据中心多以中小规模的传统数据中心为主。由于技术、资金和人才等原因,中小规模的数据中心普遍存在着能效差、水平低、重复建设等问题。在大数据时代,数据中心的建设和布局应以科学发展为主题,以节约资源和保障安全为着力点,遵循产业发展规律,发挥区域比较优势,遵循发展与安全并重原则。按照工业和信息化部、国家发展改革委、国土资源部、电监会、能源局等五部委联合发布的《关于数据中心建设布局的指导意见》,数据中心选址要避开地质灾害多发地区,在同一城市不宜集中建设过多的超大型数据中心;新建超大型数据中心,重点考虑气候环境、能源供给等要素。

第二,云平台。大数据放在哪里,不仅仅是一个技术问题,而是关联着真实的、可操作的决策信息和数据价值。传统的数据存储基础设施并不适合于大数据管理,而云平台提供了一种简单的、具有成本效益的方式,用来处理、存储和管理大数据。云平台的可扩展和灵活的性质使其成为大数据管理的理想选择。通过这个平台,企业能够对从大数据中得出的消费者行为、社交媒体、销售数据和其他指标进行分析,这将直接关联到商业价值。通过基于云平台的存储系统,数据集可以被复制、迁移和保存在世界的任何地方。通过将基础设施放在云供应商处,政府和企业不再需要开发、托管和维护自己的基础设施,显著降低了成本。

第三,智能终端。一般而言,智能终端是一类嵌入式计算机系统设备,其应用场景设定较为明确。近几年,移动互联网、物联网快速发展,带动全球信息产业换代升级,给智能终端产业带来了巨大的市场需求。电脑、智能手机、触摸屏、智能穿戴设备、遥控飞行器等都是端产品。这些产品中具有存储、沉淀数据的功能,当用户不想共享智能终端内的数据时,可以存储为自有数据。未来的互联网发展会变成万物互联的格局,而智能终端在数据存储方面将会起到至关重要的作用,它将为互联网保驾护航,给电脑提供更高的处理速度和更大的存储空间。

2.数据流通管道

数据放在哪里?除了存储平台的因素外,很重要的制约因素就是数据流通管道。数据流通管道包括电信网、固定互联网、移动互联网、广播电视网等信息基础设施。宽带、融合、泛在、安全的网络信息基础设施体系,可以为大数据发展提供良好的支撑环境,可以推动以大数据为引领的信息产业发展水平迈上新台阶。

第一,宽带是整个社会经济信息传播的载体。在大数据时代,宽带具有和水、电、天然气管道同等重要甚至更重要的地位。2013年8月,国务院正式提出了“宽带中国”战略,将其定位为国家战略性公共基础设施。对于一个地区和城市来说,宽带就是虚拟世界的信息高铁,是推动数据集聚的基本前提条件。在大数据时代,特别是以分布式计算、存储为特征的云环境下,数据计算需要大量的传输、交互,更需要超一流的基础设施,宽带就符合这种条件。

第二,WiFi城市的构建对数据集聚的作用十分显著。从数据层面来讲,建一个覆盖全程、完全免费的WiFi系统,供市民、游客免费无线上网,这个平台将产生商业、社会、政府、个人等各种模式的行为数据。在此基础上,形成城市的互联网主入口,聚集访客量和浏览量,不断拓展规模,推动“块”上数据的快速积累,再通过政府数据开放和企业数据有偿共享,形成大数据汇聚平台。并以此来推动政府基于WiFi接入系统的公共服务和社会管理模式创新。

(三)数据如何应用?

大数据的内容代表的是历史,而其应用服务的是未来。大数据不仅是指数据容量之大、类型之多,更为重要的意义在于分析这些数据可以创造出更大的公共价值。也就是说,通过对海量数据的深度挖掘与多维剖析,可以准确地掌握经济社会运行、政府服务和管理的动态,发现社会和公众的新需求,培育新的产业链和商业模式,有效提升政府治理能力,形成政府、企业、社会多元互动、协作共治的良好格局。

第一,政用:数据优政。大数据是国家治理的重要信息基础。对于政府来说,政府既是数据的掌控者、开放者,也是重要的应用者。政府的主导作用怎样发挥好、怎样“用数据说话、用数据管理、用数据决策、用数据创新”是大数据时代提升政府治理能力的重要课题。换而言之,政府的改革既是制度革命、管理革命,也是技术革命。在大数据的环境下,政府将从基于“经验”的决策模式走向基于“数据”的决策模式,政府决策的依据不再是个人经验和长官意志,而是“用数据说话”。通过系统采集客观数据和运用大数据分析方法,可以让政府决策的科学性、前瞻性、精准性提升到一个新的层次。此外,通过引入大数据的理念、方法和技术,还可以有效提升政府的管理效能,管好公共资源、公共权力、公共资金、公职人员,真正实现“人在干、云在算、天在看”。

第二,民用:数据惠民。开发大数据的是少数人,但利用大数据的是多数人。如何让大数据惠及民生,让老百姓分享“大数据红利”是一个非常重要的课题。大数据正在变成社会管理和社会服务的新手段。政府在人口、教育、治安、就业、交通、社保、卫生、工商、税收、民政等方面拥有天然的数据优势。通过建设大数据公共服务平台,可以在医疗健康、社会保障、旅游、交通、食品安全等方面,为社会和公众提供更为灵活的服务方式、更加丰富的服务内容和更加高效的服务效率,促进行政管理、社会事务、便民服务一体化。在大数据的辅助下,政府一方面能够实时、全面感知和预测公众所需的各类服务和信息,及时发现需求热点,为用户提供更加智能化的办事、便民服务;另一方面,通过对公民需求的多维度多层次细分,把从面上的需求判断变为对需求细节的感知,使政府服务提供更精准、更个性化,有助于使政府改变传统的“指令导向”的公共管理模式和“供给导向”的公共服务模式,开启“需求导向”的公共管理与服务新模式。

第三,商用:数据兴业。大数据在当代社会已成为重要的战略资产。对企业而言,好的数据是业务部门的生命线和所有管理决策的基础。那些能够驾驭客户相关数据的公司往往会发现新的竞争优势。20世纪90年代以来,随着信息、通信技术的发展与融合,新的商业模式层出不穷,涌现出一大批依靠商业模式创新而创造辉煌的企业,如IBM、Google、苹果、eBay、亚马逊、Facebook、海尔,等等。纵观这些商业模式创新的典范,可以看出它们大都与数字化技术和互联网有关。新奇的商业模式(Novel Business Models)是各类企业在捕捉和分析海量数据中开展竞争的新标记。2011年5月,麦肯锡全球研究所发布了一份专门的研究报告《大数据:下一个创新、竞争和生产率的前沿》,报告指出:“数据已经渗透到每一个行业的每一个业务职能领域,逐渐成为重要的生产要素,人们对于海量数据的运用将预示着新一轮生产率增长和消费者盈余浪潮的到来。”从企业的层面上来说,大数据的思维不是做和不做的问题,是时代的选择,不管是农业、工业制造等传统行业,还是传媒、金融等服务业,都是必须要面对的准则和挑战。