互联网金融
上QQ阅读APP看书,第一时间看更新

3.1.1 金融大数据概述

当今,信息技术为人类步入智能社会开启了大门,带动了互联网、物联网、电子商务、现代物流、互联网金融等现代服务业发展。“大数据”这一概念的提出可以追溯到2008年。当年9月,《自然》(Nature)杂志出版了《大数据》(Big Data)专刊。2011年2月,《科学》(Science)期刊联合其姊妹刊推出了一期关于数据处理的专刊——“Dealing with data”,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据所带来的技术挑战。与此同时,麦肯锡、IBM等知名跨国商业机构纷纷提出“大数据”概念和行业展望。在国内外相关领域的共同推动下,“大数据”已从概念演化为集科学原理、信息技术、数据理念为一体的集合体。

1.从资源视角来看,大数据是新资源,体现了一种全新的资源观

自2000年以来,以Hadoop为代表的分布式存储和计算技术迅猛发展,极大地提升了互联网数据管理能力,引发全社会开始重新审视“数据”的价值,开始把数据当作一种独特的战略资源对待。未来5年,全球数据将成指数级增长,根据国际数据公司(International Data Corporation,IDC)统计,2014年全球数据总量为8ZB,预计2020年达到44ZB。我国数据总量为909EB,占全球数据总量的13%。其中,媒体、互联网数据量占比为1/3,政府部门、电信企业数据量占比为1/3,其他的金融、教育、制造、服务业等数据量占比为1/3。2020年,我国数据量将达到8060EB,占全球数据总量的18%。

2.从技术视角看,大数据代表了新一代数据管理与分析技术

传统的数据管理与分析技术以结构化数据为管理对象,在小数据集上进行分析,以集中式架构为主,成本高昂。与“贵族化”的数据分析技术相比,源于互联网的、面向多元异构数据、在超大规模数据集上进行分析、以分布式架构为主的新一代数据管理技术,与开源软件潮流叠加,在大幅提高处理效率的同时,成百倍地降低了数据应用成本。例如,Hadoop技术可将数据存储和分析的成本由原来的3万USD/TB,压降到300至1000USD/TB,新一代计算平台Spark进一步将Hadoop的性能提升了30多倍,类似的开源技术,在极大提高了数据分析效能的同时,大大降低了数据分析的技术门槛,为企业提供了低成本的大数据技术方案。如图3-1所示为大数据基础技术图谱。

图3-1 大数据基础技术图谱[1]Matt Turck.Is Big Data Still a Thing?(The 2016 Big Data Landscape)[EB/OL],[2016-01-01].http://mattturck.com/big-data-landscape/

3.从理念视角看,大数据打开了一种全新的思维角度

大数据的应用,赋予了“实事求是”新的内涵,其一是“数据驱动”,即经营管理决策可以自下而上地由数据来驱动;其二是“数据闭环”,互联网行业往往能够构建包括数据采集、建模分析、效果评估到反馈修正各个环节在内的完整“数据闭环”,从而能够不断地自我升级、螺旋上升。

当前,国内外缺乏对大数据产业的公认界定。从技术体系的角度来看市场普遍认同的大数据技术体系,包括以Docker为代表的容器微服务技术、以Hadoop为代表的大规模分布式存储计算技术、以Spark为代表的大规模数据分析建模技术、以Kafka为代表的数据总线技术、以HBase为代表的非结构化查询语言(No Structured Query Language,NoSQL)技术、以Redis为代表的内存数据库等。从数据应用的角度来看,大数据产业既包括在大数据采集、存储、管理、挖掘等环节提供数据资源供给、数据分析服务、数据应用产品的“核心大数据企业”,也包括诸多非信息技术领域中,运用大数据理念、技术来提升运作效率、提高决策水平的“大数据生态企业”。

中国信息通信研究院预计,2017—2018年,我国大数据核心产业的市场规模将维持40%左右的高速增长;华沙经济研究院预计,欧盟27国因大数据生态的建立,至2020年将获得1.9%的额外GDP增长;美国麦肯锡咨询公司预计,到2020年,美国大数据应用带来的增加值将占当年GDP的2%~4%;中国信息通信研究院预计,到2020年大数据应用将带动中国2.8%~4.2%的GDP增长[2]中国信息通信研究院.大数据白皮书(2016)[M/OL],[2016-12-28].http://www.cttl.cn/data/bps/201612/P020161228287754680380.pdf

未来,大数据技术将呈现出数据源更丰富、处理技术更强大、分析技术更精准等趋势。数据源方面,经过行业信息化建设,医疗、交通、金融等领域已经积累了大量的数据资源;而随着物联网的应用、移动互联网的普及,来自社交网络、可穿戴设备、车联网、物联网以及政府公开信息平台的数据,将成为大数据增量数据资源的主体。数据处理技术方面,谷歌文件系统(Google File System,GFS)、Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)技木的出现,奠定了大数据存储技术的基础;而日后出现的MapReduce(映射规约梭型)、Storm、Dremel、Spark、Pregel等各类大数据技术,进一步提升了大数据处理能力,在开源社区的不断努力之下,性能更高的新技术将不断涌现、快速更新。数据分析技术方面,大数据为人工智能、深度神经网络的研究突破提供了技术和数据保障。未来,大数据技术不但能够大大降低企业部署联机分析处理(On Line Analytical Processing,OLAP)、数据挖掘等数据分析工作的成本,更可在大量结构化/半结构化数据及文字、图片、音频、视频等非结构化数据中获得更多的价值。