上QQ阅读APP看书,第一时间看更新
二、发展历程
大数据技术发展经历了萌芽、探索、快速发展、成熟4个阶段。
1.萌芽阶段
20世纪90年代至21世纪初是大数据发展的萌芽时期,处于数据挖掘技术阶段。网络带宽、存储设备等信息基础设施持续完善,为大数据的存储和传播准备了物质基础。互联网领域的公司最早重视数据资产的价值,最早从大数据中淘金,并且引领大数据的发展趋势。随着数据挖掘理论和数据库技术的逐步成熟,数据仓库、专家系统、知识管理系统等一批商业智能(business intelligence,BI)工具和知识管理技术开始被应用。此时期对大数据的研究主要集中在算法、模型、模式、识别等方面。
2.探索阶段
2003年至2006年是大数据发展的探索期,处于围绕非结构化数据自由探索阶段。非结构化数据的爆发带动大数据技术的快速发展,以2004年Facebook创立为标志,社交网络流行直接导致大量非结构化数据的涌现,而传统处理方法难以应对。此时学术界、企业界正从多角度对数据处理系统、数据库架构进行重新思考,研究热点较为分散,且尚未形成共识。这一期间Google公司工程师Jeff Dean和Sanjay Ghemawat发表了3篇论文,分别提出GoogleFileSystem(2003)、MapReduce算法(2004)和BigTable数据库(2006),奠定了大数据技术的核心基础。
3.快速发展阶段
2006年至2009年是大数据技术的快速发展期,形成了并行运算与分布式系统。2009年Jeff Dean在BigTable基础上开发了Spanner数据库。此阶段大数据研究的热点再次趋于集中,聚焦性能、云计算、MapReduce、Hadoop等方面。云计算为大数据的集中管理和分布式访问提供了重要的技术支持,大数据成为云计算的灵魂和必然的升级方向。
4.成熟阶段
2010年以来,随着智能手机等移动终端和物联网的应用日益广泛,数据的碎片化、分布式、流媒体特征更加明显,并且数据类型多样,内容丰富,成为大数据重要的来源。以文件系统(Google FileSystem)、处理算法(MapReduce)和分布式数据库(BigTable)为代表的老“三核心”面临能力瓶颈,2010年Google为应对这种趋势而开发的Percolator、Dremel和Pregel日趋成为新的“三核心”。与此同时非关系型数据库(NoSQL)再次创新,开始转向兼具关系型易查询和非关系型高扩展性的新型云数据库(NewSQL),代表有Google的Spanner、Amazon的RDS、Microsoft的SQL Azure等,大数据的核心技术仍在快速发展。