重复数据删除技术:面向大数据管理的缩减技术
上QQ阅读APP看书,第一时间看更新

1.1.1 大数据定义和维度

大数据即指传统数据分析与管理的工具,难以在合理的时间内抓取、存储、搜索、共享、分析和处理的海量复杂数据集[2]。如图1-1所示,大数据通常具有4V的特点:

图1-1 大数据特征

· 数据体量巨大(Volume):全球数字化数据量以每隔两年就翻番的速度增长。国际数据公司IDC研究表明[1]:全世界每年的数据增长量将从2013年的4.4ZB(1 ZB = 1012 GB)基础上,在2020年增长10倍达到44 ZB的天文数字容量。

· 数据类型繁多(Variety):大数据不仅包括以数据库为代表的传统结构化数据,还有以网页为代表的半结构化数据及以多媒体和文本为代表的非结构化数据。相对于以往便于存储的以文本为主的结构化数据,半结构化和非结构化数据越来越多,多样化的混合数据集也提高了数据处理的复杂度。

· 价值密度低(Value):在大数据集中绝大部分的数据价值并不高。IDC估计在2013年的全球数据量中仅有5%的数据是特别有价值的,但随着大数据管理和分析技术的广泛采用,到2020年这个比例可能会翻番。

· 处理速度快(Velocity):数据爆炸式增长源于产生速度很快,迫切需要快速地分析处理PB级(1015Byte)甚至EB级(1018Byte)海量价值密度低的数据集,并犹如“炼金术”一般,从中即时挖掘出高价值的知识。

无处不在的信息感知和采集终端为我们采集了海量的数据,而以物联网和云计算为代表的信息技术不断进步,为我们提供了强大的数据处理能力,这就围绕个人以及组织的行为构建起了一个与物质世界相平行的数字世界。为充分认识大数据,我们从数据来源、核心流程和支撑技术等三个维度来阐述大数据,如图1-2所示。大数据集的原始生成来源于传感器、社交网络、系统日志和网络爬虫等途径。

图1-2 大数据维度

传感器:往往用于测量物理量,并将其转换为方便处理的可读数字信号,以满足信息的传输、处理、存储、显示、记录和控制等要求。根据基本感知功能,传感器分为声敏元件、热敏元件、光敏元件、气敏元件、力敏元件、电流敏感元件、磁敏元件、湿敏元件、放射线敏感元件、色敏元件和味敏元件等。通过有线或无线传感器网络,将这些信息传输到数据采集点。

社交网络:网络社交过程中,每天都会产生大量的数据。但是它们并不像是我们想象中的那样冷冰冰的、枯燥的数据,而是更加活生生的、有趣的数据。这些数据不同于以往单纯的数字,它们声色结合、图文并茂。比如,Facebook用户每天共享超过40亿个帖子,Twitter每天处理的推特数量超过3.4亿条;而每分钟Tumblr博客作者会发布2.7万个新帖子,Instagram用户会共享3600张新照片。

系统日志:日志文件是一种最广泛使用的数据收集方法,按特定的文件格式记录数据源系统中的活动供后续分析使用。日志文件对数字设备上几乎所有的应用都有用。例如,在Web服务器中有三种主要的日志文件类型用来记录用户活动:NCSA普通日志格式、W3C扩展日志格式和微软IIS日志格式,数据库也可用来存储日志信息优化查询效率。

网络爬虫:搜索引擎从万维网上自动下载和存储网页的一种程序,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。所有被爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。

大数据处理过程经历数据准备过程对采集的原始数据进行预处理准备,再将数据传送到数据中心的云计算平台进行存储管理,上层应用根据需要对这些数据进行计算处理分析,同时挖掘出有高价值密度的知识,最终将这些知识展现给决策者[4]

数据准备:在进行存储和处理之前,需要对数据进行清洗、整理,传统数据处理体系中称为ETL(Extracting Transforming Loading)过程。要想处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据集成和提取时需要对数据进行清洗,保证数据质量及可信性。同时还要特别注意前面提及的大数据时代模式和数据的关系,大数据时代的数据往往是先有数据再有模式,且模式是在不断的动态演化的。

存储管理:当前全球数据量正以每两年翻一番的速度增长,存储技术的成本和性能面临非常大的压力。大数据存储系统不仅需要以极低的成本存储海量数据,还要适应多样化的非结构化数据管理需求,具备数据格式上的可扩展性。

处理分析:需要根据处理的数据类型和分析目标,采用适当的算法模型,快速处理数据。海量数据处理要消耗大量的计算资源,分而治之的分布式计算成为大数据的主流计算架构,但在一些特定场景下的实时性还需要大幅提升。通过计算从纷繁复杂的数据中发现规律提取新的知识,是大数据价值挖掘的关键。对于非结构化、多源异构的大数据集的分析,往往缺乏先验知识,很难建立显式的数学模型,这就需要发展更加智能的数据挖掘技术。

知识展现:在大数据服务于决策支撑场景下,以直观的方式将分析结果呈现给用户,是大数据分析的重要环节。如何让复杂的分析结果易于理解是主要挑战。在嵌入多业务中的闭环大数据应用中,一般是由机器根据算法直接应用分析结果而无须人工干预,这种场景下知识展现环节则不是必需的。

这一系列的流程离不开感知技术生成和收集各种数据,特别是物联网和云计算等基础设施将分散的小数据汇聚成大数据资源池,并实现可扩展存储管理和高效计算处理,而数据挖掘技术作为大数据分析的核心技术从纷繁复杂的低价值密度数据中获取高价值的知识。

云计算:是一种按使用量付费的商业计算模型。它提供可用的、便捷的、按需的网络访问,将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务,只需投入很少的管理工作,或与服务供应商进行很少的交互。

物联网:即物物相连的互联网。核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;但用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信,也就是物物相息。物联网通过智能感知、识别技术与普适计算等通信感知技术,广泛应用于网络的融合中,也因此被称为继计算机、互联网之后世界信息产业发展的第三次浪潮。

数据挖掘:就是指从大量的数据中通过算法搜索隐藏于其中有用信息和知识的过程。数据挖掘通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。

感知技术:是构建整个物联网系统的基础。感知功能的主要关键技术包括传感器技术和信息处理技术。在物联网应用系统中,传感器提供了对物理变量、状态及其变化的探测和测量所必需的手段,而对物理世界由“感”而“知”的过程则由信息处理技术来实现,信息处理技术贯穿由“感”而“知”的全过程,是实现物联网应用系统物物互联、物人互联的关键技术之一。