2.1 概述
2.1.1 大数据的定义与分类
1. 大数据的定义
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的信息资产。大数据是“未来的新石油”。
从对象角度来看,大数据是数据规模超出传统数据库处理能力的数据集合;从商业模式角度来看,大数据是企业获得商业价值的业务创新方向;从技术角度来看,大数据是从海量数据中快速获得有价值信息的技术;从应用角度来看,大数据是对特定数据集合应用相关技术获得价值的行为。
大数据的定义示意图如图2-1所示。
图2-1 大数据的定义示意图
2. 大数据的分类
(1)根据数据来源划分 按照数据来源的不同,大数据主要分为传统企业数据、机器和传感器数据、社交数据等。
1)传统企业数据。传统企业数据包括客户关系管理系统的消费者数据,传统的企业资源计划(ERP)数据、库存数据以及账目数据等。
2)机器和传感器数据。机器和传感器数据包括智能仪表和工业设备传感器产生的数据,以及设备日志、交易数据等。
3)社交数据。社交数据包括用户行为记录、反馈数据等。
(2)根据数据结构划分 按照数据结构的不同,可以将大数据分为结构化数据和非结构化数据。
1)结构化数据。结构化数据是能够用数据或统一的结构加以表示的信息,如数字、符号。在项目中,保存和管理这些数据的一般为关系数据库,当使用结构化查询语言时,计算机程序很容易搜索到这些术语。结构化数据具有的明确关系使得这些数据运用起来十分方便,不过在商业上的可挖掘价值方面就比较差。
典型的结构化数据包括信用卡号码、日期、财务金额、电话号码、地址、产品名称等。
结构化数据存储在关系数据库中,用于分析结构化数据的工具较为成熟。
2)非结构化数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。
典型的人为生成的非结构化数据包括文本文件、电子邮件、社交媒体、网站、移动数据、通信、媒体和业务应用程序产生的数据。
非结构化数据存储在非关系数据库中,用于挖掘非结构化数据的工具正处于发展阶段,而且非结构化数据要比结构化数据多得多。非结构化数据占90%以上,并且逐年增长。如果没有工具来分析这些海量数据,数据的巨大价值都将无法发挥有效作用。
随着存储成本的下降,以及新兴技术的发展,行业对非结构化数据的重视程度得到提高。比如物联网、工业4.0、视频直播产生了更多的非结构化数据,而人工智能、机器学习、深度学习、语义分析、图像识别等技术方向则更需要大量的非结构化数据来开展工作。
3. 大数据的内容
从大数据的生命周期来看,大数据主要包括大数据采集、大数据预处理、大数据存储和大数据分析。
(1)大数据采集 大数据采集是指对各种来源的结构化和非结构化海量数据所进行的采集。
(2)大数据预处理 大数据预处理是指在进行数据分析之前,先对采集到的原始数据所进行的诸如“清洗、填补、平滑、合并、规格化、一致性检验”等一系列操作,旨在提高数据质量,为后期分析工作奠定基础。
(3)大数据存储 大数据存储是指用存储器以数据库的形式存储采集到的数据的过程。
(4)大数据分析 大数据分析是从可视化分析、数据挖掘算法、预测性分析、语义引擎以及数据质量管理等方面,对杂乱无章的数据进行萃取、提炼和分析的过程。
在人们生活中有很多大数据应用的实例,如在线打车、在线看新闻、在线搜索、在线交互广告、在线买单优惠劵、电子商务以及在线看视频等,都应用了大数据技术。
4. 大数据的特征
大数据特征可以归纳为4个“V”——Volume(规模性)、Variety(多样性)、Velocity(高速性)和Value(价值性)。
(1)规模性 大数据不再以几个GB或几个TB为单位来衡量,而是以PB、EB或ZB为计量单位,集中储存/集中计算已经无法处理巨大的数据量。
数据存储单位之间的换算关系见表2-1。
表2-1 数据存储单位之间的换算关系
(2)多样性 大数据的数据来源众多,科学研究、企业应用和Web应用等都在源源不断地生成新的数据。交通大数据、医疗大数据、电信大数据、电力大数据和金融大数据等都呈现出井喷式增长,所涉及的数据量十分巨大。
大数据的数据类型丰富,包括结构化数据和非结构化数据。其中,结构化数据占10%左右,主要是指存储在关系型数据库中的数据;非结构化数据占90%左右,种类繁多,主要包括邮件、图片、音频、视频、微信、微博、地理位置信息、手机呼叫信息和网络日志等。如此类型繁多的异构数据,对数据处理和分析技术提出了新的挑战,也带来了新的机遇。
(3)高速性 大数据时代的数据产生速度非常快,例如大型电子对抗机,大约每秒产生6亿次的碰撞,每秒生成约700M的数据,有成千上万台计算机分析这些碰撞。
大数据时代的很多应用都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践。因此,数据处理和分析的速度通常要达到秒级响应,这一点与传统的数据挖掘技术有着本质的不同,后者通常不要求给出实时分析结果。
为了实现快速分析海量数据的目的,新兴的大数据分析技术通常采用集群处理和独特的内部设计。例如,谷歌公司的交互式数据分析系统(Dremel)是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析,通过结合多级树状执行过程和列式数据结构,它能做到几秒内完成对万亿张表的聚合查询,系统可以扩展到成千上万的中央处理器(CPU)上,满足谷歌公司上万用户操作PB级数据的需求,并且可以在2~3s内完成PB级别数据的查询。
(4)价值性 大数据的价值密度低,商业价值高;只要合理利用数据并对其进行准确分析,将会带来很高的价值回报。
5. 大数据的融合
数据融合的方式从交互程度来讲,可分为数据组合、数据整合和数据聚合三个层次,由低到高,逐步实现数据之间的深度交互,如图2-2所示。
(1)数据组合 数据组合由各方数据的简单组合形成,能够全貌客户用户特征。该数据融合产生的是物理反应,数据属性本质没有改变。如一份征信报告,由交易数据、通信数据和购物数据等简单拼装而成,如图2-3所示。
图2-2 数据的融合方式
图2-3 数据组合
(2)数据整合 数据整合由多方的数据共同存在才能够实现产品价值。该数据的融合产生的是化学反应,有价值产生。如黑名单,只有通过分析金融数据和通信行业数据才能判断是否为黑名单。如该用户有异常金融行为,再加上该用户频繁换手机和停机次数多,基本可判断为黑名单用户,如图2-4所示。
图2-4 数据整合
(3)数据聚合 数据聚合是指由双方数据聚合孵化产生出的新产品、新模式。如分期贷款,通过大数据风控能力分析,不仅减少审核流程,而且也能进行贷中监控和贷后管理,还能够对失联用户进行定位和催收,如图2-5所示。
图2-5 数据聚合