1.3 大数据的内涵
1.3.1 大数据的含义
大数据发展已久,社会各界也从不同角度给出了大数据的定义。《大数据与人工智能》认为,大数据是不能用常用工具来捕捉、管理和处理的一个数据集合,它是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
麦肯锡咨询公司从技术的角度给出了大数据的定义,即大数据是指规模超过现有数据库工具获取、存储、管理和分析能力的数据集,并且不是数据大小超过特定数量级的数据集才是大数据。
美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)从大数据内涵的角度,将大数据定义为“具备海量性、高速性、多样性、可变性等特征的多维数据集,需要通过可伸缩的体系结构实现高效的存储、处理和分析”。
综上所述,我们可以认为,所谓大数据,是指海量数据自身以及为了实现数据到价值的转换过程所涉及的工具、平台、系统的集合。
1.3.2 大数据的特征
在维克托·迈尔-舍恩伯格和肯尼思·库克耶编写的《大数据时代》一书中,大数据分析是指要对所有数据进行分析处理,而不是采用抽样调查对小数据集进行分析的方式。相比于小数据的数据量小、数据类型单一的特点,大数据具有数据量大、多样性、时效性、准确性和低价值密度的五维特点(见图1-5)。
图1-5 大数据的五维特点
①数据量大。大数据的特征首先体现在大数据存储介质的容量“大”。在MP3风靡全国的时代,MB存储级别的MP3可以满足大多数人对歌曲存储的要求。然而随着信息技术的发展,社会产生的数据量开始井喷式增长。数据存储单位已经从过去的MB和GB,发展到现在的PB、EB级别。社交平台(微信、QQ、微博)、物联网、电子商务等,都成为数据的重要来源。
②多样性。广泛的数据来源,决定了大数据形式的多样性。用户个性化推荐系统作为大数据应用之一,已经广泛地应用在了京东、QQ音乐、小红书等平台,这些平台通过对用户的行为数据、日志数据等进行分析和挖掘,从而推荐给用户其可能感兴趣的产品和内容。这些数据既有类似于用户日志的结构化数据,还有一些非结构化数据,如视频、图像等。
③时效性。生活中每个人都离不开互联网,每个人每天都在互联网上产生大量的数据。花费大量成本去存储作用较小的历史数据从商业角度来看是非常不划算的。对于一个商业公司而言,保存的历史数据可能只是过去几天或者一个月之内的数据,对更早的数据就要及时清除。基于这种情况,大数据对处理速度有非常严格的要求,谁的速度更快,谁就在竞争中更有优势。
④准确性。数据的准确性是指在数据的生命周期内,数据的一致性和完整性。保证数据的准确性意味着数据应以准确、真实、完整的方式来进行收集、记录和存储。然而,在大数据时代,数据的真假很难区分,这也是当前需要着重解决的大数据技术难题之一。如当前大型互联网平台采用的解决数据准确性问题的方法通常是技术和管理的结合。在技术上,首先通过使用更优数据预处理方法,去除大部分无用数据;然后在数据分析阶段,通过设定一系列逻辑验证规则,进一步保证数据的准确性。而在管理方面,则通过设定一个规范化的数据管理流程,如数据安全的保护等,来保证数据的真实性和准确性。
⑤低价值密度。大数据分析的价值在于从海量相关性较低的多种类型的数据中,挖掘出对模式预测与未来趋势有价值的部分数据,然后借助人工智能技术,如深度学习等,发现新的知识,并将其运用于各个领域,从而达到改善社会治理、提高社会生产效率的目的。
1.3.3 大数据的处理流程
用户访问企业网站的同时,网站拥有了大量的访客及其访问内容的信息,但这并不代表企业能够充分利用这些信息。为了更好地利用这些信息,企业需要对数据进行分析处理,发掘内部有价值的信息,从而对用户群体进行细分,针对不同用户群体制定个性化的营销策略。目前大数据的处理流程主要分为数据预处理、数据统计与分析、数据挖掘三个部分。
1.数据预处理
数据预处理作为大数据分析的第一步,对数据挖掘的效果至关重要。进行数据预处理的根本原因在于原始数据中存在数据缺失、数据不一致、部分数据异常等现象,这些现象可能导致挖掘结果的偏差。进行数据预处理,一方面能提高数据的质量,另一方面能让数据更好地适应特定的挖掘技术或工具,最终达到算法和知识获取研究的最低要求和规范。数据预处理的流程包括数据清理、数据集成、数据规约和数据变换。
(1)数据清理
数据预处理的第一步是数据清理,主要包括处理缺失值及异常值检测。
①处理缺失值。在数据预处理中,数据缺失是常见的问题,产生的原因也是多种多样的,主要包括人为因素和机械故障。因此,对缺失值的处理是数据预处理中的重要一环。目前对缺失值的处理方式,一般包括以下几类。
a.忽略缺失值:当数据中含有的属性缺失值占总数据的比例较小时,可以采用忽略缺失值或者直接去除含有缺失值数据的方法。
b.人工填充缺失值:通过重新收集数据,或者根据相关知识来填充数据,此类方法存在费时的缺点。
c.常量填充:通常使用均值与众数填充,或者采用概率分布,使数据分布看起来更真实。同时,也可以结合实际情况通过公式进行计算填充,比如某一天的门店客流计数缺失,可以参考过往的客流数据、转化数据、缺失时段的销售额,用一个简单公式自动计算回补。
d.模型填充:以不含有缺失值的数据作为训练集,通过建立预测缺失值模型,对含有缺失值的数据进行填充。常用的模型有XGBoost、AdaBoost等。
②异常值检测。异常值检测是指处理数据集中含有的离群点,离群点是指远离大部分数据集中区域的数据。这部分数据可能由随机因素产生,也可能由数据采集机制产生,如何处理取决于离群点的产生原因以及应用目的。若由随机因素产生,应当忽略或者剔除离群点;若由数据采集机制产生,离群点就是有价值的数据,是对构建模型有用的数据。后者的一个典型应用为用户异常行为检测。例如,在不良信用卡用户识别检测中,对大量的用户信用卡信息和消费行为进行量化建模和聚类后,聚类中远离大量样本的点是非常可疑的。第一,因为这类用户和正常用户的信用卡信息的特征相差较大;第二,因为他们的消费行为和正常用户的消费行为也有很大的不同。同样,购物网站检测到恶意刷单等,都是用户异常行为的表现,从而形成了离群点。常用的异常值检测方法有聚类算法、支持向量机等。
(2)数据集成
数据集成是将来自不同数据源的数据整合,使之成为数据格式一致的数据。其主要用来处理数据集中的实体识别、数据冗余、元组重复以及数据值冲突等问题,有助于降低数据集的不一致性和冗余性,提高数据挖掘的准确性和挖掘速度。
①实体识别。实体识别是指将来自现实世界的多个信息源的等价实体进行匹配。例如,针对一个数据库中的Customer_id和另一个数据库中的Cust_number是否为相同属性这一问题,可以通过查看数据属性信息判断并进行统一。
②数据冗余。如果一个属性能由另一个或另一组属性“推导”出来,则这个属性可能是冗余的。同时,属性命名不一致也会导致结果数据集中的冗余。有些冗余可以通过相关分析检测:对于标称型数据(一般在有限的数据中取值,而且只存在“是”和“否”两种不同的结果),可以使用卡方检验进行检测;对于数值型数据(可以从无限的数据中取值),则可以使用相关系数和协方差评估属性间的相似性。
③元组重复。除了检测属性的冗余之外,还要检测重复的元组。例如,给定唯一的数据实体,存在两个或多个相同的元组,可以使用数据分析软件Excel、Power BI等去除重复元组。
④数据值冲突。例如,不同学校的学生在进行信息交流时,不同学校有各自的课程计划和评分方案,同一门课的成绩所采取的评分方法也有可能不同,如十分制或百分制,这些都可能造成数据值的冲突。数据值的冲突可以通过采用规范数据标准来解决。
(3)数据规约
数据规约是为了使数据信息内容损失最小化,目前主要采用的方法包括:维规约、数量规约和数据压缩。
①维规约,主要目的是减少所考虑的属性和随机变量的个数,使用的方法有小波变换、主成分分析、属性子集选择等。前两种方法是将原始数据变换或投影到较小的空间,属性子集选择则主要是将数据中不相关、弱相关或冗余的属性检测出来并删除。
②数量规约,即用较小的数据替换原始数据。数量规约采用的方法可以是参数方法或者非参数方法。参数方法可以通过回归模型与对数线性模型来实现。例如,针对数值型的数据,可以用回归方法对数据建模,使之拟合成直线或平面,达到数据规约的目的。非参数方法可以通过直方图、聚类、抽样来实现。例如,通过使用聚类算法将数据分簇,用每个数据簇中的代表来替换实际数据,这同样可以达到数据规约的效果。
③数据压缩,即通过变换得到原始数据的规约或“压缩”表示。如果在压缩后的数据重构中不存在信息损失,则该数据规约被称为无损规约;如果是近似重构原数据,则称为有损规约,基于小波变换的数据压缩是一种非常重要的有损压缩方法。
(4)数据变换
将数据变换成适合挖掘的形式,称为数据变换。常使用的数据变换方法为光滑,主要用于去除数据中的噪声。例如,在进行年龄统计时,如果出现小于0或者大于100的数据,可以将其变换为众数。对于数据变换,我们还可以采用属性构造、规范化等方法。
2.数据统计与分析
对于预处理后获取的数据,我们需要进行简单的统计分析。常用的统计分析方法有描述性统计分析、显著性检验和相关分析等。
描述性统计分析主要是计算描述数据水平变化的统计量,主要包括平均数、分位数、极差、偏度系数等。平均数计算简单,反映了一组数的平均水平,易受到极端值的影响。分位数包括四分位数、中位数、百分位数等。例如,中位数通常是指一组数据中,处于中间位置的数据,该值只与数据的所在位置有关,不受极端值影响。描述数据差异的统计量主要包括极差、偏度系数等。极差是指一组数据的最大值与最小值之差,易受极端值影响。偏度系数是描述一组数据分布对称性的统计量,偏度系数越接近0,则数据的分布越对称。偏度系数为正,则数据分布为右偏;偏度系数为负,则数据分布为左偏。
显著性检验是事先对总体的参数或总体的数据分布形式做出一个假设,之后利用数据信息判断真实情况与假设是否存在显著的差异。
相关分析是对两个或两个以上变量进行分析,以此来衡量变量之间的相关程度。相关分析的前提是变量之间需要存在一定的联系,可通过分析获得相关系数。相关系数是用来衡量变量之间的统一程度的量,它的数值范围是[-1,1]。其中,-1表示两个变量完全负相关,0表示两个变量不相关,1表示两个变量完全正相关。相关系数越接近-1(1),负(正)相关的程度越高。相关分析常用的计算方式有皮尔逊相关系数、斯皮尔曼相关系数。
此外,协方差也可以衡量两个变量的相关性。协方差可衡量两个变量的总体误差,如果两个变量的变化趋势相同,此时协方差大于0,变量之间正相关。如果两个变量的变化趋势相反,协方差小于0,变量之间负相关。协方差为0,说明两个变量不相关。
3.数据挖掘
想要深入挖掘数据的价值,数据挖掘是十分有效的方法。数据挖掘通过使用各种挖掘模型,发现数据中存在的有用知识,常用的数据挖掘模型有聚类、分类、关联分析等。
物以类聚,人以群分。聚类是在没有训练的条件下,对一些无标签的数据进行归纳分类,根据数据内部的相似性对数据进行分组(见图1-6)。无标签是指样本数据所属类别标号的种类未知。聚类的时候,并不关心某一类是什么,只是将相似的数据聚为一类。常用的聚类算法有K-means、DBSCAN等。聚类常见的应用场景有信用卡用户识别检测、社群划分等。
图1-6 人群聚类
分类是一个有监督的学习过程,在已知部分数据所属类别的情况下,通过对该部分数据进行建模,将类别未知的数据分类,尽可能地把每一个未知类别的数据归到对应的类别之中(见图1-7)。在进行分类时,必须事先知道各个类别的信息,并且所有待分类的数据条目都默认有对应的类别。常用的分类模型有逻辑回归、SVM等。分类常用于垃圾邮件检测、肿瘤检测、产品分类等场景。
图1-7 动物分类
关联分析主要用于挖掘有意义的联系,所发现的模式通常采用关联规则或频繁项集的形式表示。常用的关联分析算法有Apriori算法、FP-growth算法等。关联分析可以应用于网页信息挖掘、科学数据分析、商品推荐等。
1.3.4 大数据的应用领域
大数据分析的任务是将挖掘效果较差的原始数据经过处理流程转化成更能提升挖掘能力的数据。大数据和人工智能具有天然的联系,大数据是人工智能发展的基石,人工智能让大数据发展前景更加广阔。大数据的发展过程中使用了许多人工智能的理论和方法,人工智能也因大数据技术的发展步入了新的发展阶段,并使大数据应用到了更多的领域。
1.大数据在快时尚领域的应用
随着快时尚行业的逐渐衰退,许多品牌已经开始退出中国市场,但是某快时尚品牌的市场份额并没有出现下滑,而且每当新产品上市时,还可能出现新产品被抢购一空的情况。许多人认为,该快时尚品牌是为数不多的可以成功实现零库存的快时尚品牌之一,而在其“零库存”成就下,大数据精准营销技术做出的贡献是必不可少的。通过分析该快时尚品牌营销策略可发现,大多数人都愿意选择该快时尚品牌,主要是由于产品价格便宜、质量好、美观,并且经常与其他品牌互动。实际上,通过进一步分析,不难看出该快时尚品牌具有以下突出特点。首先,价格合适,可以被普通消费者接受。其次,产品的款式主要为一些基本款式,能满足大多数年龄段的大多数人的日常穿着需求,形成了较大的市场规模。再次,该快时尚品牌会根据产品的销售情况适当调整输出。最后,品牌联合活动是阶段性和周期性的。以上特点体现了该快时尚品牌的系统化、高容错率和低错误率的业务模式,这都源于大数据的收集和准确分析的支持。该快时尚品牌在应用大数据方面非常熟练,多年来,其维护着大量数据,如每周销售数据、样式代码市场状况以及每家商店的销量,并据此分析制定相应的产销策略,以降低成本,提高容错率,实现零库存。具体来说,该快时尚品牌是怎么运用大数据技术进行数据挖掘,做到精准营销,实现零库存的呢?
对于该快时尚品牌这种既有线下实体店,又有线上销售平台的跨国企业来说,在企业的扩张过程中,积累了大量的用户数据信息,对这些信息进行挖掘是实现零库存的基础。首先,通过多维度挖掘真实用户消费信息,如用户购买数据、浏览数据、地址数据和行为数据等,总结不同商品的用户需求,构建不同商品的用户画像,再通过多类型用户画像的交集归纳出购买商品的典型人群。其次,分析典型人群特征,反推需求,对潜在用户进行精准化推送。最后,通过测试多次推送的效果,验证用户的需求并迭代优化,根据收集到的信息进行用户画像的更新。构建用户画像,使该快时尚品牌的服务聚焦性和专注性更强,能提升用户体验,以及企业盈利能力。
2.大数据在交通领域的应用
随着城市化的推进,交通拥堵问题成为长期困扰城市管理的烦恼之一。某城市采用了一种基于大数据的智能交通管理系统,在一定程度上解决了交通拥堵问题。该系统采集了各种交通数据,如道路状况、车流量、交通事故和车辆GPS数据等,并对这些数据与天气预报和公共活动日历等其他数据源进行整合分析,预测道路拥堵情况,并智能调度交通信号灯和公交车,使道路上的车流更加顺畅。此外,该系统还能够智能推荐出行路线,提供实时交通信息。
该系统的运行效果显著,短短几个月内,该城市的交通拥堵问题就得到了显著改善。市民的出行效率得到了大幅提高,同时也降低了能源消耗,保护了环境。该系统的成功应用证明了大数据技术在交通领域中的巨大潜力。大数据技术可以帮助政府更好地管理和利用城市交通资源,提高市民出行效率和体验。
3.大数据在医疗领域的应用
大数据在医疗领域的应用越来越广泛。例如,某医院采用了一种基于大数据的智能医疗系统,以改善患者的治疗和管理效果。该系统利用大数据算法分析了大量的患者数据,包括病历、化验结果、药物治疗效果等,可以根据患者的个性化信息,智能制订治疗方案,并对患者的治疗效果进行实时监测和评估。此外,该系统还能够为医生提供实时的疾病诊断和治疗建议,并为患者提供在线医疗咨询和指导服务。借助该系统,该医院患者的治疗和管理效果得到了大幅改善,同时医疗成本也大幅降低,有效节约了资源。该系统的成功应用证明了大数据技术在医疗领域中的巨大潜力。大数据技术可以帮助医院更好地管理和利用医疗资源,从而改善治疗效果。
4.大数据在网络安全领域的应用
大数据在网络安全领域的应用十分广泛。例如,某家互联网安全企业采用了一种基于大数据的网络安全系统,以预测和防范网络攻击。该系统利用大数据算法分析了大量的网络数据,包括网络流量、日志数据、网络设备的活动和漏洞等,同时,根据这些数据预测可能的网络攻击,并智能识别和拦截网络攻击。此外,该系统还能够为企业提供实时的安全警报和建议,以帮助企业及时处理和防范网络安全威胁。该大数据系统的运行效果显著,成功防范了多次网络攻击,保障了企业的信息安全和业务运行。这证明了大数据技术在网络安全领域中的巨大潜力。大数据技术可以帮助企业更好地识别和应对网络安全威胁,提高网络安全防御的效率和准确性。