1.1 大数据与相关学科的定义
大数据(Big Data)与统计学、数据挖掘、数据科学、机器学习、人工智能和商业智能等相关技术,都是解决数据世界里的问题的算法和基础理论,应用在商业、医学、工程等各个领域。
以下就从大数据、数据挖掘、机器学习、知识管理、数据科学、人工智能、商业智能与统计学等学科领域,分别给出定义。这些定义有很多相同的地方,因为它们有很多共同的领域,其不同的地方,可以说是从不同的角度来看,也就是从挖掘、学习、学科、智能、知识等角度来定义。
1.1.1 大数据的定义
研究机构Gartner对于大数据给出这样的定义:大数据是需要新处理模型,才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的大数据定义是:一种在获取、存储、管理、分析方面,规模大到超出了传统数据库、软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据的四大特性是4V:大、快、杂、疑,即数量庞“大”(Volume)、变化飞“快”(Velocity)、种类繁“杂”(Variety)、真实存“疑”(Veracity)。最后一个特性“疑”,有些负面,其实许多公司的大数据报导是存疑的,是忽悠人的,请见本章最后一节大数据的江湖门派。后来有人又加了一个特性:价值密度“低”(Value)。所以,大数据的特性如下。
- 大:数据量巨大,数据的记录或实例数量大,可能有成亿上兆笔。
- 快:数据成长快速,变化快速,算法快速,要跟上快速的脚步,唯快不败。
- 杂:数据变量繁杂,具有数字、文本、图片、视频、音频、地理位置信息等多种类型。
- 确:数据来源和分析结果的正确性与可靠性,需要评价。
- 值:分析结果的价值密度低。价值除以数据数量的密度低。
大数据就是要将这五个特性转换成正面的能量,所以有挖掘、学习、科学、智能。
大数据特性的数据表示如图1-1所示。
图1-1 大数据的“5V”特性
什么是价值?大数据的价值是什么?
我们看《复仇者联盟》中的美国队长、雷神索尔、钢铁人、浩克、蜘蛛侠,还有超人、蝙蝠侠等超级英雄的共同特征,除了有正义感,打击邪恶以外,就是:
- 速度快,几乎都会飞;
- 成长,有非凡的超能力;
- 变形,改变造型或有特殊兵器;
- 平台,超级英雄不再单打独斗,有总部或联盟。
信息系统的价值是:
- 经营(Run):企业更有效率,更快速、更省钱;
- 成长(Growth):营销、份额、品质大幅增长;
- 转型(Transformation):企业转型或商业模型的改变;
- 平台(Platform):互动共享的网络模型。
大数据的价值体现在以下几个方面。
- 经营:及时解析故障、问题和缺陷的根源。
- 经营:数据挖掘以规避欺诈行为。
- 成长:根据客户的购买习惯,为其推送可能感兴趣的优惠信息。
- 成长:从大量客户中快速识别出金牌客户。
- 成长:对大量消费者提供产品或服务的企业,可以利用大数据进行精准营销。
- 转型:制造业(如IBM)转型为信息服务业,中小微企业利用大数据做服务转型。
- 转型:传统企业面临互联网压力,必须进行转型,充分利用大数据的价值。
大数据使用模型,进而加深对重要用户的洞察力,可以追踪和记录其网络行为,识别业务影响;随着对服务利用的深刻理解,加快利润增长;同时跨多系统收集数据,发展IT服务目录。
大数据从采集、存储、预处理、建模、分析到形成结果的整个过程,涉及感知技术、存储技术、云计算技术、分布式处理技术等。建模分析技术有:统计学、数据挖掘、数据科学、机器学习、人工智能等。大数据是需要新处理模型才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。
本书的重点是大数据分析,也就是数据挖掘和机器学习。
本书定义的大数据的相关领域学科关系如图1-2所示。也许在其他文献或书本中的定义有所不同,这是信息管理的现象,没有完全一致的定义,尤其是一些机构每给出一个新的名词,就希望创建更前沿、更高等、更热门的名词、学科或产业。
图1-2 大数据的相关领域学科关系图
1.1.2 数据挖掘
数据挖掘(Data Mining)一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘有以下一些不同的定义。
- “从数据中提取出隐含的过去未知的有价值的潜在信息。”
- “一门从大量数据或者数据库中提取有用信息的科学。”
- “从一个数据集提取信息,并将其转换成可理解的结构,以进一步使用。”
注意这几个关键词:未知的、潜在的、可理解的、有价值的、有用的信息。
数据挖掘是数据库知识发现(Knowledge Discovery in Databases,KDD)的分析步骤。该术语于1989年出现,定义为“从数据集中识别出有效的、新颖的、潜在有用的,以及可理解的模型发现的过程”。
数据挖掘的理论技术可分为传统技术与改良技术两支。传统技术以统计分析为代表,统计学内所含时间序列、概率论、回归分析、类别数据分析、贝叶斯分类等都属于传统数据挖掘技术,因为数据挖掘对象多为变量繁多的数据,所以高等统计学的多变量分析、用来精简变量的主成分分析和因子分析、用来分类的逻辑回归和判别分析,以及用来区隔群体的聚类分析等,多用在数据挖掘分析方面。在改良技术方面,应用的有决策树理论、支持向量机SVM、随机森林法、类神经网络、关联规则法、深度学习等。数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,数据挖掘的工具更符合企业需求。
数据挖掘方法也就是大数据分析方法是本书重点,下面简单介绍。
(1)分类方法:决策树(包括ID3、C4.5、Cart),朴素贝叶斯法,近邻法,支持向量机。
(2)预测方法:回归树,回归分析,时间序列。
(3)关联规则:Apriori算法。
(4)聚类分析:层次聚类,K-均值,EM算法,PAM算法。
(5)复杂数据类型挖掘:文本,网络,图形图像,视频,音频等挖掘与判别。
1.1.3 数据挖掘标准过程
跨行业数据挖掘标准过程(Cross Industry Standard Process for Data Mining,CRISP-DM)是1997年欧盟机构联合 DaimlerChrysler AG、SPSS、NCR、Teradata、OHRA共同开发的,如图1-3所示。CRISP提供了一种开放的、可自由使用的数据挖掘标准过程,使数据挖掘适合于商业或研究单位的问题求解策略。CRISP-DM具有产品中立性,使用上并不受限于特定作业平台。以下将介绍CRISP-DM作业程序的六个主要步骤。
(1)业务了解(Business Understanding):理解企业需求,主要是以企业的观点,来找出推动此项目的目的,在此步骤前要先定义数据探勘问题,并且制订初步计划方案。决定商业目标,形势评估,决定数据探勘目标,及制订一个项目计划。
(2)数据理解(Data Understanding):收集数据,了解数据源、数据库及数据仓储、数据特性,并对收集的数据做初步分析,包括识别数据的质量问题、数据的安全保护、找到对数据的基本观察,并设立假设前提。
(3)数据准备(Data Preparation):主要为筛选数据中各项表格、记录以及变量,接着整理筛选出来的数据,应用于模型选择工具上。准备过程包括选择变量、清理遗失值、重构(定量定类数值)、整合及转换(标准化、归一化)数据。
(4)创建模型(Modeling):这是数据挖掘中最引人注意的地方,也是本书的重点,此步骤着重于选择并应用一种或多种数据探勘技术,包括选择模型技巧(算法)、训练数据、机器学习、产生测试计划及模型评价。利用R语言,选择程序包、函数、参数。
(5)评估测试(Evaluation):对数据探勘的结果是否达到商业目标做评估,包括评估结果、回顾数据探勘过程,主要为测试数据分析结果,并证实模型是否符合企业所推动方案的目的,以及进一步决定将来是否继续采用此模型。
(6)决策布署(Deployment):此步骤主要是经评估后,若所建立的模型符合企业目标,则再进一步拟订该模型的推动计划。着重于将新知识融会到每天的商业运作过程中,从而解答最初的商业问题。包括计划发布、监控与维护、产生最终报告,及回顾整个项目。
图1-3 跨行业数据挖掘标准过程
CRISP-DM如今已经成为大数据的行业标准,调查显示,50%以上的数据挖掘采用的都是CRISP-DM的数据挖掘流程。CRISP-DM不只是应用在数据挖掘,也可以应用在工程或其他领域的项目中。
锻造大数据考虑CRISP过程:问题种类,数据来源,数据类型,分析方法,模型和算法,数据计算(程序代码、函数包或平台),信息结果,验证评价,应用价值。
如表1-1所示为CRISP-DM中六个主要步骤工作项目及产生的文档。
表1-1 CRISP-DM六个主要步骤工作项目及产生的文档
1.1.4 机器学习
机器学习(Machine Learning)是一门人工智能的科学(请见1.1.8节),该领域的主要研究对象是人工智能如何在经验学习中改善具体算法的性能。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为机器学习算法中涉及大量的统计学理论,尤其与推断统计学的联系密切,所以也被称为统计学习理论。机器学习的分析方法和数据挖掘有很多相同点,可以这样说:机器学习是从学习的观点来看数据挖掘。
机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。
机器学习有下面几种定义。
- “机器学习是对能通过经验自动改进的计算机算法的研究。”
- “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”
- “一个计算机程序,执行一些任务(Task),从经验(Experience)中学习,改进工作衡量的绩效(Performance)。”
- ◆ 机器学习的任务(T)是:分类、回归、关联或聚类。
- ◆ 机器学习的经验(E)是:训练和验证模型。
- ◆ 机器学习的评价绩效(P)是:分类的混淆矩阵,回归的R方。
机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,主要使用于归纳、综合方面。
学习是人类具有的一种重要智能行为,学习策略是指学习过程中系统所采用的推理策略。一个学习系统是由学习和环境两部分组成的。由环境部分(如书本或教师)提供信息,学习部分(学生)则实现信息转换,用能够理解的形式记忆下来,并从中获取有用的信息。在学习过程中,学生使用的推理越少,他对教师的依赖就越大,教师的负担也就越重。学习策略的分类标准,是根据学生实现信息转换所需的推理多少和难易程度来分类的,有以下七种学习类型。
(1)机械学习(Rote Learning):不是“机器”学习,学习者无须任何推理或其他的知识转换,直接吸取环境所提供的信息。例如,生产装配在线的员工。
(2)示教学习(Learning From Instruction或Learning by Being Told):学生从环境(教师或其他信息源如教科书等)获取信息,把知识转换成内部可使用的表示形式,并将新的知识和原有知识有机地结合为一体。所以要求学生有一定程度的推理能力,但环境仍要做大量的工作。学生拥有的知识可以不断地增加。学习的任务就是建立一个系统,使它能接受教导和建议,并有效地存储和应用学到的知识。专家系统在建立知识库时使用这种方法去实现知识获取。
(3)演绎学习(Learning by Deduction):学生所用的推理形式为演绎推理。推理从公理出发,经过逻辑变换推导出结论。学生在推理过程中可以获取有用的知识。演绎推理的逆过程是归纳推理。例如,数理统计的定理证明。
(4)模拟学习(Learning by Analogy):利用两个不同领域中的知识相似性,可以通过模拟,从源域的知识(包括相似的特征和其他性质),推导出目标域的相应知识,从而实现学习。模拟学习系统可以使一个已有的计算机应用系统转变为适应于新的领域,来完成原先没有设计的相类似的功能。模拟学习需要比上述三种学习方式进行更多的推理。在信息管理的研究中,很多研究者将技术接受模型TAM或层级分析AHP用模拟学习应用到其他领域。
(5)基于解释的学习(Explanation-Based Learning,EBL):学生根据教师提供的目标概念、目标概念的一个例子、领域理论及可操作准则,首先构造一个解释来说明为什么该例子满足目标概念,然后将解释推广为目标概念的一个满足可操作准则的充分条件。EBL已被广泛应用于知识库求精和改善系统的性能。
(6)归纳学习(Learning From Induction):归纳学习是由教师或环境提供某概念的一些实例或反例,让学生通过归纳推理得出该概念的一般描述(所谓泛化)。这种学习的推理工作量远多于示教学习和演绎学习,因为环境并不提供泛化。从某种程度上说,归纳学习的推理量也比模拟学习大,因为要发展后设概念,也就是泛化。机器学习的验证数据就是泛化。归纳学习是最基本的,发展也较为成熟的学习方法。
(7)创新学习(Innovation Learning):科技上的发明、创造,除了经验,还有灵感和顿悟,是一种跳跃型学习。在人的主观作用推动下产生所有以前没有的设想、技术、文化、商业或者社会方面的关系。也指自然科学的新发现。创新具有某种不可预见性。科技创新是各创新主体、各创新要素交互作用下的一种复杂涌现现象,是技术进步与应用创新所构成的创新双螺旋共同演进的产物。大多数的创新行为都是未经计划的产物,因而创新是不能计划的。
机器学习对“经验”的依赖性很强。计算机需要不断从解决问题的经验中获取知识和学习策略,在遇到类似的问题时,运用经验知识解决问题并积累新的经验,我们可以将这样的学习方式称为“连续型学习”。但人类除了会从经验中学习之外,还会创造,即“跳跃型学习”。这在某些情形下被称为“灵感”或“顿悟”。计算机最难学会的就是“顿悟”,或者再严格一些来说,计算机在学习和“实践”方面,难以学会“不依赖于量变的质变”,很难从一种“质”直接到另一种“质”,或者从一个“概念”直接到另一个“概念”。未来的数据分析要给计算机学会“创造”提供学习的方法。这种方法为人的“创造力”的模型化提供了一种有效的途径。
机器学习的学习形式分类如下。
(1)监督式学习(Supervised Learning):监督式学习从给定的训练数据样本,学习出一个规则或函数(分类器),当新的数据(记录)到来时,可以根据这个规则或函数预测结果。监督式学习的数据变量有自变量(特征)和目标变量。监督式学习算法主要有分类和预测,包括回归分析和统计分类。
(2)非监督式学习(Unsupervised Learning):没有目标变量,主要应用于记录或实例的聚类、变量的关联规则、变量的降维。
(3)半监督式学习(Semi-supervised Learning):训练预测非监督式的目标变量值,再监督式学习。
(4)强化学习(Reinforcement Learning):强调如何基于环境(environment)而行动(action),以取得最大化的报酬(reward)。
1.1.5 知识管理
知识管理(Knowledge Management)是知识的分类和转移。知识的分类从层级来分有:数据创建信息,信息挖掘知识,知识产生智能,智能创造智慧。
知识的分类有许多不同的面向,以下是知识管理的面向。
①内隐知识与外显知识
(1)内隐知识(tacit knowledge):只能“意会”的个人的知识,例如,习惯、典范、行为、认知、预感、直觉等主观的经验性、模拟性、情境特殊性的知识,无法以言语文字表达,而存在于意见、人际网络、关系中。例如,如何骑脚踏车就是一种内隐知识;外科医师的手术技术、面包师傅凭着感觉揉面团,也是内隐知识。认知层面心智模式(mental model)、信仰(belief)、认知(perception)、心得等,都是内隐知识。
(2)外显知识(explicit knowledge):可以“言传”,能够以报告、分析、手册、实践、说明、原则、公式、电子邮件、程序等表达的知识,例如,专利、项目报告、市场研究报告、计算机程序等。
②知识领域与未知领域
一个人的知识领域和未知领域,如图1-4所示,包括如下内容。
图1-4 知识领域
(1)常识(common sense):大多数人都知道的(Things everybody know)。
(2)知其所知(known known):知道自己了解的外显知识(Things you know you know)。
(3)未知其所知(unknown known):不知道自己知道的内隐知识(Things you don’t know you know)。
(4)知其未知(known unknown):知道自己有不懂的(Things you know you don’t know)。
(5)未知其未知(unknown unknown):不知道自己有不懂的(Things you don’t know you don’t know)。所谓“无知”还包括下述的“错误”。
(6)错误(error):以为自己知道,其实是不懂的(You think you know but don’t)。
(7)拒绝(denial):觉得太痛苦所以不想学的知识(Things too painful to know,so you don’t)。
(8)禁忌(taboo):不能知道的知识(Dangerous,polluting,or forbidden knowledge)。
(9)无用的知识(useless):知也无涯,无关的知识太多了。
信息、智能扩大已知领域,学习未知领域,改变错误的知识,认清自己的知识领域。
③知识的转移
知识的转移,如图1-5所示。
图1-5 知识的转移
(1)共同化(socialization):从个人的内隐知识转移到其他人的内隐知识。主要是流程导向的know-how知识和广泛地创造新知识。即CRISP过程的业务了解。
(2)外部化(externalization):从个人内隐知识转移到其他人或群组的外显知识。主要是内容导向的know-what知识和集中地吸收新知识。即CRISP过程的数据理解和准备。
(3)组合化(combination):从外显知识转移到外显知识。内容导向的know-what知识和广泛地创造新知识。即CRISP过程的创建模型和评估测试。
(4)内部化(internalization):简称内化,从他人或组织的内隐知识转移到个人的内隐知识。主要是流程导向的know-how知识和集中地吸收新知识。即CRISP过程的决策布署。
知识的转移可以从个人到群体,而且是循环的,从共同化到外部化到组合化到内部化。
用知识转移的观念来说明机器学习的过程,最主要是抽象化和泛化,如图1-6所示。
图1-6 机器学习的过程
(1)抽象化(abstraction):机器学习的建模,抽象化的知识表达有:数学公式、关系图(如网络图、树图)、逻辑规则(if/then)、聚类图。简单地说,抽象化就是建模。
(2)泛化(generalization):运用知识推广到其他情境,可能用到一些个人的自由意志(内隐知识),举一反三学习新规则。机器学习的泛化是用测试数据来评价模型。简单地说就是预测。
鲁棒性(1.2.8节)是泛化考虑的问题。
第8章中将近邻法称为懒惰学习,因为近邻法在抽象化(建模)和泛化(验证)方面,都不“努力”。
对应机器学习的过程如图1-6所示。
1.1.6 数据科学
数据科学(Data Science)是一门专门的学科(本科),研究数据的人称为数据科学家,所以数据科学是从学科或职业的角度,来看数据(包括统计学)或大数据。
数据科学的定义为:研究探索数据界奥秘的理论、方法和技术。数据科学研究数据本身,数据的各种类型、状态、属性及变化形式和变化规律。
数据科学已经有一些方法和技术,例如,数据采集、数据存储与管理、数据安全、数据分析、可视化等;还需要有基础理论和新技术,例如,数据存在性、数据测度、时间、数据代数、数据相似性与簇论、数据分类与数据百科全书、数据伪装与识别、数据实验、数据感知等。数据学的理论和方法将改进现有的科学研究方法,形成新型的科学研究方法,并且针对各个研究领域开发出专门的理论、技术和方法,从而形成专门领域的数据学,例如,行为数据学、生命数据学、脑数据学、气象数据学、金融数据学、地理数据学等。
从以上的说明可知,数据科学不仅是一个学科,还可以成为一个学院。
数据科学需要有三个领域的知识:统计演算知识,计算机科学知识,产业专业知识,如图1-7所示。前两者是技术层面,产业专业知识就是领域核心知识(domain knowledge),大数据的哲学思想。危险区域是只懂得计算机科学知识和产业专业知识,但是缺乏算法的逻辑观念,就会有产生错误判断的危险,如图1-7所示。机器学习是要有统计演算知识和计算机科学知识。
图1-7 数据科学是跨领域的学科
数据科学虽然是这三个领域的交集,实际上是要包括这三个领域的知识。
1.1.7 商业智能
商业智能(Business Intelligence,BI),又称商务智能或商业智慧,是用数据仓库技术、在线分析处理技术、数据挖掘和数据展现技术,进行数据分析以实现商业价值。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转换为有用的信息。
1958年,IBM将“智能”定义为:“对事物相互关系的一种理解能力,并依靠这种能力去指导决策,以达到预期的目标。”1989年,Dresner将商业智能描述为:“使用基于事实的决策支持系统,来改善业务决策的一套理论与方法。”1996年,Gartner机构给出商业智能定义为:“商业智能描述一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。”
商业智能是对商业信息的收集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力,促使他们做出对企业更有利的决策。商业智能一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。
数据仓库(Data Warehouse)和数据集市(Data Mart)产品,包括数据转换、管理和存取等方面的预配置软件,通常还包括一些业务模型,如财务分析模型。
BI数据处理大致可以分成两大类:联机事务处理(On-Line Transaction Processing,OLTP)和联机分析处理(Online Analytical Process,OLAP)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
OLAP的概念最早是由关系数据库之父E.F. Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP同OLTP明显区分开来。OLAP工具提供多维数据管理环境,其典型的应用是对商业问题的建模与商业数据分析。OLAP又被称为多维分析。在Excel中称为数据透视表枢纽分析。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互的存取,从而获得对数据的更深入了解的软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维”这个概念。OLAP的数据格式在R语言是数组(array),请见2.3.9节。
OLAP的基本多维分析操作有:向上钻取、向下钻取、切片和切块、挖掘(跨业务维度)、透视、排序、筛选、翻阅、旋转等。钻取是改变维的层次,向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据,或减少维数;而向下钻取则相反,它从汇总数据深入到细节数据进行观察或增加新维。切片和切块是在一部分维上选定值后,关心度量数据在其他维上的分布。如果其他的维只有两个,则是切片;如果有三个,则是切块。旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。OLAP可用于提供关于绩效的基本详细信息,抽取、转换、搜集数据。
商业智能用的工具还有记分卡、仪表板、企业报告、预测分析、通知警报、数据挖掘和在线分析等,允许用户容易地从多个角度选取和查看数据。
商业智能企业导入优点:
①随机查询动态报表;
②掌握指标管理;
③随时在线分析处理;
④可视化的企业仪表板;
⑤协助预测规划。
1.1.8 人工智能
①人工智能的定义
人工智能(Artificial Intelligence,AI)是关于智能的学科,是研究怎样表示智能以及怎样获得智能并使用智能的科学。
人工智能是研究如何使计算机去做过去只有人类才能做的智能工作,研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能企图了解智能的实质,并生产出一种能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程进行模拟。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。
②人工智能简史
1950年:图灵测试。测试者向被测试者(人或机器)询问问题,如果有超过30%的测试者无法确认被测试者是机器,则该机器被认为具有人类智能。图灵奖是以图灵(Turing)为名。
1956年:达特茅斯会议AI的诞生。
1950—1970年:符号主义,推理系统。
1970—1980年:AI之冬。
1980—1987年:专家系统(如医疗专家系统)。
1987—1993年:第二次AI之冬,对专家系统的失望。
1980—2000年:统计学习,机器学习(数据挖掘),神经网络,遗传演算。2006年至今:大数据的计算能力,AlphaGo围棋比赛,深度学习。
③人工智能的理论体系和技术体系
人工智能理论体系:哲学、数学、计算机科学与工程、心理学、经济学、数理逻辑、神经科学、信息论、控制论、仿生学、生物学、语言学等多门学科。
人工智能技术体系:机器学习算法、机器学习架构、自然语言理解、计算机视觉、智能机器人、知识表示、自动推理、智能搜索、自动程序设计等方面。另外还有:机器视觉,指纹识别,人脸识别,视网膜识别,虹膜识别,掌纹识别,感知问题,模式识别,逻辑推理程序设计,智能控制,软计算,不精确和不确定的管理,神经网络,遗传算法。
④人工智能实际应用
例如,机器学习,神经网络,深度学习,文本挖掘,自动规划,智能搜索,定理证明,自动程序设计,智能控制,机器人学,语言和图像理解处理,遗传程序设计,自动驾驶,互联网和移动互联网的应用。
早期的专家系统,现在进步的AI应用:智能金融,智能医疗,游戏博弈,家用机器人和服务机器人,智能制造业,人工智能辅助教育,智能农业,智能新闻写作,机器翻译,机器仿生,智能律师助理,人工智能驱动的娱乐业,人工智能艺术创作,智能客服,智能国防,智能审计,智能营销等。
⑤AI的其他问题
例如,伦理、法律、社会、产业、教育和人类的问题。
由上述可知,AI的理论技术和应用领域范围太广,学习 AI要找到一个利基市场。人工智能最关键的难题,还是机器的自主创造性思维能力的塑造与提升。
⑥AI的类型
Russell 2016将AI分为两个方面,四种类型。虽然这些类型的界线正在逐渐整合和模糊。
AI目的方面
- 行动(Acting):行为的过程,学习、感知、决策,弱人工智能(weak AI),无自主意识。
- 思考(Thinking):思考的过程,有创意和情感,所谓强人工智能(strong AI)。
AI绩效方面
- 人性化(Humanly):验证科学(包括观察和假设),归纳法容许错误。
- 理性化(Rationally):用数学和工程寻找正确的答案,演译法证明结论。
上述两个方面,四种AI的类型,如图1-8所示。
图1-8 AI的类型
(1)人性化行动:图灵测试(turing test)的方式
图灵测试是AI的行为,使人无法辨别是机器还是人的行为。AI的人性化行动,几乎包括多数的AI领域。
- 自然语言处理:能够处理和沟通人类的语言。
- 知识表达:感知存储视听,可以写歌词作诗。
- 机器学习:根据情况(数据),侦测和探索模式,自动化推论、深度学习。
- 计算机视觉:辨识视听结果,语音识别、人脸识别、动作识别。
- 自动化推理:存储信息回答问题,得到新的结论。
- 机器人:操作与移动机器,无人驾驶。
(2)人性化思考:认知模型(cognitive modeling)的方式
认知模型可以说是“人心”的意思,人的心脏(heart)没有思考能力,人心(mind)是人的情感。如果能充分了解人的心智想法,就可以用计算机程序表达。人性化思考有三种方式:
- 通过内省:尝试抓住“想法”的进行。
- 心理实验:观察人的行动和心理状态。
- 大脑的想象:神经生理学,观察大脑的行动。
(3)理性化思考:思考法则(laws of thought)的方式
思考的法则理论有哲学的逻辑,符号主义,推论系统。人和计算机不可能完全理性化。
- 数学证明或发展新理论。
(4)理性化行动:合理化代理(rational agent)的方式
- 智能代理:智能体,处理查询并返回结果的软件。应用于金融、医学、管理。
- 游戏下棋:西洋棋或围棋(AlphaGo战胜人类对手)。
Russell 2016和Poole 2017的人工智能AI是基于智能代理的理论。
AI领域的应用,可以考虑CRISP过程:问题种类,数据来源,数据类型(是否大数据?),模型和算法,数据计算(程序代码、函数包或平台),信息结果,验证评价,应用价值。
人类的神童是记忆能力超强、计算(心算)能力超强,还是思考能力超强?
计算机有前两项能力,在AI方面如何超越人的思考能力?
1.1.9 统计学与大数据比较
统计学分析的过程如图1-9所示。
图1-9 统计学分析的过程
大数据分析的过程如图1-10所示。
图1-10 大数据分析的过程
统计学和大数据的比较如表1-2所示。
表1-2 统计学和大数据的比较
1.1.10 数据名词的定义
数据的名词定义如图1-11所示。
图1-11 数据名词定义
将大数据的重点名词画成大数据 R语言词云图,如图1-12所示。
图1-12 大数据R语言词云图
R程序代码请见本章附录。