1.2 基础理论体系
我们先来看看前人在数据分析领域总结的经验和思路。从数据价值提升角度来看,DIKW是业界广泛认可的从数据到智慧的价值提升思路;从分析方法来看,CRISP-DM是一套完整的数据挖掘方法论。
1.2.1 DIKW
DIKW体系,简单地说就是关于数据、信息、知识和智慧的体系。“数据—信息—知识—智慧”是一个层层递进的关系。通常,一个真正有意义的数据分析过程是,通过分析手段和工具将客观存在的事实和数字,也就是“数据”,进行组织、加工形成“信息”,再经过提炼形成“知识”,再进一步通过洞察力、创造力加工成“智慧”,为决策所用。图1-1所示为DIKW体系。
图1-1 DIKW体系
那么什么是数据、信息、知识和智慧?
数据(Data):在拉丁文中数据是“已知”的意思,可以理解为“事实”。给数据下一个定义,它是对客观事物的性质、状态以及相互关系等进行记录并鉴别的物理符号或这些物理符号的组合,是被赋予了“量”的数字。
信息(Information):作为科学术语最早出现在哈特莱(R. V. Hartley)于1928年撰写的《信息传输》一文中;20世纪40年代,信息论的奠基人之一香农(C. E. Shannon)给出了信息的明确定义——信息是用来消除随机不确定性的东西。通俗一点,信息描述“是什么”,可以回答类似谁、什么、哪里、多少、什么时候等问题,因此,信息是被赋予了“意义和目标”的数据。
知识(Knowledge):在汉语中,“知”字由“矢”和“口”构成,“矢”指射箭,“口”指说话,联合起来为说话像箭中靶心,意思是说话很准(一语中的),这里的关键词是“准确”;“识”繁体写作“識”,“言”指用语言描述,“音”指教官口令声,“戈”指参加操演军人的武器,合起来本意为“随着教官指令的变化,整齐划一的团体动作形成各种图形”,可以理解为“用语言描述图案的形状和细节”,引申意为“区别”“辨别”。综合来看,知识是准确描述、区别、辨别能力的基础,是人类在实践中认识客观世界的成果,包括对事实、信息的描述或在教育和实践中获得的技能,因此它是提炼后的信息,是被处理、组织、应用或付诸行动的信息。
智慧(Wisdom):指人类所具有的基于生理和心理器官的一种高级创造思维能力,包含对自然与人文的感知、记忆、理解、联想、辨别、计算、分析、判断、决定等多种能力。它是基于数据、信息、知识形成的洞察力和创造力。
单纯的概念表述总是枯燥无味的,很难让人融会贯通,那么如何真正理解DIKW体系中的数据、信息、知识和智慧呢?我常常在公开培训的时候举一个简单的例子——一支演讲用的激光笔长15cm。单独看“15”,是个无意义的抽象符号,是数字;“15cm”是客观存在的事实和赋予了量的数字,是“数据”;“这支激光笔长15cm”,是语义化的数据、组织后的数据,可以称为“信息”;“我们使用的激光笔一般长为15cm”,这是经过人们总结提炼的经验性信息,可以认为是常识,这就是“知识”;再进一步,一个激光笔的生产厂商在决策生产激光笔的时候,需要收集用户需求,总结出“生产长15cm的激光笔销量会比较好”,上升到决策层面,可以称为“智慧”。前两者是客观存在的事实,后两者则是人们通过经验总结出来的主观意识。
当然,实际上我们接触的数据、信息、知识、智慧远比上述举例复杂,这里希望通过简单的例子让大家快速理解DIKW体系。在接下来的章节中,我们也能感受到智能数据分析的过程、智能数据分析工具如何助力点亮“数据”到“智慧”之路。
接着上面的例子,我们看看从数据到智慧是如何转变和升级的。图1-2展示了3个维度的分析。横轴代表理解力,从数据层面的搜索、查询到进一步理解、吸收形成信息,再通过分析、行动转变为知识,通过分享、互动向智慧层面转变,形成影响力,从被动接收到主动影响,这就是从数据转换为智慧的魅力所在。纵轴代表情景性,先通过数据采集聚合部分数据、建立连接,将数据组合为信息、形成一个整体的知识体系,再到人知合一层面的智慧这一层正是本书讲述的“智能数据分析”所要达到的真正目标。第三个维度是时间。信息、知识层面是对过去已有数据的分析,智慧层面则是对未来的预测,是对未来有影响力的决策,是创新。
图1-2 数据—信息—知识—智慧的关系
那么,要实现从数据到智慧的发展之路,我们就需要使用相应的方法、技术手段。
智能数据分析就是通过智能手段助力个人、企业乃至社会走向“数据—信息—知识—智慧”的发展之路,真正从数据中洞察智慧,为决策提供支撑。
1.2.2 CRISP-DM
CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行业数据挖掘标准流程)最初是在1996年年末由数据挖掘市场“三剑客”(DaimlerChrysler、SPSS、NCR)提出的,1997年被正式命名并成立特别兴趣小组,1999年被正式提出模型草案并逐步推广。
CRISP-DM将数据挖掘项目生命周期划分为6个阶段,分别为商业理解、数据理解、数据准备、建模、评价以及部署,如图1-3所示。
图1-3中的箭头代表各个阶段最重要、最频繁的关联依赖,但并不代表顺序是严格不变的,针对具体情况在不同阶段之间来回移动也是很常见的。外圈形象地表达了数据挖掘本身的循环特性,即数据挖掘不是一次部署完就结束的活动,在任何过程中都可能触发新的,甚至更值得关注的商业问题。这就需要有一个快速响应、及时调整的机制。
图1-3 CRISP-DM模型
CRISP-DM模型的6个阶段如下。
商业理解(Business Understanding):该阶段需要我们从商业角度来理解项目的目标和要求,并把这些理解转换为数据挖掘问题的定义和实现目标的最初规划。如果方向错了,预期的数据挖掘目标一定无法达成,因此商业理解是非常重要的环节。
数据理解(Data Understanding):该阶段包括从最初的数据收集到接下来的一系列活动。这些活动的目的是熟悉数据、甄别数据质量问题、发现对数据的真知灼见,或者探索出令人感兴趣的数据子集并形成对隐藏信息的假设。
数据准备(Data Preparation):该阶段包括从最初原始数据构建到形成最终数据集的全部活动,具体为对表、记录和属性的选择,通过建模工具进行的数据转换和清洗。数据准备很可能被执行多次并且不以任何既定的秩序进行,它需要建立在数据理解的基础上。
建模(Modeling):在该阶段,我们通常会选择和使用各种技术,并对模型参数进行调优。相同的业务问题解决和数据准备可能会有多种技术手段供选择。由于某些技术对数据形式有特殊的规定,我们通常需要重新返回数据准备阶段,因此数据准备与建模是紧密联系、相辅相成的。
评价(Evaluation):到了该阶段,我们通常已经构建好一个或多个从数据分析角度看较高质量的模型,但是在最终部署之前,还需要对模型进行全面的评价,重审构建模型的步骤以确认它能实现商业目标。这里一个关键的判断标准是“是否存在还没有被充分考虑的商业问题”。在这个阶段的最后,我们还应该确认使用数据挖掘技术得到的决策是什么。
部署(Deployment):尽管通过数据模型已经将数据所隐藏的信息和知识显现出来,但获得的知识需要被组织起来并表示成用户可用的形式,因此模型的建立通常并不意味着项目的结束,还需要将模型部署到系统中。这里的部署阶段可以认为与生成一份报告一样简单,也可以认为与实施一个覆盖整个企业可重复的数据挖掘过程一样复杂。
图1-4详细列出了CRISP-DM模型的任务及输出。
图1-4 CRISP-DM模型的任务及输出
CRISP-DM总结了一套完整的数据挖掘方法。数据分析项目套用CRISP-DM的思路,能有效把握每个环节的要点,保障项目有效、有序进行。