企业知识管理实战宝典
上QQ阅读APP看书,第一时间看更新

3.7 知识管理系统实现技术

3.7.1 知识发现技术

由于知识发现是一门受到来自各种不同领域的研究者关注的交叉性学科,因此导致了很多不同的术语名称。例如,数据库知识发现(knowledge discovery in database,KDD)、数据挖掘(data mining)、知识抽取(information extraction)、信息发现(information discovery)、智能数据分析(intelligent data analysis)、探索式数据分析(exploratory data analysis)、信息收获(information harvesting)、和数据考古(data archeology)等。其中最常用的术语是“知识发现”和“数据挖掘”[57]

知识发现是从数据集中抽取和精化新的模式。知识发现的范围非常广泛,可以是经济、工业、农业、军事、社会、商业、科学的数据或卫星观测得到的数据、数据的形态也各不相同,可以是层次的、网状的、关系的和面向对象的数据。知识发现的结果可以表示成各种形式,包括规则、法则、科学规律、方程或概念网等。

根据知识发现的对象不同主要有如下的知识发现形式:

1.数据库知识发现。从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。从关系数据库中进行数据挖掘是当前研究比较多的[58]

2.文本知识发现。文本知识发现就是分析文本,从中找出一些特征,以利于将来的使用[59]。一般文本分析有以下几个基本过程。

(1)语种识别。语种识别工具能自动发现文本使用的是何种语种。能根据不同的语种自动组织索引数据,不同的语种有不同的查询结果,能将文本提交给语种翻译器。

(2)特征提取。特征提取主要是识别文本中词项的意义,提取过程是自动的。提取的特征与分析文本的领域有关,且大部分就是文本集中表示的概念,因此特征提取是一种强有力的文本挖掘技术。自动识别的特征可能包括人名、组织名、地名、多字词、缩写、日期和货币等。

(3)聚类。聚类是把一个文本集合分成几组的过程。每组中的文本在某种情况下相似。如果以文本作为聚类基础,不同的组就对应文本集中不同的主题。聚类也可以根据问题的长度、日期等特征来进行。因此,聚类可描述整个文本集的内容,找到其中隐含的相似关系,从而更容易找到相似或相关的信息。

(4)分类。分类工具就是把文本分配到已存在的类中,即已存在的“主题”中。如果由人工分类来处理大量的数据将是一个巨大的工程,而通过自动组织,将文本分类到相应的主题中,使之更容易浏览、查询,是一种数据组织的有力手段。

3.Web知识发现。随着网络的不断发展,网络数据的规模呈指数级增长。如何从大量的信息资源中快速找到所需的东西成了人们关注的焦点,Web信息挖掘技术由此应运而生。它是根据面向Internet的分布式信息资源的特点的一种模式抽取过程,不仅能查找到分布式信息资源中已存在的信息,还能识别出大量存在于数据中的隐含的、有效的规律[60]。IBM公司已经构建了一个名为Intelligent Miner的工具,它主要从四个方面分析文本:从文本中抽取出关键信息;根据主题组织文本;从文本集中找到一个模式描述该集合;使用强有力的查询来检索文本。

4.图像和视频知识发现。图像和视频知识发现是指从大量的图像和视频数据中发掘出有用的信息。可以用颜色、纹理、形状、运动向量等基本特征和高级概念来表示图形和视频的特征,再根据这些特征来进行图像处理和模式识别。高级概念可以是某种物体的存在、某种现象的发生等。高级概念和底层的基本特征间存在着某种映射关系,可以用数据挖掘的方法发现。

3.7.2 知识结构化技术

Internet上的数据的最大特点是半结构化的。传统数据库中的数据结构性很强,是完全结构化的数据,而一本书或图片则是完全无结构的数据。Internet上存在的数据既不是完全结构化的也不是完全非结构化的,因为它的页面也具有一定的描述层次,存在一定的结构,因此称其为半结构化的数据。Web上的每一个站点的数据都是异构的,每个站点间的信息和组织形式都不同,由此构成了一个巨大的异构的数据库环境。只有将这些站点上的数据集中起来,提供给用户一个统一的视角或视图,才有可能从巨大的数据资源中获取所需的东西。这种形成一个统一的视角或视图的技术是进行数据挖掘的前提,被称为知识表示技术[57],也被称为知识结构化技术[61]

下面将介绍几种典型的知识结构化技术。

1.语义网

现在的互联网还有许多不如人意的地方,特别是当人们利用搜索引擎查找信息的时候,不得不面对大量无用的信息。例如,现在的网络还分不清一串数字指的是电话号码、身份证号码或邮政编码,它会一股脑把这些信息都显示在使用者面前,而使用者就不得不逐个分辨。语义网技术将避免这种情况,它的“语义透明”特点将直接把使用者引领到他所想要的信息。

语义网(The Semantic Web)与万维网(Web)不同,它是一种智能网络,能在语义层面上实现知识的交流于共享[47]。它就像一个巨型大脑,能够理解人类的语言,人与电脑之间的交流将变得像人与人之间的交流一样轻松。现在,电脑能够非常熟练地进行Web网页语法的检查、网页链接和版面的设计,但没有能力进行语义网的处理。为了使Web网发挥出它的全部潜能,必须将它进化为语义网。语义网将提供有意义的Web网页结构,能够建立一种通过软件实现网页间为了复杂工作而链接的环境。语义网给信息赋予一些特定含义,使得计算机和人之间更容易协同工作,但它并不是要颠覆Web网,而是现有Web网的扩展,目标是使整个互联网自动处理,建立一个遍布全球的、可理解的平台,允许知识自动共享和处理。目前,把语义网的结构编入现行Web网的第一步已经在进行当中。在不久的将来,具有新功能的计算机将能更好的理解和处理当即只能演示的数据,以便互联网发挥出它的最大潜力。

语义网在知识管理的作用可以简单地概括为:实现语义层次上知识的查找、积累和共享,在互联网上实现知识的管理。语义网的实现依赖于三项技术:本体论、XML、RDF。

2.主题地图

主题地图为我们提供了20世纪90年代以来更新的标准,是在知识库内搜索和导航的工具。主题地图可以理解为延伸到实际信息资源的一种语义网络。它可以让我们直接获取存在文件中的信息。信息资源不必同质,其来源也可以是不同的格式,如PDF文件、MS Word文件、电子邮件和文本文件等。

主题地图由主题、联系和事件组成,主题地图的核心要素就是所谓的主题[61]。在主题地图的范围内,它们可以代表现实世界的任何对象,例如一个题目、一个概念、一个物体、一个人或一个事实等。一张主题地图可以包括一种或几种主题类型。主题与主题直接存在着不同类型的联系,如一个主题与另一个主题是从属关系、一个主题与另一个主题彼此是项目合作者关系或一个主题是另一个主题的一种专门的技术等。主题对知识库要素的引用或链接称为主题事件,例如对知识库中某篇文章、照片、录像或类似参考物的链接。一个单独的主题可以连接到许多知识资源。主题地图可以互换或合并,一个主题地图能被应用于不同的知识库中,一个知识库也可以使用不同的主题地图。因此,可以提供不同的试图范例给不同的用户。

3.本体论

本体论(Ontology)是用来定义描述某一领域知识的术语。简单来说,本体论就是概念化的详细说明,是一套表达术语的定义[47][62]。一个本体论就是一个正式的词汇表,其中定义了某一领域或多领域内专业词汇的含义及它们之间的关系。在20世纪80年代,本体论一词主要用在图书分类和专家系统中。90年代后,互联网的驱动使得本体论的用途越来越广泛。特别是随着人工智能于知识工程的兴起,本体论成为包括知识工程、自然语言处理和知识表示在内的诸多人工只能研究团体的热门课程。其主要原因在于本体论使人或机器间的交流建立在对所交流的领域达成共识的基础上。

本体论的核心作用就在于它定义了某一领域、领域之间的一系列概念和它们之间的关系。在一系列概念的支持下,知识搜索、知识积累、知识共享的效率将大大提高,真正意义上的知识重用和知识共享也成为可能。本体论为交流各方提供了一个统一的认识。例如,不同地区的人由于习惯、文化的差异对同一个词汇会有多种不同的理解方式,导致在交流过程中出现一系列理解上的错位,有时这些错位会使交流完全中断。但当科学家用纯科学的术语进行交流时,这种情况出现的几率会大为下降,原因就在于本学科中已经定义了该种术语的确切含义,而这种含义时被本领域种的研究人员普遍接受和认可的,这就是一种共识。本体论为各方提供了一种统一的交流语言,同时建立起了本领域内的基本知识框架。可以通过查询“本体论”来深入理解所获得知识的的内涵,实现协同工作。

4.XML

XML(eXtensible Markup Language,可扩展语言)是标准通用标记语言(SGML)的子集[47]。随着网络的飞速发展,超文本标记语言(HTML)已经不够用了,而SGML又太过于庞大,用户学习和使用不方便,要全面实现SGML的浏览器也非常困难。而XML作为SGML的精简版本,具有可扩展性、自描述性、异构性,技术实现也较容易。XML表示数据的方式真正做到了独立于应用系统,可以作为一种通用格式,在异构系统中传递。

XML为知识管理及其相关技术的发展开辟了一片新天地。XML的出现使得知识管理在语义层面上交换信息成为可能,在此之前计算机之间的信息交换只限于数据层面,即只能交换数据但彼此却不能准确把握数据的真正含义,如果一定要把握数据的含义,只能加一个人工处理的环节。XML的最大优势在于它能使计算机与计算机之间相互理解对方所传输数据的含义,一旦该数据传输被赋予一定的语义,所传输的数据就跃升为知识,数据传输也就跃升为知识传输、知识共享。XML作为一种标准,将大大提升知识的重用度。

XML是数据库之间进行数据交换的桥梁,当存在大量数据需要分析处理时,最好把这些数据放到数据库中,然后通过XML进行数据交换。XML本身是一个文本,但它也是一种数据库,具有数据存储、数据有效性验证、数据查询、数据访问编程接口等特征。

在XML出现之前,计算机只能依照自己的逻辑处理所接收到的数据,对于数据中的哪一部分代表什么含义并不清楚。XML出现后,其可扩展标记最大限度的避免了这个问题。XML为知识的共享、知识的重用提供了支持,同时也为知识的协作打下重要的基础,因为如果协作者之间的知识传输不能保证准确无误,协作实际上是不可能进行的。

知识共享强调的是能够得到知识,知识重用更加强调能理解知识,并应用知识来解决问题。知识能够共享不一定能够重用,因为用户可能根本无法理解所得到的知识。知识重用必须解决两个问题:(1)所得到的数据分别描述的是哪些对象;(2)所得到的信息中每个词语的真正含义是什么。第一个问题的解决依靠的就是XML,因为在XML中已经标记了哪些数据是什么。第二个问题的解决有赖于本体论(Ontology)。

5.元数据和RDF

元数据(Metadata)最常见的定义是“有关数据的结构数据”或“说明一个资源特性的数据”,或者再简单一点就是“关于数据的信息”[47]。日常生活中的图例、图书馆目录卡和名片都是元数据的例子。元数据提供了一个对于内容、质量、条件、作者身份和所有其他对象或数据的特征。它同时也提供了标准的信息表现方法。元数据保留了数据的内在资本。如果数据缺乏足够的内容说明,就很难确定它的价值或用途。数据使用受限,就会失去原始价值。如果数据有足够的说明信息,就能够确定它自身的潜在用途,然后提供所具备的价值、关联性和生命期限。

元数据种类繁多,根据元数据的结构性、完整性及专业性,可分为三种:(1)直接采用原始资料(即未结构化的资料)的资源描述格式。一般性的网络资源查询工具、搜寻引擎皆属此类;(2)使用结构化资料,支持字段查询。此类元数据描述数据结构简单,目的在于提供对于大量网络资源的搜寻功能,倾向于对个别对象的描述,而不做多元化的对象关系的描述;(3)使用完整的资源描述架构,用来记录文件或描述一组对象以及彼此之间的相互关系。除了具有可提供定位与搜寻功能外,此类元数据还可完整地描述对象间的复杂关系,可表现特殊领域或特定文献资源的特质与内涵。

RDF(Resource Description Framework,资源描述框架)从本质上可以认为是XML处理元数据的一个应用。同XML一样,RDF于是有W3C组织主导而形成的一个架构,在语法上完全遵从XML。在RDF里,基本模型包括了资源、特性和声明。在RDF下说明的所有内容都称为资源。它与元数据的主要不同之处在于,元数据一般是用比较简单的资料来描述资源的内容,而RDF可同时定义多个元数据,再用定义的多个元数据来描述资源状况。

与本体论比较而言,元数据现在已经有了比较广泛的应用,是一种比较成熟的技术。RDF虽然诞生不久,但也已经有了不少成功应用的例子。从根本上说,无论元数据还是RDF都与知识管理有着密不可分的关系,它们的诞生、应用都融入了知识管理的思想,它们在未来的知识管理中将继续发挥巨大作用。

6.知识网格

网格(Grid)是把整个互联网整合成一台巨型的超级计算机,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享。网格的根本特征在于资源共享而不在于它的规模。

计算机的应用模式,经历了20世纪50年代~70年代的终端-主机模式、80年代的客户-服务器模式、90年代的浏览器-Web模式,正在向未来的客户(浏览器)-虚拟计算(服务)环境模式发展。网格就是形成虚拟计算和信息服务环境的基础设施。

计算网格是指对网络上各种节点设备计算和处理能力的共享,其处理的是二进制代码。信息网格是指对网络上信息的共享,而知识网格则强调对网络知识的共享。在知识网格的条件下,用户完全不必了解所需要的知识到底是在哪一台计算机上,也不必知道究竟是哪一台计算机在为自己服务——对于用户而言,这些知识完全是透明的,知识像水一样流到用户面前。

未来整个网格就是一个庞大而有序的知识管理系统,知识管理将是网格操作系统十分重要的组成部分,而未来的知识管理也必然是给予整个网格的,知识管理在全球网格的建立中也将发挥重要的作用。