第2章 图书馆学情报学知识图谱理论基础
2.1 知识图谱相关概念
知识图谱与知识网络、知识地图、信息可视化等概念存在一定的相关性。
2.1.1 知识网络
1. 知识网络的含义
人类在知识活动实践中,不断进行着各种形式的知识生产和创新,编织和完善知识网络。知识网络(Knowledge Network,KN)这个概念最早是由现代认知心理学家加涅提出来的[49]。加涅认为,陈述性知识和程序性知识两大类型知识的关系是产生式镶嵌在命题网络之中,共同构成“知识网络”。他从知识网络的构成内容和知识网络的作用来描述其概念[50]。在管理学领域,瑞典工业界在20世纪90年代中期从知识管理的角度开始研究知识网络[49]。Beckmann提出知识网络的经济学模型,他认为知识网络是进行科学知识生产和传播的机构和活动[51]。美国国家科学基金会(National Science Foundation,NSF)(1)则从自身开展工作的角度认为,知识网络是一个社会网络,该网络提供知识、信息的利用等内容,聚焦于跨越时间、空间的知识整合,其构成要素有:硬件、软件、人、过程。
从国外的管理学界和情报学界对知识网络的研究形成的定义中可以看出,知识网络指的是一批人、资源和它们之间形成的网状系统,为了知识的积累和利用,通过知识创造、知识转移,促进新知识的利用。知识网络是一种复杂、动态、开放,以知识价值和物质价值的增值为目的的社会网络,这种复杂网络关联的观点可以在一定程度上解释知识的衍生、演化。
“知识网络”一词在国内学术界最早见于郭其旭在1989年发表的“漫谈知识网络——例举杜甫研究图书资料在《中图法》中的分布状况”一文[52]。但其定义并未引用国外的相关概念,而是作者在中文图书的分类和校对工作中自悟的,可见国内外研究者对于知识的网状结构存在,都有各自的认识。直到20世纪90年代末期,国内才开始有了与国际接轨的知识网络相关研究:
(1)李丹等人在分析组织存在知识缺口问题的基础上,指出了构建知识网络的实际意义,并进一步提出了知识网络构建过程中的构成要素、构建原则和构建方法[53]。最后通过春兰集团(2)的一个实际分析案例,说明了组织如何构建知识网络以及知识网络所体现的显著成效。
(2)李姝兰认为,知识网络的构建是为了实现以下目标:促进跨学科、跨语言和跨文化的交流;提高不同知识源、不同领域和非媒体类型的知识处理和集成;提高团队、组织或社区有效率、跨地区或跨时间的工作;理解这种新链接的伦理、法律和社会隐含意义[54]。
(3)马费成、刘向则建立了知识网络的增长模型,研究知识网络的演化问题,提出知识老化曲线形成的一种客观性的新解释[55]。所建模型揭示了知识产生的时点与知识增长老化之间的关系:在所属学科的扩展期产生的知识节点历时被链接数先上升后下降,而在衰退期产生的节点的历时被链接数一直是衰减的;知识的利用效率随其所属知识领域的扩张而增加,随衰退而减少。
(4)姜永常从理论基础和基本原则揭示了知识网络链接的原理,知识网络链接是进行动态知识构建的本质要求,有助于泛在知识服务的实现[56]。
(5)王斌运用知识转移理论、创新理论和知识网络理论的分析方法,提出了知识网络创新路径的问题。认为按照知识转移存量和开放度两个维度,知识网络创新可沿着三条非线性路径展开[57]。
从国内知识网络研究中可以看出,国内研究人员主要从引介国外知识网络概念入手,对已有的概念进行扩充和改进,或是利用国外的相关理论和模型进行应用性研究,原创性研究相对较少。
2. 知识网络的类型
可以依据构成要素、网络层次、演化进程等不同标准,来对知识网络的类型进行不同的划分[49]。
从构成知识网络的结点形态来看,知识网络主要有以下三种情形:①人、企业等知识主体之间的网络,其实质是知识在不同的主体之间流动或传播的网络,研究得比较多的是科研工作者之间、科研团体之间、企业之间的知识合作网络;②知识与人之间的网络,即知识网络是将人和观念、知识、信仰等联结起来的网络;③知识与知识之间的网络,以知识为结点,以知识分类或语义分类为基础,建立知识之间的分类网络。
从知识网络层次来划分,根据NSF的观点,商业环境中知识网络存在于个体、群体、公司这三个层次,而社会学和交流学的研究表明这个概念可以延伸至公司外部更大的范围,企业联盟可以作为知识网络存在的第四个层次。另外,商业和职业协会组织跨越了复合的标准,代表了更高水平的进行知识积累传递的外部组织,属于知识网络的第五个层次。赵蓉英则将其归纳为三种类型:①个体知识网络,是指个体大脑中所构成的知识网络图;②组织知识网络,包括群体和公司这两个层次;③社会知识网络,包括企业联盟与商业和职业协会组织这两个层次[49]。
从知识网络演化的角度来看,Seufert等人在1999年将其细分为两类[58]:①一类是自然形成的,对于这类知识网络所需要做的是怎么提供一定的外界环境对其加以培育,以提高其绩效;②另外一类则是人为形成的,这类知识网络被看作是人为构建的网络。但无论哪种网络,其参与者都需要以共同的语言、共同的价值观和共同目标作为基础。
Büchel和Raub从管理支持以及收益水平角度将知识网络划分为爱好网络(Hobby Network)、职业学习网络(Professional Learning Network)、最佳实践网络(Best Practices Networks)、商业机会网络(Business Opportunity Network)四种类型[59]。其中,爱好网络关注个人兴趣,通常得不到管理者的支持;在职业学习网络中,知识的迁移一般能得到管理者的支持,但用户是否参与学习一般是自愿的,用户根据所迁移的知识的价值以及自身兴趣来决定学习什么以及是否学习;在最佳实践网络中,管理者扮演着协调者的作用,所有网络成员都要参与互相间的知识的迁移与学习;商业机会网络是商业目的驱动的网络,但其关注的视角是创新与成长方面。
2.1.2 知识地图
1. 知识地图的含义
“知识地图”一词最早是由布鲁克斯(3)提出来的[49]。他认为,人类的知识结构可以绘制成以各种单元为节点的“认知图”,反映的是人类的客观知识。美国捷运公司绘制的展示知识资源地理分布的美国地图,则是知识地图的雏形。还有目前广泛应用于知识管理领域的“知识地图”概念,有别于前两者,指的是运用可视化的直观手段使知识在组织成员中有效地传递和共享。刘则渊指出,在知识管理中应用的“具有知识导向的自组织知识地图”,基本上属于知识图谱和知识可视化范畴。随着知识地图的不断发展,其与知识图谱等概念上的交互也不断增多。知识地图更强调对客观知识的描绘和直观显示,它主要起到“地图”的作用,而对于知识发展的动态过程缺乏有效的描述。
与之类似,国内外一些学者还使用“科学地图”(Science Map)的概念。美国印第安纳大学的Katy Börner(4)和国内学者陈云伟等指出[60],科学地图是一种采用图形的方式来描述科学问题的研究方法,即基于科学数据对其所反映的科学信息进行可视化。可以看出,“科学地图”的概念同知识地图和知识图谱均有交叉部分,很多国外文献的研究内容并没有对这些概念严格加以区分,三者具有很多重合部分,有时则完全等同。这里也不做严格区分。
我国学者关于知识地图的理论与方法研究较为薄弱。早期的理论性文章主要是知识地图的介绍性、综述性文章,大多是对国外相关理论、先进算法等成果的展示。胡立勇、陈定权等介绍了引文分析可视化的理论基础和相关算法,并提出了引文分析可视化系统的设计方案。陈悦、刘则渊等人根据国外学者有关知识地图的研究情况,首次提出了“科学知识地图”的概念[61],并对其在国外的发展情况进行了介绍。随后,知识地图的相关概念和理论逐渐受到国内学者的关注,廖胜姣等人也先后对知识地图的相关理论和概念进行了介绍[62]。有关知识地图绘制过程中的相关方法、算法和可视化技术的研究也较少,但近年来有所改观。康永兴构建了一套科研机构知识地图系统来促进科研机构的知识管理,在一定意义上属于知识地图的方法研究范畴。张婷在DIVA软件的基础上对原有软件进行了二次开发,绘制出科学传播研究前沿演进的时间线和地形式可视化图谱。
目前,国内有关知识地图的应用研究已经取得一些成果。总结起来,目前国内知识地图的应用研究主要分布在以下几个领域[49]:①管理学学科下的相关领域,如科学学、管理学、战略管理学、工商管理、科学哲学、情报学、科学计量学、信息管理、知识管理等方面的研究,揭示了这些学科的学科结构、发展历程、主流学术群体等;②前沿科技领域方面的研究,如生物相关领域、纳米科技、能源技术、先进工业技术等;③有关创新理论与实践的研究,如创新系统、创新管理等;④教育领域的研究。对高校自然科学学科分布与合作网络知识地图进行了绘制,为推动高校自然科学教育的发展与改革提供参考。此外,还有一些经济学相关领域研究、新兴交叉学科的研究和针对个别期刊、机构的知识地图研究等。
2. 知识地图的绘制方法
知识地图绘制的方法很多,主要有以下几种[49]:
(1)引文分析。引文分析方法是知识地图绘制最主要的方法。可以说,引文分析方法是知识地图产生与发展的根基所在。所谓引文分析,就是利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,从而揭示其数量特征和内在规律的一种方法。具体方法包括引文时序分析、论文共被引分析、作者共被引分析、期刊共被引分析、论文耦合分析等。
(2)共词分析。共词分析是通过对一组词语两两统计其在同一文献中的出现次数来对词进行聚类分析,从而反映出词间的亲疏关系,进而分析这些词所代表的学科研究热点、主题结构变化和转移趋势[49]。较为常见的共词分析是关键词共现分析。关键词是文章内容的直接体现,常被用来进行前沿研究领域的研究热点和发展趋势的辨析。
(3)社会网络分析。前文提到,社会网络分析是人、集团、组织或者其他信息与知识处理实体的关系和流动的映射和测量。社会网络分析可以建立网络关系模型,并对网络中各成员的关系进行描述。在知识地图研究中,社会网络分析方法可以用来对学术群体的合作关系以及引文网络中的层次关系进行研究。
(4)多元统计分析。多元统计分析是指对若干相关的随机变量观测值进行分析。多元统计分析的核心思想是降维,即数据结构的简化。在知识地图研究中,多元统计分析可以将复杂的文献信息进行简化,从大量资料中提取有用的信息,一方面可以对图谱进行简化,另一方面又可以对图谱中所展示的复杂信息进行解释。使用较多的多元统计分析方法主要有因子分析法、聚类分析法和多维尺度分析法。
(5)词频分析。这种方法在知识地图的绘制中主要是同上述方法相结合,通过对论文标题、关键词等进行词频分析,就可以确定领域具体研究内容以及名称等。
2.1.3 信息可视化
信息可视化(InformationVisualization)以信息科学、计算机科学、地图学、认知科学、信息传播学与信息系统为基础,通过计算机技术、数字技术、多媒体技术,动态、直观、形象地表现、解释、传递信息并揭示其规律。信息可视化技术的核心是将各类信息及其不可见的内部语义关系转换成图形,展示在一个低维的可视化空间中,提供一种有效的信息反馈机制。
1. 信息可视化的发展历程
信息可视化起源于多个方面。可视化来源于英文单词“Visualization”,是指将文本、数字等信息转化为图形、图像等直观视觉表现形式的过程。从当前发展的可视化技术来看,主要包括科学可视化、数据可视化、信息可视化、知识领域可视化等分支。信息可视化理论最早来源于图形理论。1967年,法国制图工作者巴顿(J. Bertin)发表了图形理论。这一理论指明了图表的基本元素,描述了图表的设计框架[63]。
1987年,美国国家科学基金会的小组报告中提出立即建立并长期从事研究“科学可视化”的新兴领域,第一次提出了科学计算可视化的概念。信息可视化是在科学可视化的基础上发展起来的,尽管两者在研究对象、方法和应用领域等方面有着本质区别,但科学可视化的发展对信息可视化研究起到极大的推动作用[49]。
自20世纪80年代以后,美国耶鲁大学统计学教授爱德华·塔夫特(Edward Tufte)(5)先后于1983年、1990年和1997年发表了三本关于信息可视化的代表性著作[49],为信息可视化研究奠定了重要的理论基础。巴顿的理论在许多领域都很有影响,并且推动了信息可视化的大发展。1989年,信息可视化的概念由罗伯斯顿(G. Robertson)和卡特(S. Card)等在其发表的论文中首次提出。随后,“信息可视化”迅速发展成为与科学可视化并列的研究领域[64]。
信息可视化已经成为情报学领域研究的新热点。20世纪90年代以后,关于信息可视化的论文和著作迅速增长,陈超美博士于1999年首次专门论述了信息可视化[65],是信息可视化领域最早的开拓者之一。他在信息可视化领域引入pathfinder算法,提高了文献引文网络分析的效率和范围,对科学知识图谱理论与方法作出了奠基性贡献。
利用计算机软件绘制知识地图是近年来信息可视化技术发展的重要手段。通过知识地图的手段实现信息可视化开始于20世纪80年代,信息计量学家霍华德·怀特(Howard D. White)等学者首先通过绘制科学知识图谱的方法对学科领域的知识结构进行可视化分析[49],掀起了科学计量学与信息计量学等学科的信息可视化研究,这种直观展现学科知识结构的方法迅速得到了广泛传播和深入发展。陈超美创造性地将信息可视化技术和科学计量学结合起来,把对科学前沿的知识计量和知识管理研究推进到以知识图谱与知识可视化为辅助决策重要手段的新阶段,开创了知识单元的可视化技术与应用领域,推进和推广了科学前沿图谱及可视化分析。
2. 信息可视化流程
信息可视化的目的是与大规模数据集进行高效交互,发现隐藏在信息内部的特征和规律。各种可视化方法(或工具)充分利用了人类对可视模式快速识别的自然能力,可将人类对信息阅读、判别和理解等认知负担转变为简单、直观的视觉感知,对于科学研究工作的重要性日益凸显。特别是当研究问题的规模和复杂性日益增长,在对研究结论和成果进行展示、说明时,对各种可视化工具的需求越来越迫切。
可视化流程的关键在于精简的概括性以及自然的交互性。可视化的一般流程可以概述为:原始数据经过数据过滤获得可视化数据,可视化数据通过映射获得对应的表示形式,再将这些表示通过渲染获得可视化效果并输出(如图2-1所示)[49]。
图2-1 可视化流程
(1)原始数据到可视化数据的过程。可视化项目背景和目标决定了该过程和数据的具体内容。
(2)可视化数据的映射。映射是指将抽象数据转换为可视化表示的过程,如通过颜色映射数值关系。映射可以将复杂抽象的数据形象直观地概括到一张或多张图形中,有利于人类有效地理解数据。可视化的难点就在于从数据表到可视化结构的映射,可视化结构包括三个基本组成部分,即空间基(Spatial Substrate)、图形元素(Graphical Elements)、图形属性(Graphical Properties)。其中,空间基决定了最终视图的空间维度;图形元素是可视化视图中的主体,通常用来代表要表现的数据特征,常用的包括点、线、面、体;而图形属性是指图形元素的一些视觉属性,包括静态和动态属性(例如,闪烁等动态属性)。常用的图形属性包括尺寸、形状、方向、颜色(细分为色相、明度、饱和度)、纹理等。在可视化过程中,数据表被映射为可视化结构,可视化结构在一个空间基中用图形元素和图形属性对信息进行编码,三者交叉构成不同的视图对象。
(3)渲染与可视化效果输出。交互是指计算机对人类所做行为的反应,通过设计便捷有效的交互有利于人类对复杂数据进行自由探索。映射完成后,就有了视图,但用户看到的视图对象大多是由交互操作决定的。
为了提高可视化的效率,还需要对其中的关键步骤进行优化,并添加交互功能。从原始数据到可视化数据,需要进行层次化结构的表示、特征提取等操作;从可视化数据到渲染数据,需要进行多边形消减、自适应算法等处理;从渲染数据到渲染结果,需要借助硬件加速等技术。
目前,信息可视化在多个领域获得了广泛应用[49],包括医药学、生物学、工业、农业、军事等领域。最近几年,信息可视化在金融、网络通信、商业信息等领域获得了大范围应用,受到社会各界的关注。