1.2 信息检索的概念与类型
信息检索(information retrieval)又称情报检索,萌芽于图书馆的参考咨询工作,20世纪50年代才固定成专用术语。随着信息爆炸(information explosion)和以计算机技术为核心的信息技术的迅速发展,信息检索的概念与类型都在发生新的变化。
1.2.1 信息检索的概念
有关信息检索的定义,目前国内外有不同的表述。归纳起来,代表性的定义有以下几种。
1.信息检索过程说
《图书馆学百科全书》认为,信息检索是“指知识的有序化识别和查找的过程。……广义的情报检索包括情报的存储与检索,而狭义的情报检索仅指后者。”国内许多有关情报检索或信息检索的教材、工具书采用此说或在此基础上加以发展。例如,武汉大学《信息检索》教材就认为“信息检索是从任何信息集合中识别和获取信息的过程及其所采取的一系列方法和策略。从原理上看,它包括存储与检索两个方面”。该定义基本采取第一种说法,但加了“一系列方法和策略”。Ricardo Baeza-Yates等认为:“信息检索是对信息项进行表示、存储、组织和存取。”这里在信息后面加了个“项”字,并将“存储”细化成“表示、存储、组织”。
2.全息检索说
上海交通大学信息检索专家王永成教授认为,全息检索就是“可以从任意角度,从存储的多种形式的信息中高速准确地查找,并可以按任意要求的信息形式和组织方式输出,也可仅输出人们所需要的一切相关信息的电脑活动”。这里强调的是“任意”、“多种形式”,且必须由计算机来完成。
3.概念信息检索说
Chank等专家认为,概念信息检索是基于自然语言处理中对知识在语义层次上的析取,并由此形成知识库,再根据对用户提问的理解来检索其中的相关信息。它用概念而不是关键词来组织信息,它与传统文献检索的区别在于:后者是基于关键词、主题词为核心的标引与检索。尽管关键词、主题词可以表示信息的概念和内容,但在很多情况下并不能确切表达,因此常造成误检与漏检。
4.本书说
信息检索是从大量相关信息中利用人机系统等各种方法加以有序识别与组织以便及时找出用户所需部分信息的过程。这里所谓“大量相关信息”,是指包括文字、音频、视频、动态和静态信息在内的各种信息;所谓“人机系统”“各种方法”是指利用关键词、主题词和概念分析等方法人工或自动将信息有序化;所谓“及时找出用户所需部分信息”,是指一切以用户为本,全方位、多角度提供检索入口和检索结果。信息检索包含存储与检索两个部分。存储是对有关信息进行选择、并对信息特征进行著录、标引和组织,建立信息数据库;检索则根据提问制订策略和表达式,利用信息数据库。只有将大量无序的信息通过一定的方法使之有序化,检索才有可能。概念分析,即将概念转换成系统语言,是存储与检索共有的过程,因此从这个意义上讲,信息存储是信息检索的逆过程,两者是不可分割的一个整体。显然,本书的这个定义是在吸收了上述各种定义合理内核的基础上,根据信息检索最新发展情况得来的,它具有较大的包容性和发展空间。
1.2.2 信息检索的类型
为了便于理解信息检索的概念,可以根据不同的标准,将信息检索区分成各种类型。
1.按检索内容分
1)数据信息检索
数据信息检索(data information retrieval)是将经过选择、整理、鉴定的数值数据存入数据库中,根据需要查出可回答某一问题的数据的检索。这些数值型数据各种各样,包括物理性能常数、统计数据、人口数据、国民生产总值、外汇收支等。数据检索不仅能查出数据,而且能提供一定的运算推导能力。用户获得各种经过整理、计算过的量化信息,从而为定量分析提供依据。例如,它可以回答“9·11事件前美国纽约世贸大厦有多高?”“2001年中国经济增长率是多少?”之类的问题。
2)事实信息检索
事实信息检索(fact information retrieval)是将存储于数据库中的关于某一事件发生的时间、地点、经过等情况查找出来的检索。它既包含数值数据的检索、运算、推导,也包括事实、概念等的检索、比较、逻辑判断。例如,数据库中存储的信息有如下事实:① 张三是A校的学生;② A校的学生都学《信息检索导论》课程。那么,该检索系统能够回答用户提出的“张三学《信息检索导论》课程吗?”这种问题。事实信息检索比数据信息检索复杂。
3)文献信息检索
文献信息检索(document information retrieval)是将存储于数据库中的关于某一主题文献的线索查找出来的检索。它通常通过目录、索引、文摘等二次文献,以原始文献的出处为检索目的,可以向用户提供有关原文献的信息。例如,它可以回答“近年来国内外有关图书情报学的专著和论文有哪些?”的问题。正因为此,有的书中又称它为“书目检索”或“书目信息检索”。
2.按组织方式分
1)全文检索
全文检索(full text retrieval)是将存储于数据库中整本书、整篇文章中的任意内容信息查找出来的检索。它可以根据需要获得全文中有关章、节、段、句、词等的信息,也可进行各种统计和分析。例如,它可以回答“《红楼梦》一书中‘林黛玉’一共出现过多少次?”这样的问题。
2)超文本检索
超文本检索(hyper text retrieval)是对每个节点中所存信息及信息链构成的网络中信息的检索。它强调中心节点之间的语义连接结构,靠系统提供的复杂工具进行图示穿行和节点展示,提供浏览式查询,可以进行跨库检索。
3)超媒体检索
超媒体检索(hyper media retrieval)是对存储的文本、图像、声音等多种媒体信息的检索。它是多维存储结构,有向的链接,与超文本检索一样,可以提供浏览式查询和跨库检索。
3.按检索设备分
1)手工检索
手工检索(hand retrieval)是人直接用手、眼、脑组织、查找印刷型文献的检索。其优点是直观、灵活、无需各种设备和上机费用,在查找某些信息时,仍然可用。但查找较复杂的、较大课题的资料信息时,费时费力,效率不高,有的甚至无从查找。
2)机器检索
机器检索(machine retrieval)又称计算机检索,是通过机器对已数字化的信息按照设计好的程序进行查找和输出的过程。按机器检索的处理方式分,有脱机检索和联机检索;按存储方式分,有联机检索、光盘检索和网络检索。机器检索不仅大大提高了检索效率,而且拓展了信息检索领域,丰富了信息检索的研究内容。
本书第4、5、6、7章专门论述手工检索、光盘检索、联机检索和网络检索。