信息组织与利用
上QQ阅读APP看书,第一时间看更新

1.2.3 社科文献信息检索

1.文献检索工具

人类的知识浩瀚博大,一个人除了掌握其中的一小部分外,其余大量的知识仍要借助各种工具书才能迅速地获得。工具书是图书中较为特殊的一类,从使用角度看,图书可分为两类,一类是阅读性图书,它主要是供人们系统阅读、以获取知识为目的而编著;另一类则是供人们查找特定文献信息资料、按特定体例编排的图书,即工具书。工具书的特点是内容概括、信息密集、知识成熟、编排合理、查检方便。工具书虽不以供人们系统阅读为目的,但使用性强,是人们求知治学、解疑释惑不可缺少的工具。

纸质工具书一般又分为两类。一是检索工具书,它对特定的资料进行加工、整理,并按一定的方式编排文献的线索与出处,即检索工具书不直接向人们提供所需的文献资料,只提供文献的线索而已,用户再根据有关的线索去查找所需的文献。检索工具书主要有书目、索引和文摘等。二是参考工具书,它是根据人们的需要,广泛汇集一定范围内比较成熟的知识,按一定规则编排组织的工具书。参考工具书包括字典、词典、类书、百科全书、政书、年鉴、手册、名人录、表谱、图录、地图等。

全文数据库是一种新的检索工具,集巨量内容和检索便捷性于一体,实现了文本内容按多种检索方式输出的功能。

2.信息检索的方法

我们正处在一个传统纸质文献与现代数字化文献信息并存的时代,纸质文献由于符合人们阅读习惯等原因,将长期保存并被人们所阅读和使用,而文献的数字化是发展的大趋势,海量的数字资源满足了人们对文献信息快速索取的需求。针对以上两种不同储存形态的文献,其检索方法亦有所不同。

广义上,信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程,即信息存储与检索。狭义的信息检索仅指从信息集合中找出所需信息的过程。按检索手段的不同,信息检索可分为手工检索、光盘检索、联机检索和网络检索。按检索对象形式的不同,信息检索可分为:(1)文献型信息检索,以文献(包括全文、文摘和题录)为检索对象,主要借助于各种书目检索工具;(2)数值型信息检索,以数值或数据为检索对象,如某一数据、公式、图表、化学分子式等,主要借助于各种数值和统计工具书,特别是数据库;(3)事实型信息检索,以某一客观事实为检索对象,如某一事件发生的时间、地点等,各种百科全书、手册、年鉴及全文数据库是主要的检索工具。

检索方法是为实现检索计划或方案而采用的具体操作方法和手段。检索方法有多种多样,究竟采取哪一种方法应视检索工具内容编排的特点、性能及用户需求而定,只有灵活运用各种检索方法,才能取得满意的检索效果。在手工检索中,常用的检索方法有以下几种:一是追溯法,即利用已知文献的引用文献或参考文献查找相关文献的方法,也称引文追溯法。根据国外学者的调查研究,该方法是社会科学研究者最常用的一种检索方法,利用循环追溯检索,可以查到更多的相关文献。二是工具法,即利用各种检索工具进行常规性文献检索的方法,是较为常用的文献检索方法,只要用户对某一学科的工具书及其检索方法有一定的了解,就可以查到大量相关的文献线索,主要通过题名、著者、分类、主题等途径来获取所需的文献。

网络环境下的信息检索主要根据各个数据库检索界面所提供的功能而采取不同的方法。20世纪90年代以来,信息爆炸带来了海量文献,利用计算机进行存储和检索的研究已成为各国研究的一个热点,发展人工智能的自动分类和主题标引技术对文献进行处理,有的是基于人工的分类表、主题词表对数据库的文献进行处理,有的则完全以一种新的职能搜索引擎技术来处理海量的网络信息。目前,各种文献数据库的检索系统仍然是对传统的人工检索语言进行综合、集成,根据数据库所涉及的文献的类型相应地架构集中检索界面和检索功能。比较常见的检索功能有:浏览、简单检索、高级检索、专家检索等。

(1)浏览(Browse),该检索功能常见于按学科、刊名字顺、出版社名称浏览等(见图1-1)。

图1-1 浏览检索

(2)简单检索(Simple Search, Easy Search, Quick Search, Basic Search),又称基本检索、快速检索等,检索界面一般只有一条检索框,系统默认在全库或相应的检索字段中进行检索(见图1-2)。若读者的检索结果不理想,可利用高级检索功能。

图1-2 简单检索

(3)高级检索(Advanced Search),该功能可为用户提供对应的检索字段和限定条件,帮助用户进行精确检索,检索结果更加精准和全面(见图1-3)。有的检索系统把高级检索称为标准检索。

图1-3 高级检索

(4)专家检索(Expert Search),有的称为专业检索(Professional Search),适用于熟悉检索语言的专业检索人员,使用专家检索可以构架复杂的检索式,获得确切的检索结果(见图1-4)。

图1-4 专家检索

构造检索式是专家检索的核心,专家检索有专门的字段代码表,一些大型的数据库使用运算符构造复杂的检索式。数据库检索常用以下一些方法来构造检索式以增强检索功能,以便在庞大的数据中获得满意的检索结果。

(1)逻辑操作。通过逻辑功能对检索词或检索表达式进行组合是检索技术的基本功能之一。在计算机检索系统中一般以AND、OR、NOT分别表示“逻辑与”、“逻辑或”和“逻辑非”,也常用符号*、+、-分别表示。需要着重指出的是一般检索系统中表示逻辑操作的符号需用英文半角字符,而不能是中文或全角字符,如*、+、-等,在实际使用中应注意输入法的中、英文输入法和全角、半角状态,但也有一些中文检索系统中可以通用这些表示法。在一些检索系统中对逻辑操作功能的AND、OR、NOT单词有大小写限制,有一些检索系统则不作限制。例如,需要检索与“学生英语阅读能力”相关的内容,可以采用如下检索式:

学生*英语*阅读

而如果希望从检索结果中排除“大学、高校”的内容,则检索式可修改为:

学生*英语*阅读-大学-高校

而如果只需要“浙江的中、小学生的英语阅读”内容,则检索式可写成:

浙江*英语*阅读*(中学+小学)

其中括号意为如四则运算中的计算优先,如果将括号省去,则检索式的含义变成“浙江的中学生英语阅读”加上所有只要与“小学生”有关的内容,已不符合原先的检索需求。

(2)字段限制。字段限制即在特定的字段中检索符合指定检索词的文献。例如,需要检索题名(假定以缩写TI表示)中含有“人文”一词而主题词(假定以缩写SU表示)中含有“浙江”的文献,检索大致可表示为:

(TI=人文)*(SU=浙江)

当然,具体的表达式格式会随检索系统的不同而有所区别,如字段名称置于检索词的后面,使用其他的符号标记等等。

(3)截词匹配。截词匹配功能一般用于检索与所选检索词一部分相符合,其他部分可以是任意字符的场合。根据截词的位置一般可分为后截、中截和前截。不同检索系统的截词符号往往不同,一般采用“? ”或“*”较多,一个表示单字符,另一个表示多字符,具体哪个表示单字符哪个表示多字符随系统的不同而不同,各个检索系统的默认状态是否进行截词操作也各不相同。

一般后截的应用最多,例如检索以“企业”一词开始的所有相关内容,检索式可写为:

企业*

则企业文化、企业理念、企业经济效益等所有以企业一词开始的词都是符合的结果。

前截和中截一般在英文的检索系统中利用较多,例如:

wom? n

则可检索到符合woman和women的单复数形式的记录,因此也等同于逻辑或的功能:woman OR women,提高了查全率,当然其中“? ”还可以是其他任何字符,因此往往也同时提高了误检率。

(4)词位限制。词位限制有时也称作邻近检索功能,也常用于英语检索系统中,可分为限制检索词次序(WITH)及不限检索词次序(NEAR),以及限制多个检索词在同一句子或段落中出现(SAME)等。例如在Dialog联机检索系统中,有如下实现(其中n为1,2,3, …):

A(nW)B

表示A, B两词次序不变,但最多只可以间隔n个词。

A(nN)B

表示A, B两词次序不限,但最多只可以间隔n个词。

在很多系统有如下实现:

A(S)B

表示A, B在同一检索字段中。当然,在具体的检索系统中,具体的表达式形式会有所不同。

其他还有一些检索功能,如用双引号表示的对词组的精确检索,也称作短语检索功能,还有如区别英文的大小写、对检索词加权、采用同义词表等功能,近年来发展较大的还有自然语言解析、语音识别输入等辅助技术,这些智能化技术的发展应用使人们在使用文献信息时更加方便有效。