第三节 数据来源的分析比较
从上一节内容可以看出,随着网络的发展,可用于文献计量学研究的数据来源越来越多。但是,对于人文社会科学领域的文献计量学分析而言,目前尚没有一个数据库可以满足各学科常见的分析需求。SSCI的权威性相对较高,但是存在明显不足,其他数据来源也有各自的局限。因此,对数据来源进行深入分析比较,明确其优势、特色和存在的问题,才能正确选择和使用数据源。
一 外文数据来源的分析比较
1.SSCI和A&HCI的不足
随着对引文索引在人文社会科学领域应用的探索,各国学者对SSCI和A&HCI数据的比较和评价也比较多。这两个数据库具有国际性强、回溯时间长、引文数据规范、系统功能强大等优势,这使得它们经常成为文献计量学研究首选的数据来源。但是另一方面,这两个数据库也存在一些问题,最重要的问题集中在期刊收录的学科、语种、国家覆盖面的不足,以及对其他类型文献的收录欠缺两个方面。
(1)来源期刊的覆盖面不足
加菲尔德创立《科学引文索引》时的一个基本依据是加菲尔德文献集中定律(详见第五章),就是要以有限的期刊数量来反映科学领域的核心期刊和核心文献的状况。对于国际化程度非常高、引用高度集中的自然科学,SCI收录的期刊数量较多,能满足各学科的基本需求。而人文社会科学文献的离散性强,SSCI和A&HCI收录期刊数量较少,期刊收录的覆盖面不能反映全球人文社会科学期刊的整体状况。
莫德在《科研评价中的引文分析》一书中专门研究了ISI(即现在的WoS)引文数据库对各学科的覆盖面。结果表明,ISI引文数据库对大部分自然科学学科期刊文献的期刊覆盖面很高,各学科均超过70%,分子生物学与生物化学学科甚至达到97%。但是对于人文社会科学的期刊覆盖面很低,只有经济学达到80%,人文与艺术只有50%,这就意味着在ISI期刊引文中,人文与艺术学科引用的期刊引文中,有一半期刊未被ISI收录(见表3-3中的1b)。
表3-3 各领域ISI引文库覆盖面指标
注:期刊作为交流媒介的重要性(1a)——发表在期刊上的参考文献占参考文献总量的百分比;ISI对期刊文献的覆盖面(1b)——发表在ISI来源期刊上的文献占期刊参考文献总量的百分比;ISI综合覆盖面(1a × 1b)——发表在ISI来源期刊上的论文占参考文献总量的百分比。
资料来源:亨克·F.莫德,《科研评价中的引文分析》,科学技术文献出版社,2010,第83页。
人文社会科学期刊收录覆盖面不足的另外一个表现是对英美国家的英文期刊收录较多,国际性内容多,区域性内容少,这也是SSCI和A&HCI在数据来源上的主要问题。
欧洲的文献计量学家分析了ISI对欧洲期刊,特别是非英语期刊的收录情况,发现SSCI和A&HCI在期刊收录的地域、语言等方面存在偏见。
ISI引文库收刊原则中非常强调期刊的国际性,但是研究表明,虽然近些年社会科学领域研究的国际性呈不断增强的趋势,但是总体说来,人文社会科学领域研究(特别是人文领域)具有更强的“国家性”。
通过对波兰社会学领域期刊的收录情况可以看出SSCI在揭示国家性强的期刊方面存在的问题:在1980~1988年“波兰社会学引文索引”内被引用最多的10种期刊中,只有三种外文期刊被SSCI收录(SSCI在此期间没有收录波兰文期刊);在1981~1995年波兰社会学引文索引与SSCI中各自被引用最多的20篇论文中没有一篇相同,前者均为波兰文,后者则有19篇英文论文。
还有一些学者的研究表明,英国经济学论文被SSCI收录的比例很高,达到73%,澳大利亚和荷兰的社会科学期刊论文大约被收录1/3,西班牙的比例更低一些。
加拿大的阿尔尚博比较了WoS和著名的国际报刊目录《乌利希国际期刊指南》(Ul -rich's International Periodicals Directory)收录各国编辑期刊的比例(见表3-4)。其中,人文社会科学领域中,英国、美国期刊被ISI收录的数量占ISI收录期刊总数的77.5%(其中英国27.1%,美国50.4%),两国被《乌利希国际期刊指南》收录期刊量占乌利希全部期刊总数的47.6%。从所占份额上看,ISI比《乌利希国际期刊指南》收录英、美两国期刊的比例分别高出55%和35%。ISI对英、美期刊的偏好由此可见一斑。值得注意的是,ISI在人文社会科学领域中对英美的偏好比自然科学更强,自然科学中这两国的期刊占全部期刊量的59.5%(英国23.1%,美国36.4%),比人文社会科学少18个百分点。
表3-4 ISI和乌利希国际期刊指南在自然科学与人文社会科学中收录数据的比较
说明:“差异”一栏中的数值为ISI与乌利希之差占乌利希的百分比。
资料来源:É. Archambault. etc. “Benchmarking scientific output in the social sciences and humanities:the limits of existing databases”, Scienctometrics, Vol.68, No.3(2006): 329-342.
中国期刊被SSCI和A&HCI收录得更少。据统计,2009年,SSCI共收录中国期刊10种,其中大陆3种,台湾3种,香港4种;A&HCI共收录中国期刊7种,其中大陆1种,台湾4种,香港2种。这十几种期刊中,有2种期刊被A&HCI和SSCI同时收录。此外,国外出版的研究中国的期刊也仅13种。由于期刊存在与国外合作出版等情况,因此各种统计数据不太一致,但是尽管如此,所有的数据都表明,SSCI和A&HCI收录中国出版的期刊共计十余种,中国大陆出版的期刊在两种引文索引中收录的数量不超过十种。
从表3-4可以看出,ISI中,中国人文社会科学期刊的百分比比《乌利希国际期刊指南》中中国人文社会科学期刊百分比少91%。根据原新闻出版总署统计,2009年中国大陆地区共出版期刊9851种,其中,哲学社会科学类2456种。相对于这个期刊出版数量,《乌利希国际期刊指南》中收录的中国期刊数量本身就十分有限(仅占《乌利希国际期刊指南》总量的0.94%,大约200多种),这可能是长期以来由于语言和其他因素导致的问题。相比之下,ISI收录的中国人文社会科学期刊品种更是寥寥无几(仅占ISI期刊的0.09%)。
随着中国经济的发展及其在全球地位的不断上升,全世界对中国的关注度越来越高,中文期刊的重要性越来越大,汤森路透公司也开始把目光转向中国人文社会科学期刊,对收录中国人文社会科学期刊的调研工作也在进行,但是由于语言、期刊国际化和规范性等因素而未能将中国最优秀的人文社会科学期刊收录进去。以中国社会科学院主办的学术期刊为例,根据《中国人文社会科学核心期刊要览2008年版》,几种社科院主办的期刊,如《经济研究》(2005年影响因子6.9675)、《中国社会科学》(影响因子4.0147)、《中国工业经济》(影响因子2.8981)、《法学研究》(影响因子2.5817)、《社会学研究》(影响因子2.2893)等,在中国人文社会科学各领域中,影响因子均名列前几位,都是相关学科中最优秀的期刊,但是没有一种被SSCI收录。因此,仅利用SSCI根本无法揭示中国人文社会科学研究的基本情况。
这也是中国大陆和台湾地区竞相建设引文数据库的重要原因。
(2)对其他类型文献的收录欠缺
在人文社会科学领域学术交流过程中,图书和一些其他类型的文献是非常重要的学术资源,但SSCI和A&HCI仅收录了期刊论文及其引用信息,而仅以期刊引文数据进行分析,对很多学科来说,尚不能揭示人文社会科学领域研究的全貌。
希克斯(D. Hicks)对社会科学领域的期刊、图书、国家文献和非学术文献等四种文献类型的特点和作用进行了分析,她认为,仅依据期刊论文,忽略其他三种文献类型(图书、国家文献和非学术性文献)而进行的文献计量学评估将会带来对社会科学领域的曲解。
由于文献类型收录的欠缺,SSCI和A&HCI对人文社会科学领域的整体信息覆盖面很低。
莫德利用2002年ISI引文数据库光盘版进行了引文分析(表3-3)。他首先计算了各学科引文中期刊论文的比例(即表中的1a),将这个指标作为期刊在该学科的重要性。从表中可以看出,经济学、其他社会科学、人文与艺术等学科中期刊论文的比例从59%下降到34%,比自然科学各学科都低很多。其次,他计算了发表在ISI来源期刊上的文献占期刊参考文献总量的百分比(1b),代表ISI对期刊文献的覆盖面,其中人文与艺术只有50%。最后,他将以上两项相乘,得出ISI对各学科文献的综合覆盖面。同自然科学相比,社会科学的文献综合覆盖面相对较低,如最高的是经济学,为47%,“其他社会科学”仅有29%,而人文与艺术则非常低,只有17%。如果后两类学科用ISI数据进行文献计量学分析,显然缺乏数据的代表性。
此外,考虑到该项研究是利用ISI作为原始数据,其结果对ISI应有一定偏向,如果利用其他数据库,得出的ISI覆盖面百分比一定比表3-3中的数据还要低。
因此,文献类型收录不足成为SSCI和A&HCI及其他期刊引文数据库应用于人文社会科学的重要缺陷。
在受到多年的质疑和批评之后,汤森路透先是建设了会议录引文索引数据库,2011年又发布了新建成的图书引文数据库(Book Citation Index),这将在很大程度上弥补仅有期刊引文数据库的缺陷。
2.SSCI、A&HCI与其他数据来源的比较
由于WoS存在着一些不足,学者们希望能够找到更好的数据源或替代物,因此很多人将其他数据源与WoS引文数据库进行比较。这些数据源虽然目前并不能完全取代WoS,但是却具备传统引文索引所不具备的优势,其中部分数据库已经显示出对WoS强有力的冲击。
英国经社理事会(Economic and Social Research Council, ESRC)的一份报告比较了WoS、Scopus、CSA Illumina和Google Scholar等四个数据库的来源期刊、论文和引文的覆盖面,以及彼此之间数据重复的情况。
报告通过数据比较发现:
CSA的来源期刊覆盖面最广,但是由于其部分期刊的选择性收录原则,导致论文的收录不是很全;非英语文种的论文收录得多,但是引文数量较少。
表3-5 四个数据库的比较
资料来源:Michael Norris, Charles Oppenheim. Bibliometric Databases—Scoping Project. ESRC report. p25. http://www.esrc.ac.uk/images/BibliometricDatabasesScopingProjecttcm8-4862.pdf[2011-12-12]。
Scopus数据库具有较为全面的数据和较强的检索功能。除了收录年代不够长以外(收录1996年以来的引文数据),在内容覆盖面、数据质量、分析功能等方面都表现突出,可以作为WoS的替代物。
Google Scholar数据有一些重复,且一致性不强,“不能作为一个严肃的测量社会科学活动的工具”。
作者将WoS、Scopus及CSA Illumina之间数据重复情况绘制成图(见图3-2)。
图3-2 三个数据库之间的重复量
资料来源:Michael Norris, Charles Oppenheim. Bibliometric Databases—Scoping Project. ESRC report. P18. http://www.esrc.ac.uk/images/BibliometricDatabasesScopingProjecttcm8-4862.pdf[2011-12-12]。
报告的结论是:在进行社会科学收录范围评价时,Scopus可以作为WoS的替代物或补充产品。在图书方面,尚未找到一个收录社会科学重要图书目录的数据库。
2006年,巴卡尔巴斯(Bakkalbasi)等对Google Scholar、Scopus和WoS三种工具进行了比较。作者发现,与其他数据库不同的是,Google Scholar的来源文献范围广,不但包括期刊,也包括图书和其他纸本文献的类型,以及传统数据库中没有的灰色文献,如预印本、工作论文等,还包括政府和学术网站的内容。Google Scholar将期刊、图书的章节或网站被引用的次数列出,被引频次越高,结果越相关的内容被排在越前面。但Google Scholar没有明确说明标引了哪些期刊,也没有说明收录的年代范围。
作者比较了肿瘤学、凝聚态物理两个领域的11种期刊在1993和2003年被三种工具收录和引用的情况。结果发现Google Scholar的检索结果数量几乎都是最少的,仅在2003年的肿瘤学领域,拥有最多的不同文献。该文作者在2005年11月再次利用Google Scholar进行检索,发现情况有了戏剧性的变化,检索结果数量明显增加,2006年1月再次检索,得到了更多的检索结果。种种迹象表明,搜索引擎的发展比引文数据库要快得多。
根据前面的分析,本书作者总结了各种数据源的特点(表3-6)。
表3-6 外文数据源的比较
总之,每种数据源都有自己的特点,SSCI作为传统的引文数据库,具有引文时间范围长、数据质量高、统计分析功能强的特点,但是也存在收录数量少、偏重于英文文献、仅收录期刊的问题。目前可以作为SSCI替代品和竞争对手的当属Scopus,它在数据质量、统计功能方面可与SSCI媲美,同时还具备收录期刊种类多、非英语期刊多的特点,缺点是收录时间比SSCI短,仅包含1996年以来的引文数据。其他数据源各有特点,也各有缺陷。CSA系列数据库在来源文献方面具有数量大、多类型、质量高的特点,但收录引文数量很少。Google Scholar由于数据时间、范围、收录原则的不透明,虽然收录多种文献类型,且被引量不断上升,但是不宜作为正式的工具,研究结果只可作为参考。
总体说来,当前还没有一个数据库是完美的,应当根据分析的目的、时间范围的要求和学科特点来选择一个或多个适用的数据库作为数据源。
二 中文引文数据库的分析比较
中文文献计量学研究的数据来源基本来自于中国大陆和台湾地区的引文数据库。目前,外文数据库中收录的中文人文社会科学相关数据数量太少,还不足以用于进行中国人文社会科学文献计量学研究。
中国大陆的人文社会科学引文数据库有4个,分别是:南京大学的CSSCI、中国社会科学院文献中心的CHSSCD、中国知网的CNKI-CCD以及重庆维普的Vip-CCD。数据的起始时间均为20世纪90年代中、后期,彼此之间数据重叠较多,同质性较强。CNKI-CCD和Vip-CCD等基于文摘的引文库的来源文献数据量比传统引文库大得多,而且有些还包括期刊以外的其他文献类型。但是,从文献计量学分析的角度看,传统引文数据库数据量虽然相对较少,但却是数据最规范、质量最高的。总体看来,同WoS或Scopus等国外数据库相比,国内的数据库在收录时间跨度和检索功能等很多方面还有较大差距。这些中文引文库的主要特点如下:
(1)从数据收录的范围来看,CNKI-CCD和Vip-CCD收录的期刊数量更多,来源文献类型不仅包括期刊,同时也包括学位论文和会议论文等其他文献类型,因而多数情况下,检索到的被引频次比CSSCI高。王知津和姚广宽统计了图书情报领域的三种期刊在三个数据库中的被引频次,发现CNKI(指CNKI-CCD)检索到的被引次数明显高于CSSCI,而维普(英文名为Vip,文中指Vip-CCD)在1999~2000年比CSSCI低,2002年超过CSSCI很多(见表3-7)。
表3-7 1999~2002年CNKI、Vip、CSSCI对三种期刊的被引量统计
资料来源:王知津、姚广宽,《三大中文数据库引文功能比较——CNKI、Vip和CSSCI实证研究》,《图书情报知识》2005年第3期,第61~65页。
但是,CSSCI等专门的引文库虽然规模相对较小,但收录范围清晰,来源期刊都经过精心选择,数据加工规范,适用于较为正式的文献计量学研究。CNKI等基于文摘的引文数据库收录期刊数量多,同时还涵盖了学位论文、图书等其他类型的文献作为来源文献,但是收录的具体范围比较模糊,对于数据库中收录的图书、学位论文和会议论文等类型的引文的处理方法缺乏明确说明。
从表3-7中我们也可以看出,三种期刊在CSSCI中的各年度被引次数都呈稳中有升的趋势,CNKI和Vip则变化较大。这说明CSSCI来源期刊数量相对稳定,而另外两个数据库收录的数据量则变化较为明显。这从一个侧面反映了数据库收录范围的稳定性。
(2)从数据标引质量来看,CSSCI等引文数据库的数据标引质量相对较高,对参考文献的收录全面,而CNKI并不是对所有的参考文献都进行标引。
王知津和姚广宽比较了三个数据库对来源期刊收录的情况。他们发现,CSSCI对引用文献收录全面,篇均参考文献量比其他两个数据库大得多,基本上能够较为全面地反映期刊论文实际所列参考文献的情况,而CNKI和Vip对所收录文献的引文揭示不充分。虽然三个数据库中收录文章的篇数比较接近,但CNKI和Vip有引文论文的篇数及引文总量均比CSSCI明显少许多(见表3-8)。
表3-8 1999~2002年CNKI、Vip、CSSCI对三种期刊来源文献的引文比较
数据来源:王知津、姚广宽,《三大中文数据库引文功能比较——CNKI、Vip和CSSCI实证研究》,《图书情报知识》2005年第3期,第61~65页。
秦长江以《中国农史》期刊中高被引文献为例,分析了CSSCI和CNKI-CCD的差异原因。他分别在两个数据库中进行检索,发现检索结果在不同引文数据库中差别非常大。通过分析检索结果,他发现从参考文献的标引过程来看,两库的做法有所不同,CSSCI是人工标注,能够保留大部分参考文献,而CNKI-CCD是计算机标注,因此把不在CNKI知识库中的期刊和图书、古籍、灰色文献等全部省略,因此CSSCI标注的文后参考文献数量比CNKI-CCD多很多。
(3)从检索功能来看,CSSCI的引文检索功能最强,结果揭示及下载方式等也都符合文献计量学分析的要求,虽然距离WoS还有较大差距,但是在国内人文社会科学的引文系统中是最出色的。CNKI等在检索来源文献时功能很强,但是引文检索则差强人意。
根据赵蓉英等的分析,发现CJFD(这里指CNKI-CCD)的引文检索只能检索出引用篇数,系统无法自动统计被引篇数,因此该库比较适合于一般的引文查询,而不适合进行大量的数据统计。在检索结果上,Vip -CCD可提供被引文献的详细信息,CSSCI可根据检索条件自动统计出被引篇数和被引次数,双击被引篇数链接,即可出现这些引文来源文献的详细信息。
几个数据库还存在统计标准不一致的情况。如对于一篇文献中被多次引用的情况,CNKI中算作1次,而CSSCI中则计为多次,因而有时在统计时会发生较大的数量差异。汪继南发现,虽然中国期刊网(即CNKI-CCD)总数据量远大于CSSCI,但是也有相当一批期刊在CSSCI中的被引量多于中国期刊网的被引量,特别是法学期刊。
王婧、华薇娜对CSSCI与SSCI和A&HCI从收录情况、检索功能等方面进行了详细的对比,分析了国内外引文数据库的差异。作者认为三个数据库在来源期刊的选择上都有严格的要求,权威性强。国内外引文索引数据库虽然各具特色,但是国内数据库的研究应用与国外较为成熟的体系相比还存在一定差距,CSSCI数据收录时间较短、更新周期长,在检索运算符的支持、检索字段、检索结果的管理等方面都有差距。
虽然各数据库收录数据量有所不同,但是利用这些数据进行分析,其结果的总体趋势是否有很大差异呢?
汪继南对CSSCI和中国期刊网引文版(即CNKI -CCD)进行了比较。从他的调查数据来看,中国期刊网的被引量普遍高于CSSCI,这种现象比较正常,因为中国期刊网收录数量更大、范围更广。他还发现:
· 利用CSSCI和中国期刊网引文分别对期刊进行评价排序,两者排序的耦合度约为75%。约有25%的期刊在CSSCI和中国期刊网中的评价有明显的区别。
· 在25%评价有区别的期刊中,55%的期刊在中国期刊网中评价更高,45%的期刊在CSSCI期刊中更有影响。前者体现期刊影响的广泛性,后者体现期刊影响的集中性。
· 各学科的顶尖期刊在CSSCI和中国期刊网期刊中都有非常大的影响。
为了便于比较,本书作者总结了各数据库的特点,绘制出一个表格(表3-9)。
表3-9 中文数据源的比较
相比之下,CSSCI属于专门的引文索引,数据的收录范围明确、稳定,有相对较好的标引质量,提供了适合文献计量学分析的检索和下载功能等,虽然存在来源文献时间跨度小、数据库更新慢等问题,但该库仍然是目前进行中国大陆文献计量学分析的可靠的数据源。
CNKI-CCD和Vip-CCD数据库收录期刊数量多、来源文献类型广,多数情况下具有较高的被引频次,但是由于数据的收录范围不明确、不稳定,数据标引不全,检索、下载不便而导致的相关问题也不容忽视。
CHSSCD的性质与CSSCI相同,也具备了数据收录范围明确、稳定,有相对较好的标引质量等两方面的优势,但是尚未提供面向社会的检索服务。