第二节 各类型数据源简介
一 引文数据库
引文数据库是文献计量学分析研究中最常用和最重要的数据来源,目前最有影响的人文社会科学引文数据库是汤森路透公司的社会科学引文索引(SSCI)和艺术与人文引文索引(A&HCI)。尽管这两个数据库在被用于学术评价时由于收录范围和数量的不足而饱受诟病,但是它们具有收录的数据质量高、年代跨度大等优点,依然是目前进行国际性引文分析的最佳工具。
由于人文社会科学文献具有较强的离散性,而引文索引又受到收录范围的限制,SSCI和A&HCI在收录的期刊数量和文种上不能覆盖所有的国家和语言,所以一些国家和地区又开发了自己的引文索引,其中最典型的是中国大陆和台湾地区的引文数据库。20世纪90年代以来,中国大陆的南京大学和中国社会科学院文献信息中心分别建设了中文社会科学引文索引(CSSCI)和中国人文社会科学引文数据库(CHSSCD),目前已经在国内产生广泛影响。中国台湾地区出于学术评价的需要,也于20世纪末开始建立台湾社会科学引文索引(TSSCI)和台湾人文学引文索引(THCI)。
欧洲学者非常重视引文数据库的利用,他们认为应当建立欧洲自己的引文数据库。目前,欧洲人文引文索引(ERIH)正在建设之中,还有人提出开发欧洲社会科学引文索引(European Social Science Citation Index, EuSSCI)的建议。此外,一些国家建立了小型的专业引文数据库,如波兰社会学引文索引,该库收录了四种波兰社会学期刊。
(一)美国的引文数据库建设
1873年,《谢泼德引文》面世,它是用于检索法律判决书的一种工具。受到《谢泼德引文》的启发,1955年,尤金·加菲尔德在《科学》杂志上发表了《科学引文索引》(Citation Index for Science)一文,提出了建设引文索引的构想。1963年,在加菲尔德的主持下,美国科学情报所(Institute for Scientific Information, ISI)出版了检索型期刊《科学引文索引》(Science Citation Index, SCI), 1973年和1978年,又分别出版了SCI的姊妹刊《社会科学引文索引》(SSCI)和《艺术与人文引文索引》(A&HCI)。
引文索引面世以后,由于其新颖、独特的检索功能,特别是可以通过文献之间的引证关系揭示出有关学科发展的历史、前沿、影响力等内容,为文献的定量研究提供了理想的基础数据,促进了文献计量学的发展,因而得到了广泛的应用。虽然ISI几经变化,先是被汤姆森科技公司收购,之后又改名为汤森路透公司,但是引文索引的影响却越来越大。随着计算机技术的发展,引文索引从纸本转移到光盘,继而发展到网络。1997年,汤姆森科技公司将SCI、SSCI和A&HCI三种索引进行整合,利用互联网创建了网络版的多学科数据库Web of Science(WoS),提供了非常强大的检索和内容揭示功能。
此后,WoS又增添了会议录引文索引(Conference Proceedings Citation Index, CPCI),并于2011年年底推出了图书引文索引(BkCI), 2012年10月推出数据引文索引(DCI),丰富了引文索引的品种。
1.社会科学引文索引(SSCI)和人文与艺术引文索引(A&HCI)
在WoS的三大期刊引文索引中,SCI始终占有核心地位,它的用户最多,期刊数量增长最快。SSCI和A&HCI随着系统平台的不断提升增强了检索和评价功能,但是在期刊收录数量方面增长相对较慢。
SSCI收录了1900年以来的数据,覆盖了55个社会科学的学科或主题,少数用社会科学实证方法进行研究的教育学、语言学和文化研究也收入其中。该库2012年共收录期刊3033种,来自于40个国家和地区。A&HCI收录了从1975年至今的数据,覆盖了考古学、建筑学、艺术、文学、哲学、宗教、历史等人文领域。2012年该库共收录1675种期刊。
SSCI和A&HCI的来源期刊都经过严格的评估和长期跟踪,根据其在所属学科领域的影响和质量而决定是否被收录。评估标准包括对期刊的定性分析和定量分析,具体内容见第五章。
强大的检索与分析功能是WoS的特色。目前的WoS数据库可以直接链接到重要文献的全文,如果用户有全文的访问权限就可以访问全文内容;记录可直接输出到个人学术信息管理程序EndNote、Reference Manager和ProCite中,便于进行保存和处理;系统对检索结果提供多角度、可视化的全景分析,可以将检索到的结果按不同角度进行统计,归纳出相关研究领域在不同年份的发展趋势、某个特定的课题都分布在哪些不同的学科中,这些分析结果能以可视化的图形表现出来;可以定制引文跟踪服务,也可以无限制地查看检索结果。
2011年7月,汤森路透推出了新的Web of Knowledge平台。新平台在以下几方面提供了新的或优化的功能:
(1)更智能的检索和导航功能,优化了科研人员的研究工作流,使其迅速高效地找到所需的信息:
· 实现左截词检索,并可查找检索词变体,同时能自动检索超过7000个拼写词汇变体(如词汇的不同拼法和单复数等);
· 可对检索结果按照数据库进行筛分精炼;
· 可直接从检索结果页面预览摘要。
(2)更强大的分析工具,让科研人员更有效地管理检索结果:
· 可利用自定义的数据,建立个性化的引文报告;
· 可创建一个同时跨13个数据库的“标记列表”;
· 分析时不受数量的限制,一次可处理超过10万条记录。
(3)更强大的连接,平台整合了Researcher ID(科学家名片)功能,科学家可以借此展示自己的研究成果,并迅速甄别合作者,为开展国际合作研究提供便利。
2.图书引文索引(BkCI)
长期以来,SSCI和A&HCI的来源文献由于仅收录期刊,未收录在人文社会科学文献交流系统中非常重要的图书而在利用方面受到很大限制。为解决这个问题,汤森路透在2011年年底推出了“图书引文索引”(Book Citation Index, BkCI)数据库。作为WoS平台上的新资源,该索引收录了2.5万种自然科学、社会科学和艺术人文类学术图书,并预计每年新增1万种图书。
表3-2 BkCI各学科分布情况
注:数据截至2011年10月。
资料来源:Completing the Research Picture: The Book Citation Index. http://wokinfo.com/productstools/multidisciplinary/bookcitationindex/.[2011-12-16]。
BkCI来源文献包括电子和纸质版学术图书,揭示了文献原创研究或综述的全部引文。该库分为“科学版”(Science Edition)和“社会科学与人文版”(Social Sciences and Humanities Edition)两部分。BkCI很重视对人文社会科学图书的收录,截至2011年10月,人文社会科学及艺术和行为科学图书的数量占该索引收录图书总量的一半以上。
系统提供引文检索、图书引证报告、引用图谱、作者识别工具等功能。
与WoS的期刊引文索引一样,BkCI坚持严格的选择标准,其收录原则如下:
(1)基本的出版标准
出版时间是一个基本的选择标准,科学版的图书必须是近5年内出版的,社科与人文版为7年。另外一个重要的标准是收入BkCI的图书必须经过同行评议。此外,被收录的图书必须包括所有作者的地址信息以及完整的参考文献书目信息。在语言方面,汤森路透重点关注全文以英文出版的图书。
(2)编辑内容
BkCI收录进行原创研究或文献综述并提供完整参考文献的学术图书。不同类型图书的收录原则如下:
· 学位论文——如果学位论文是已经收录的丛书的一部分,或者由有声望的学术性出版社出版、经过良好编辑和评审的专著在考虑范围之内。
· 教科书——本科教材不予收录,研究生或更高级别研究性读者的教材在考虑范围之内。
· 系列图书——学术性丛书或非丛书都在考虑范围之内。
· 再版或重新发行的内容——如果再版的内容以前没有在期刊上发表过,则可以考虑收录;新近出版且从未被收录过的重新发行的内容也可以考虑收录;翻译和非英语的内容在收录范围之列;如果拥有重要的、被引情况良好的学术性评论,非英语的原创著作的译著也可以考虑。
· 地图——不包括学术引文内容的图集或以图片为主的图书不收录。
· 传记——有很好的参考文献,并且是重要的或者学术传记在考虑之列。
· 通俗读物——为普通读者写的通常不收,但是有些单本图书和丛书被收录,这需要根据具体情况而定。
· 参考工具书——词条没有参考文献的参考工具书不予收录。
3.会议录引文索引(CPCI)
WoS的会议录引文索引(CPCI)分为科学版(CPCI-S)和人文社会科学版(CPCI-SSH),其前身分别为科学技术会议录索引(Index to Scientific &Technical Proceedings, ISTP)和人文社会科学会议录索引(Index to Social Sciences & Humanities Proceedings, ISSHP)。
CPCI-SSH收录自1990年以来256个类目中的11万种会议录的题录及引文信息,涉及社会科学、艺术与人文领域所有学科的会议文献,包括以专著、期刊、报告、增刊及预印本等形式出版的各种一般会议、座谈和专题讨论会的会议文献。
4.数据引文索引(DCI)
科学数据(包括观测数据、考查数据、实验数据、统计数据、调查数据等)是人类科研活动中产生的成果。社会科学数据对于社会科学领域的实证研究具有重要价值和决定性意义。科学数据近年来发展迅速。全球大约有超过500个数据知识库,大约为几百万G的存储量。
社会科学数据目前主要集中于经济、社会领域,其中使用得最多的有两类数据:一类是国家统计部门的统计数据,另一类是为社会科学研究和政策制定而专门搜集的调查数据。事实证明,各自为政地进行大量数据的管理、保存、使用,会导致重复工作,代价高昂,效率低下。因此,欧美国家很早就意识到进行统一的数据管理、服务和共享的重要性,并开始进行这方面的实践。但是由于种种原因,科研人员在获取相关科学数据时面临重重困难,如数量庞大的数据知识库加大了查找和利用的难度,质量良莠不齐的科学数据直接影响到研究质量,以及缺乏对科学数据引用评估,未能客观反映数据提供者的贡献等。
随着对科学数据研究的深入,2012年10月16日,汤森路透宣布推出数据引文索引(Data Citation Index, DCI)。DCI作为WoS平台上一个新的研究资源,将推动对数据集和数据研究的发现、使用及归属,该库同时把这些数据与同行评议文献连接起来。
专家们根据知识库的主题、编辑的内容和数据库特性、地理起源和范围等因素进行知识库的评估和选择。DCI收录了自然科学、社会科学、艺术与人文等学科中已有的、成规模的数据集,包括70个国际知识库,约200万条记录,其中有5个艺术与人文知识库和14个社会科学知识库,这些知识库中有一些是国家统计局的数据档案库,有一些是极负盛名的调查数据集,还有一些来自大型的数据中心,它们都具有较大国际影响。
(二)中国大陆地区的引文数据库建设
由于汤森路透的引文数据库对中国人文社会科学期刊收录较少,20世纪90年代开始,中国大陆地区兴起了中文引文数据库的建设高潮。
90年代初,中国科学院文献情报中心和中国科技情报研究所分别在自然科学领域启动中文引文数据库的建设项目,在国内产生了较大反响。90年代末,南京大学和中国社会科学院文献信息中心分别开始建设“中文社会科学引文索引”和“中国人文社会科学引文数据库”,推动了中文人文社会科学引文数据库的发展。下面对中国大陆地区的引文数据库进行简要介绍。
1.中文社会科学引文索引(CSSCI)
(1)数据库概况
中文社会科学引文索引(CSSCI)是南京大学中国社会科学研究评价中心开发研制的引文数据库。截至2011年8月,CSSCI收录1998~2009年的来源文献近100万篇,引文文献600余万条。该数据库涉及人文社会科学领域的所有学科,包括法学、管理学、经济学、历史学、政治学等在内的25个大类。
CSSCI来源期刊每两年调整一次,十几年来期刊数量有小幅增长,1998年为496种,2010~2011年为527种。在2005~2009年,CSSCI在来源中增加了集刊,其中2005~2007年收录来源集刊33种,2008~2009年增加到86种,此后未公布集刊名单。CSSCI还从2008年开始增加扩展刊,2010~2011年收录扩展版来源期刊172种。
(2)来源期刊的选择
CSSCI的来源期刊是按照一定的标准和比例进行筛选的,来源期刊要满足以下基本要求:
· 入选期刊应是在国内公开发行的中文期刊,即收录期刊要有国内统一连续出版物号(CN号);
· 论文的著录项目要全,要包括篇名、作者、作者机构、论文摘要、关键词等项目;
· 参考文献的书目信息齐全,如论文作者、篇名、期刊名称、出版年、卷期、页码等;
· 期刊能够准时出版;
· 入选期刊要有一定数量的参考文献,一般要求期刊的参考文献数量必须在同一学科参考文献平均数量的25%以上(以CSSCI来源期刊的各学科平均参考文献数量为准);
· 翻译类期刊、非汉语期刊和一刊多版期刊不能作为来源期刊;
· 自然科学、文理交叉学科中偏自然科学以及娱乐、资料和普及性的期刊也不作为收录对象。
在满足这些基本要求的前提下,CSSCI确定了选刊指标、期刊数量及各学科数量分配方法,主要的相关因素包括:定量指标、地区和学科的平衡等,具体内容见第五章。
CSSCI提供来源文献、被引文献等多种信息检索途径。来源文献检索有多个检索入口,包括篇名、作者、作者所在地区机构、刊名、关键词、文献分类号、学科类别、学位类别、基金类别及项目、期刊年卷期等。被引文献检索提供被引文献、作者、篇名、刊名、出版年代、被引文献细节等检索入口。其中,多个检索入口可以按需进行优化检索,即进行精确检索、模糊检索、逻辑检索、二次检索等。检索结果按不同检索途径进行发文信息或被引信息分析统计,并支持文本信息下载。
CSSCI向社会公开发布以后,得到了广泛的应用。2011年9月14日,我们利用中国知网(CNKI)数据库以“CSSCI”为检索词进行检索,共得到1635条检索结果,其中除有关期刊被CSSCI收录的消息报道外,多数论文为利用CSSCI进行的文献计量学分析和研究,也有部分论文是对CSSCI用于学术评价的质疑和反思。
2.中国人文社会科学引文数据库(CHSSCD)
中国社会科学院文献信息中心在1996年便开始了社科期刊论文的量化分析和相关理论方法的研究工作。1999年5月,该中心正式启动了中国人文社会科学引文数据库(CHSSCD)的建设。
该数据库目前包括来源期刊700余种,收录1999~2009年的来源数据133万条、引文数据780万条。CHSSCD收录来源期刊的标准是:
· 具有国内统一刊号(CN号)的正规出版物;
· 编辑格式较为规范,特别是有较为规范的文后参考文献;
· 具有较高的学术水平和理论水平;
· 在某学科或某领域内具有较高的载文量和被引率。
CHSSCD来源期刊的收刊范围是:
· 收刊总数为中国3000种人文社会科学期刊的25%左右;
· 各学科专业期刊的收刊比例为该学科专业期刊和含该学科内容的期刊数量之和的20%左右;
· 综合类学术期刊的数量为收刊总数中减去专业期刊以外的部分。
CHSSCD对来源文献和引文也进行了一些筛选。来源文献的收录范围包括学术论文、学术文章、学术综述与述评,不包括资料、短讯、讲话、报道等非学术研究类的文献。引文文献的收录范围包括文后参考文献、脚注和尾注中有引用信息的条目,而一般“转引”,以及附加引用条目后的“参见”条目,不在收入之列。
CHSSCD每年都会根据期刊的变化情况对来源期刊进行个别调整,包括调整来源期刊的种类、数量,剔除部分不符合要求的来源期刊,以保证来源刊的质量和适当的学科范围数量要求。调整原则包括如下几个方面:①期刊的学术质量出现下降;②期刊发展定位的变化影响了期刊的学术性;③学科的发展出现较大的变化,如新老学科的交替和新研究领域的确立,影响到该学科期刊数量的变化。
CHSSCD来源期刊的学科比例如图3-1所示,综合类比例最大,其次是经济学。
图3-1 CHSSCD来源期刊的学科比例
资料来源:中国社会科学院文献计量与科学评价研究中心,中国人文社会科学引文数据库(CHSSCD)简介。
CHSSCD目前已为科研人员提供查询服务,为多项科研课题和科研项目提供统计分析指标和数据,为北京大学图书馆编制的《中文核心期刊要目总览》以及中国社会科学院文献信息中心编制的《中国人文与社会科学核心期刊要览》提供了引证指标数据。
3.中文图书引文索引(CBkCI)
2012年9月,国内首个《中文图书引文索引·人文社会科学》(CBkCI· 52 H&SS,以下简称CBkCI)示范数据库在南京大学发布。该数据库是已结项的国家社科基金重大项目“建立与完善哲学社会科学评价体系研究”的重要成果。该数据库以检索中文人文社会科学图书和评价学术图书质量为目的,精选中文学术图书作为来源文献,统计和分析图书作者引用图书、期刊论文和报告等所有文献资料的情况。CBkCI可以进行引文排序和高被引图书、引文分析方面的检索,可以提供被引频次(可以细分为正面引用、负面引用与中性引用)、图书影响广度、地域分布等多种定量数据。
目前,该库是示范数据库,截至2012年1月7日,数据库没有在网络上发布。
(三)中国台湾地区的引文数据库建设
由于近年来台湾地区教育部门经常利用SCI、SSCI开展学术评价活动,因此引文数据库在台湾地区的影响越来越大,而SSCI和A&HCI仅收录很少的台湾地区人文社会科学期刊。为了全面反映台湾地区的人文社会科学发展状况,台湾地区管理部门与学术界也积极开始建设本地引文数据库,主要目的是用于进行学术评价。
台湾地区最早推进引文数据库建设的机构是“国科会”,该机构1998年曾启动“中华民国科技期刊引用文献资料库”(TSCI)的建设,该库收录127种科技核心期刊,但是后来没有继续发展。
1999年,“国科会”社会科学研究中心和人文学研究中心分别启动“台湾社会科学引文索引资料库”和“台湾人文学引文索引资料库”建设。2007年,台湾华艺公司开发了台湾学术引用文献资料库(Academic Citation Index, ACI),也收录了引文数据。下面简要介绍这三个人文社会科学引文数据库的情况。
1.台湾社会科学引文索引(TSSCI)
台湾社会科学引文索引数据库收录台湾地区出版的社会科学核心期刊。该数据库建设的目的是:建立台湾地区社会科学核心期刊引用文献资料库,提供评估社会科学研究发展的量化指标,即分析台湾地区出版的社会科学核心期刊被引用情况及其影响力,了解社会科学研究人员的论文被引用情况,以评估其研究绩效。
TSSCI自1999年开始筹划,2003年开放利用。截至2010年,TSSCI共收录85种期刊,包括1998年以来的来源文献1.2万条、被引文献30万条。2011年来源期刊增加到93种。学科范围涉及社会学、经济学、教育学、管理学、法律、心理学、政治学、人类学、区域研究及地理学。
TSSCI的期刊经过了严格的筛选,每年根据评估情况对来源期刊进行调整。期刊的遴选主要依靠专家评审,同时参考资料库中的一些指标,编辑部也参与其中的部分工作。选刊的具体方法和程序见第五章。
TSSCI数据库提供以下四方面的检索:
(1)引用文献索引,可从两方面进行检索:来源文献查询——包括作者、标题、关键词、期刊名称、出版年等检索点;被引用文献查询——包括作者、标题、期刊(图书)名称、出版年等检索点。
(2)收录期刊名单:包括特定期刊查询、依学科门类查询、依正式或观察名单查询。
(3)收录期刊目次检索。
(4)期刊引用报告。
该数据库目前可免费查询1998年以来的引文和期刊收录情况。
2.台湾人文学引文索引(THCI)与台湾人文学引文索引核心期刊(THCI Core)
台湾人文学引文索引数据库建立的目的有两个,一方面是为了解人文学领域学术研究的成果,预测人文学未来趋势;另一方面,可以分析期刊收录的学术研究文献彼此交互引用的情况,以此作为评估期刊、作者或研究机构影响力的一个参考指标。
截至2008年10月,THCI共有期刊283种,收录1996年以来的来源文献约3万条、被引文献80万条。此后又有一些期刊的调整。本书作者于2011年9月6日访问THCI网站,显示共收录343种期刊。
THCI来源期刊的选择标准相对比较宽松,以中国台湾地区人文学领域重要的中外文期刊为主,兼收大专院校学报中人文学领域的期刊。期刊分为综合文学、中国文学、外国文学、历史、哲学、图书资讯学、语言学、艺术、宗教及综合等类目。
2000年首次来源期刊选择过程如下:
以台湾地区的“中华民国期刊论文索引系统WWW版”数据库中所收录的人文学领域期刊为基础,请“国科会”人文学研究中心各学门召集人选出各学门重要或代表性期刊,共计366种;其次,请各学门召集人就其所在学门确认期刊建档的顺序,除掉期刊改名及1991年以前就停刊的,共计314种。这314种期刊就是THCI的来源期刊。一些综合性学报只收录其中人文学领域的论文。最后,经审核调整,将来源期刊数量确定为283种。
THCI目前可提供“基本资讯检索功能”进行篇名关键字检索、作者检索、期刊文献检索、被引文献检索。该数据库可免费浏览。
由于TSSCI和THCI收录原则不统一,导致两个数据库差异很大,THCI收录标准比较宽泛,来源期刊数量较多,而TSSCI要经过专家评审,收录条件严格,来源期刊的数量较少,仅占THCI的30%,由此造成两库期刊比例失衡,无法衔接和比较。为了改变这种状况,台湾地区的“国科会”人文及社会科学发展处建立了“台湾人文学引文索引核心期刊”(THCI Core)数据库,该库的选刊方法与TSSCI相近,2010~2011年收录46种期刊,分为文学一、文学二、哲学、语言学、历史、艺术、综合七大类。可以按期刊名称、篇名、关键字、摘要进行检索。
3.学术引用文献资料库(ACI)
台湾华艺公司从2007年开始建设学术引用文献资料库,以同样的标准同时收录中国两岸四地人文、社科方面的期刊。ACI计划收录中文学术界核心期刊的参考文献,通过引文数据的统计,了解华文世界期刊相互引用的情况。
ACI原名为台湾引用文献资料库(Taiwan Citation Index, TCI),是在台湾华艺公司建设的中文电子期刊资料库(Chinese Electronic Periodical Services, CEPS)基础上进行的,CEPS收录了约3000种期刊,其中台湾地区出版的人文学领域期刊126种、社会科学期刊276种,包括TSSCI及THCI Core中的期刊,以及在台湾地区出版的其他重要期刊。
ACI中期刊收录年代自1956~2009年不等,每月更新数据。收录的期刊分为19个学科类目,分别是:教育学、图资学、体育学、历史学、社会学、经济学、综合类、人类学、中文、外文、心理学、法律、哲学、政治学、区域研究及地理学、管理学、语言学、艺术学和传播学等,包括6.8万条来源文献及195万条被引文献。
ACI的收录标准如下:
· 中国两岸四地出版的人文社会科学学术期刊;
· 有同行评议审查机制;
· 体例完整,要包括题名、摘要、关键字、参考文献、ISSN、作者姓名、作者服务机构等内容;
· 近三年每年出满应出期数(新刊需出满三年);
· 中国台湾地区或国际重要数据库收录的期刊或具有公信力的优良期刊清单中所列的期刊,只要符合第一点就一律收录。
ACI有以下几方面的检索功能:“快速查询”、“进阶查询”用于查询来源文献,“引文查询”可查询文章被引用情况;“引文统计”功能包括两种统计:学门统计可查询学科内期刊与作者的被引用数据,期刊统计可查询某特定期刊的引文数据。
该数据库为收费数据库,需要得到授权后才能访问。
(四)欧洲的引文数据库建设
除了中国大陆和台湾地区开始兴建引文数据库以外,欧洲地区为了进行引文分析和文献检索,也开始建设或者准备建设自己的引文库。
欧洲文献计量学专家经过大量实证分析认为SSCI和A&HCI更倾向于收录以英文为主的期刊,在收录欧洲地区的文献方面还有很大欠缺,不能反映欧洲人文社会科学研究的全貌,需要建设一个可以全面反映欧洲人文社会科学各学科优秀研究成果的工具。因此,学者们提议建立欧洲的人文社会科学引文数据库。
2001年,在布达佩斯召开了欧洲科学基金会人文学科学生产力评估探索研讨会(ESF Exploratory Workshop on the Evaluation of Scientific Production in the Humanities),会上讨论了人文学科科学生产力的不同评价标准和指标,定量标准的优缺点,以及如何编辑人文学期刊表。会议认为,多国家、多语言以及文化传统的差异性导致欧洲的人文研究具有多样性。很多欧洲的人文学者是世界一流的,但是,由于人文学研究的特殊性,使得他们的研究成果难于与其他学科进行评估和比较。随着研究人员的跨国流动越来越多,跨学科研究越来越多,人文学者必须将自己放在一个变化中的国际环境里,这就需要一种可以进行定标比超分析的工具。会议得出结论,认为A&HCI不适合欧洲的人文学,急需建立一个欧洲人文学引文索引作为研究评估的附加工具。
2004年,由欧洲科学基金会和欧盟委员会欧洲研究区合作网(ERA -NET)项目“欧洲研究区的人文学”(Humanities in the European Research Area, HERA)联合资助,启动了欧洲人文学参考文献索引(European Reference Index for the Humanities, ERIH)的建设。ERIH项目的主要目的是:
· 使欧洲的人文学研究获得更高的显示度;
· 将欧洲的人文学研究传播到世界各地;
· 鼓励人文学期刊出版的“最佳实践”;
· 提供简单的定标比超工具进行整体层面的比较。
EIRH目前涉及14个学科,包括:人类学,考古学,艺术、建筑与设计史,古典研究,性别研究,历史,科学史与科学哲学,语言学,文学,音乐与音乐学,教学与教育研究,哲学,心理学,宗教研究与神学。
2007年,ERIH公布了期刊初选目录。目录中收录了907种期刊,其中41%为非英语刊。2011年又推出修订目录。来源文献的收录从出版标准、学科标准和地理标准三方面因素考虑,具体内容见第五章。
ERIH目前只提供了对期刊修订目录的检索。项目计划在未来收录专著、会议录等文献类型,并在此基础上构建欧洲人文社会科学信息系统的平台。
二 基于文摘库的引文数据库
随着数字资源的增多和技术的发展,一些文摘数据库也开始加入引文信息,具有引文数据库的部分或全部功能。这类数据库收录来源期刊的数量较多,来源数据较为规范,最初增加引文信息的主要目的是为了优化检索功能,后来也常被用来作为引文分析的工具。目前这类数据库的代表有Scopus、CNKI的中国引文数据库,以及维普的中文科技期刊数据库(引文版)等。
1.Scopus
Scopus是爱思唯尔公司2004年11月正式推出的二次文献数据库。该数据库近年发展很快,尤其在引文数量、学科覆盖面以及检索、统计功能上都有长足进步,其应用也越来越广泛,成为WoS强有力的竞争对手。
该库收录了5000个出版商的16500种同行评审期刊,1200多种开放存取期刊和纯电子期刊,500种会议录,以及几百种系列图书和其他资料,共计4100万条文摘。其中包括:从1996年至今的2100万条文摘及全部文后参考文献和1823~1996年的2000万条文摘。这些内容覆盖了自然科学、工程学、生命科学及医学、农业及环境科学、社会科学、心理学以及经济学等学科。总体说来,Scopus收录期刊多、非英语文献多、学科门类齐全,兼顾了文献数量、种类、地域以及学科特点,最新被引文献的数量高于WoS。
近几年,Scopus一直致力于收录更多的人文社会科学期刊。
2007年,Scopus与ProQuest CSA Illumina数据库合作,提供两个数据库的交叉整合检索功能,读者可以通过Scopus检索到后者的4500种优质社会科学期刊,反之,Scopus收录的自然科学及经济学文献也可以通过ProQuest CSA Illumina进行检索。
2009年6月,Scopus大幅度增加了对人文学科期刊的收录力度,相关期刊的数量增长了将近一倍,达到3500种,其中新增期刊主要来自ERIH来源期刊目录,Scopus提供这些期刊的引文数据。增加的期刊主要包括以下几个方面的主题内容:文学与文学理论(增加30%新刊)、艺术与人文总论(增加22%)、历史(增加17%)和视觉/表演艺术(增加16%)。
截至2009年10月,Scopus共收录人文社会科学期刊6829种。
在检索方面,Scopus平台实现了信息整合,建立了一站式信息门户,不仅包括论文,还与科技检索引擎Scirus整合,可在网络上获得1.67亿页的相关科学文献及灰色文献信息。
该数据库的功能也很强大。2006年1月,Scopus推出了引文跟踪功能(Citation Tracker),用户可以利用这一工具了解文章发表后的影响,作者或者某一团体的学术影响力,以及利用可视化的引文界面来判断研究趋势。2006年6月,Scopus又推出了作者身份识别系统(Author Identifier),发展了作者唯一标识功能,能够自动区别重名作者和姓名相似的作者。此外,还提供了机构标识系统(Affiliation Identifier),有助于提高查全率。Scopus在检索结果中也提供了h指数。
目前,Scopus在文献计量分析中有了较多的研究和应用。一些机构利用这个工具开展学术评价、趋势分析等工作。2008年10月,世界经合组织(OECD)宣布决定将Scopus数据库作为研究和分析工具。
2.中国引文数据库(CNKI-CCD)
中国引文数据库(Chinese Citation Database, CNKI-CCD)收录了中国学术期刊(光盘版)电子杂志社出版的源数据库产品的参考文献。据公司网站上的资料介绍,该库的文献来源包括:中国期刊全文数据库、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、中国重要会议论文全文数据库、中国重要报纸全文数据库、中国图书全文数据库、中国年鉴全文数据库等。这些源数据库以1994年及以后发表的文献为主,对其中4000多种期刊回溯至创刊,最早回溯至1912年。该库及其源数据库的应用平台均为中国知网(CNKI)。该库目前实现了期刊、图书、论文、报纸类文献的引用文献和被引用文献的链接,揭示了各种类型文献之间的相互引证关系。截至2007年12月,累计链接被引文献达685万篇。
该库收录文献类型范围广,具有引文网络显示功能,文献被引数量较其他中文引文数据库多。在检索结果的显示方面,显示被引信息的同时,还列出“共引文献”(与被引文献有相同参考文献的文献)、“同被引文献”(与被引文献同时被作为参考文献引用的文献)、“二级引证文献”等多个链接,立体地展示了文献之间的引证网络关系。
CNKI-CCD在国内有一定影响,一些研究者以该库作为数据源进行文献计量学分析。2011年9月14日,我们利用CNKI数据库以“中国引文数据库”为检索词进行检索,共得到289条检索结果,基本都是利用该库进行文献计量学分析的论文。
3.中文科技期刊数据库(引文版)和维普期刊资源整合服务系统
中文科技期刊数据库(引文版)(China Citation Database, Vip-CCD)由维普资讯公司在中文科技期刊数据库全文版的基础上开发而成,可检索1989年以来国内12000多种重要期刊(含核心期刊)上所发表论文的参考文献,其中包括《中文核心期刊要目总览》中的核心期刊1500余种。学科范围涉及社会科学、经济、教育、图书情报和自然科学、工程技术、农业、医药卫生等。目前共包括来源文献482万篇,参考文献1830万篇。
Vip-CCD有“源文献到被引文献”和“被引文献到源文献”两大检索途径,前者包括关键词、刊名、作者、第一作者、作者机构、题名、文摘、分类号等检索入口,后者包括篇名、刊名、作者等检索字段。该库还可查询论著引用与被引情况、机构发文量、国家重点实验室和部门开放实验室发文量、科技期刊被引情况等。
该库也被整合到维普期刊资源整合服务系统中,维普期刊资源整合服务系统包含5个功能模块,分别为:期刊文献检索、文献引证追踪、科学指标分析、高被引析出文献和搜索引擎服务。其中文献引证追踪、科学指标分析及高被引析出文献3个模块分别提供引文检索、科学指标和高被引文献的相关内容。
文献引证追踪模块采用引文分析方法,对文献之间的引证关系进行深度数据挖掘,除具备基本的引文检索功能外,还提供基于作者、机构、期刊的引用统计分析功能,该功能模块包含维普所有的中文科技期刊数据,引文数据回溯加工至2000年。此外,还采用数据链接机制实现到维普资讯系列产品的功能对接。
科学指标分析模块通过引文数据分析揭示各地区、高等院校、科研院所、医疗机构、各学科专家学者的论文产出和影响力,并以学科领域为引导,展示中国最近10年各学科领域最受关注的研究成果,揭示不同学科领域中研究机构的分布状态及重要文献产出情况。
高被引文献模块提供了各学科、主题和各种文献类型中高被引文献的情况。
三 文摘/全文数据库
大部分文摘/全文数据库虽然不提供规范的引文信息,但是可以作为来源文献分析的数据源。文摘/全文数据库收录范围广,数据量大,除了期刊论文信息以外,有些数据库还包括了图书、会议论文等其他类型文献的相关信息,因此可用于分析文献产出情况及作者、机构分布。此外,优质的文摘数据库大多拥有专业人员标引的主题词或关键词,可以进行深入的内容分析。
文摘/全文数据库对期刊论文的收录方式可分为全部收录和部分收录两种,采用第二种收录方式的数据库常被称为摘转数据库。前者的优点是收录全面,而后者虽然收录的文献数量有限,但是经过专业人员的挑选,挑选的过程也可以看作一个评价过程,通常认为被摘录的文献具有更高的学术价值,所以摘转数据库本身具有一定的评价功能。
各类文摘/全文数据库很多,下面以一些影响较大的数据库为例进行简要介绍。
1.剑桥科学文摘系列数据库
美国剑桥科学文摘出版公司(Cambridge Scientific Abstracts, CSA)主要编辑出版学术研究文献的文摘及索引。CSA及其合作伙伴共有100多个数据库,其中人文社会科学相关数据库有33个。2007年CSA与ProQuest Information and Learning合并,改名为ProQuest CSA Illumina。
CSA的艺术与人文学数据库有:
· ARTbibliographies Modern
· Avery Index to Architectural Periodicals
· BHI: British Humanities Index
· DAAI: Design and Applied Arts Index
· FRANCIS
· Index Islamicus
· International Bibliography of Art
· CSA Linguistics and Language Behavior Abstracts
· MLA International Bibliography
· The Philosopher's Index
· RILM Abstracts of Music Literature
与社会科学相关的数据库有:
· ASSIA: Applied Social Sciences Index and Abstracts
· ComDisDome
· EconLit
· ERIC
· FRANCIS
· IBSS: International Bibliography of the Social Sciences
· Index Islamicus
· CSA Linguistics and Language Behavior Abstracts
· LISA: Library and Information Science Abstracts
· National Criminal Justice Reference Service Abstracts
· PAIS International
· PAIS Archive
· Physical Education Index
· PILOTS Database
· PsycARTICLES
· PsycBOOKS
· PsycCRITIQUES
· PsycINFO
· Scopus Business and Economics
· CSA Social Services Abstracts
· CSA Sociological Abstracts
· CSA Worldwide Political Science Abstracts
CSA数据库收录时间跨度较长,文献类型丰富,内容专业性强,多数数据库都进行了规范的主题标引。例如,EconLit数据库由美国经济学会建立,收录了1969年以来的超过550种国际性经济学领域的期刊论文、图书、研究报告、会议论文和博硕士论文的题录及文摘信息,利用专门的叙词表进行标引。
按照期刊论文的收录情况,CSA的期刊可分为三类:核心期刊、优先期刊和选择性期刊。其中,核心期刊的论文几乎全部收录,优先类期刊约有一半以上内容被收录,而选择性期刊仅有不到一半的内容被收录。
CSA中的部分数据库进行了引文标引,其中,有些是全面标引,有些则只有部分数据有引文。例如,社会服务文摘(CSA Social Services Abstract)数据库中2004年以来的全部期刊都标引了引文,而社会学文摘(CSA Sociological Abstract)仅标引核心期刊的引文。
综上所述,由于CSA数据库的数据质量高、收录类型全面、时间跨度长,因而可以作为计量分析的来源数据之一,其规范的标引系统为进行内容分析提供了良好的数据基础,带有引文的数据库也可进行一些引文分析。
2.复印报刊资料数据库
中国人民大学书报资料中心的复印报刊资料数据库、复印报刊资料专题目录索引数据库和报刊资料索引数据库是国内较早建立的期刊全文和文摘数据库。这些数据库以人文社会科学内容为主,其中前两个数据库中的论文是经过专家筛选的。
复印报刊资料数据库是全文数据库,收录的论文来自1995年以来国内公开和内部发行的3500多种报刊,经过相关专家遴选而确定的。该数据库中论文的入选原则是:内容具有较高的学术价值、应用价值,含有新观点、新材料、新方法或具有一定的代表性,能反映学术研究或实际工作部门的现状、成就及其新发展。
复印报刊资料专题目录索引数据库是题录型数据库,它将《复印报刊资料》系列期刊每年所刊登文章的目录按专题和学科体系分类编排而成。该数据库汇集了自1978年至今的《复印报刊资料》各刊的全部目录,累计数据量超过90万条。每条数据包含多项信息,包括:专题代号、类目、篇名、著者、原载报刊名称及刊期,选印在《复印报刊资料》上的刊期和页次等。
报刊资料索引数据库是题录型数据库。它将1978年以来《复印报刊资料》系列刊物每年选登的目录和未选印的文献题录按专题和学科体系分类编排而成,目前数据量为430余万条。每条数据包含多项信息,包括:专题代号、类目、篇名、著者、原载报刊名称及刊期、复印专题名称及刊期等。该数据库的论文没有经过筛选。
复印报刊资料数据库、复印报刊资料专题目录索引数据库经常被用来做期刊论文摘转率统计。
3.全国报刊索引数据库·社科版
由上海图书馆《全国报刊索引》编辑部研制和编辑的全国报刊索引数据库·社科版,原名为中文社科报刊篇名数据库,2000年起更为此名。该库源于印刷版的《全国报刊索引·社科版》,但在数据量与收录报刊品种上都多于印刷版,它具有信息量大、学科门类齐全、时间跨度长等特点。
该库收录了1833年以来的数据,数据来源选自全国(包括港、台地区)的几千种期刊、报纸,年报道数据25万条,条目收录采取核心报刊多收、非核心报刊选收的原则。数据库内容涉及人文社会科学各学科,包含国家及各省、市、自治区党政军、人大、政协等重大活动、领导讲话、法规法令、方针政策、社会热点问题、各行各业的工作研究、学术研究、文学创作、评论综述以及国际、国内的重大科研成果。
数据记录的内容包括文献的顺序号、分类号、题名、著者、著者单位、所在报刊名、卷期年月、页码和关键词等。
进行专业的分类标引是该数据库的特色。印刷版《全国报刊索引》在1955年创刊时就利用《中国人民大学图书分类法》对论文进行分类,在多次调整分类体系之后,从1992年开始,使用《中国图书馆分类法》(第四版)进行分类。
四 搜索引擎
随着网络技术的发展,一些搜索引擎也提供了文献的引用信息。由于搜索引擎界面简单,可以免费使用,检索出的被引次数比较高,所以有时也被作为引文分析的数据基础。但是搜索引擎缺少对引文的细致加工,没有公开数据收录的范围、时间跨度和更新频率,因此还不能作为一种严格意义上的数据源。还有一些搜索引擎,如Altavista等,提供了检索网页被链接数量的功能,经常被用作网络计量分析的数据采集工具。
1.Google Scholar(谷歌学术搜索)
Google(谷歌)是全球著名的网络搜索引擎。Google公司于2004年11月推出用于搜索论文、书籍、摘要及工作论文等学术文献的搜索引擎产品,即Google Scholar Beta版,把网络检索延伸到科学研究领域。Google Scholar的数据来源非常广泛,主要包括以下几方面:网络免费学术资源、开放获取期刊网站、付费电子资源提供商和图书馆链接。其中,有许多电子资源(如Jstor、SpringerLink、Cambridge Journals Online,以及维普、万方数据等等)的提供商与Google合作,将其数据库中的索引或文摘数据提供给Google Scholar。因此,该搜索引擎可以检索到来自学术著作出版商、专业性社团、各大学及其他学术组织的经同行评论的论文、图书、预印本和技术报告。
Google Scholar的一个重要功能是可以检索文献的被引用次数。检索结果中每条信息按照题目、著者、文章被引用数、摘要、出版物、出版年月和相关网页排列。被引用情况除电子资源提供商和出版商所提供的引用文献外,还包括在书籍中和各类非联机出版物中的引用文献。
Google Scholar具有很多优点,如文献类型多样化,包括各类正式出版的文献和大量灰色文献;提供开放获取资源;提供引文信息;多语种(目前包括英、法、德、西班牙、意大利、葡萄牙、汉语等语种);多学科、多领域;国际化的学术资源;时差短,数据更新快;免费等。
但是,在用于文献计量学分析时,Google Scholar也有非常大的缺点,如:引用机制尚不清楚,数据收录范围及时间不确定且容易变化;缺少对引文的细致加工,数据质量没有保证;很多学术期刊尚未标引;引文风格不一致;没有主题标引或分类检索的方法,只能用刊名、论文题名、文摘或全文中的关键词进行检索;没有专门的引文检索功能,数据处理难度大;也存在语言偏见,欧美语言内容收录多,其他语言内容相对少。
一些学者利用Google Scholar进行了引文分析,他们发现,Google Scholar提供的引文检索结果数量虽然增长很快,但由于数据的不透明和不规范,目前只能用来进行一些试验性研究,而不宜用于正式的科学评价中。随着Google Scholar与大型数据库商的进一步合作,随着网络资源的进一步丰富,随着开放获取资源的不断增加,Google Scholar的优势会越来越突出,很有可能成为未来文献计量学研究的重要工具。
2.Altavista
Altavista是因特网上著名的搜索引擎之一,由美国DEC公司经营,1995年12月在网上推出,其网络搜索技术自建站以来长期居于领先水平,曾被Yahoo等门户网站作为搜索技术的提供者。
Altavista能够提供多种类型的限制检索,如主机名限制、超链接限制、域名限制、文件类型限制、新闻组限制、主题限制等。此外,Altavista还提供布尔逻辑检索、截词检索、字段限制检索、日期限制检索、范围限制检索、动态分类检索、指定语种检索、位置检索等多种检索功能。
Altavista在文献计量学中的应用主要通过其链接查询功能(link)实现。通过该功能,用户可以检索网站或网页被其他网站链接的数量和分布情况。Altavista还可以统计和区分网站的内部链接和外部链接,而这一功能对于测度网站的网络影响因子至关重要。网络计量学中很多研究都利用网络搜索引擎来搜集相关数据,其中Altavista是最常用的工具。
Altavista也存在一些问题:
(1)数据覆盖面不够广。当然,这是搜索引擎存在的普遍问题,目前没有一个搜索引擎可以覆盖全部或者大部分因特网信息。
(2)链接数量不稳定。每次检索得到的链接数量都不同,这降低了结果的可信度。
(3)来源范围不确定。这是搜索引擎作为文献计量数据源的普遍弱点。
除了Altavista,搜索引擎AllTheWeb也经常被用作网络计量学分析中搜集数据的工具。
五 自动引文标引系统
随着开放获取运动的深入,越来越多的学术文献可以通过网络免费使用。自动引文标引系统就是在这个背景下产生的。这种系统一般由计算机采集来源文献,并对引文进行自动标引之后,在网上提供免费使用,如CiteSeer、RePEc、Citebase等。从目前来看,这些系统标引引文数据的目的不是直接为读者提供引文服务,而是通过文献间的引用关系增加整个系统的可用性。因此,还不宜直接利用其中的数据来进行评价性计量分析。
1.CiteSeer
CiteSeer又名ResearchIndex,是1997年由NEC研究院在自动引文标引机制的基础上建设的一个计算机领域学术论文数字图书馆,2003年开始由美国宾夕法尼亚州立大学提供服务。后来,研发人员对系统进行了改进,重新设计了系统结构和数据模型,形成了第二代CiteSeer,也就是CiteSeerX,于2007年投入运行。与CiteSeer一样,CiteSeerX也在网上提供完全免费的服务。
CiteSeerX涉及的内容包括互联网分析与检索、数字图书馆与引文索引,以及机器学习等计算机领域的主题。人们既可以像使用搜索引擎那样检索浏览相关学术文献,也可利用其特有的引文检索功能查看文献的引用与被引用信息。
截至2009年4月8日,CiteSeerX收录了137万篇论文和2659万条引文。
CiteSeerX利用自动引文标引系统自动标引电子格式的文献,生成引文索引。具体过程是:计算机在网上搜索到新的文献,抽取其引文,并识别同一篇文章不同格式的引文,同时将引文在文献中的上下文也标引出来。
系统提供了以下功能:
(1)检索相关文献,浏览并下载论文全文。
(2)查看某一具体文献的“引用”与“被引”情况。系统给出了引文上下文标引环境(Citations Context),读者不用读原文就能获取文章中出现的引用信息。
(3)查看某一篇论文的相关文献,包括即时更新的相关文献目录,在语句层面的相似文献,以及基于正文的相似文献。
(4)用图表显示某一主题文献(或某一作者、机构所发表的文献)的时间分布。
CiteSeerX主页面给出了一些引文统计项目,包括被引次数最高的文献、引文、作者,以及会议和期刊的影响因子等,这些统计都是系统自动完成的。
同传统的引文索引相比,CiteSeerX可以更新、更快地揭示多种类型文献的网络信息影响,并利用引文将文献链接起来。但是CiteSeerX收录文献学科范围窄,数据完全是系统自动完成的,因此质量不高,适于进行文献检索,而学术评价的功能尚不成熟。有学者利用CiteSeer进行网络文献的分析,如陈超美(Chaomei Chen)等利用CiteSeer进行了引文链接分析后认为,同WoS相比,利用CiteSeer的最大好处就是系统的开放性,可以利用向前扩展符设置沿着引文链接一直向前或向后回溯,而WoS则不允许用户利用程序按照自己的需要访问数据。
Citeseer的网址:http://citeseer.ist.psu.edu/
CiteseerX的网址:http://citeseerx.ist.psu.edu/
2.RePEc和CitEc
RePEc是由分布在全球66个国家的数百个志愿者建立的经济学资源数据库,旨在促进经济学以及相关学科的学术交流,提高经济学研究水平。RePEc收录的资源类型丰富,包括工作论文、期刊论文、软件、图书章节、作者联系方式和出版物目录、机构的联系列表等。RePEc还与美国经济学会的EconLit数据库合作,向EconLit提供顶级大学的工作论文内容。RePEc是一个分布式的预印本系统,所有的文章都存储在不同地点的分布式数据库中,其全部资源都是免费的。
RePEc的数据量增长很快,本书作者2009年4月8日登录网站,发现RePEc共有记录72.7万条,其中61.5万条可以从网上获取全文;到2011年9月14日再度访问时,RePEc已增加到共有记录108.5万条,其中95.5万条可以从网上获取全文。
RePEc由很多服务项目组成,CitEc(Citations in Economics,即经济学引文)是RePEc的一部分,提供RePEc文献的引文分析,可以获得哪些文献被引用、被引多少次以及被谁引用的数据。相关的引文数据不直接提供给用户访问,而是用于RePEc服务,以便提高这个研究社区的附加值。目前RePEc中Socionet、EconPapers和IDEAS等服务已经使用了引文数据。截至2011年9月4日,CitEc共收录30.7万篇文档,266.6万条引文。
CitEc的数据主要来源于RePEc中可以开放获取的电子文档,也有部分来自于出版商提供的参考文献元数据。此外,作者也可以自行提交引文信息。但有一些出版商(如爱思唯尔)明确禁止展示他们出版的期刊中的参考文献。CitEc收录的引文总量比Google Scholar少,数据范围仅限于经济学领域,但是学科相关性更强,数据错误也相应较少。
系统中有明确的信息提示大家,该系统目前是开发的初始阶段,数据主要用于信息检索的目的,只有一部分电子文档进行了系统分析和处理,而且由于数据是系统自动处理的,因此会存在一些错误,因此要谨慎用于科学评价活动。
CitEc也提供了一些文献计量学分析的结果。
3.Citebase
Citebase始于1999年的“开放引文计划”(Open Citation Project),由英国南开普顿大学以及美国康奈尔大学合作开发。该库自动从美国洛斯阿拉莫斯(Los Alamos)国家实验室的预印本文献库e-print中抽取引用和被引用数据,通过引文把文献链接起来,在此基础上建立了引文索引,作为以网络引文分析和引文检索为目的的服务工具,系统依据文献的影响力排列检索结果。
系统提供以下检索点:引用文献的作者、题名、文摘关键词、出版物名称、创建日期以及OAI识别号,并可按照创建日期、最新更新日期、论文被引量、作者被引量、作者点击率,文章点击率等多种准则排列检索结果。该库可以下载全文,在检索结果中列出了该文的参考文献、被引文献、共引文献、相似文献,并给出了文章点击率图表。点击率涉及1999年8月至今的数据,仅限于英国Arxiv镜像站的资料。
Citebase目前还是一个试验系统,在其主页上有一个说明:“Citebase目前仅仅是一个试验演示系统。用户要小心不要用于学术评价,因为引文的覆盖面和引文分析是不完整的。”