社会科学文献计量学及其重点研究室的创建与发展
姜晓辉
一 学科发展背景
文献计量学(bibliometrics)这一名称最早是在1969年由英国著名文献学家阿伦·普理查德提出的,这一术语的提出标志着文献计量学的正式诞生。文献计量学是文献学、情报学与数学、统计学相互交叉与结合而产生的边缘学科,以文献体系和文献计量特征为研究对象,采用数学、统计学等计量方法,研究文献情报的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。经过几十年的发展,文献计量学已被公认为国际图书情报领域内最活跃的一个分支学科,成为情报科学研究的主流,体现了当代科学定量化的趋势,成为一门定量性、实用性很强的学科。当前,文献计量学在理论和方法方面与科学计量学、信息计量学相互融合,相互促进,学科结构体系不断深化和完善,并渗透到图书馆学、情报学、信息管理、科学学、科技管理、预测学、人才学等许多领域。
自20世纪六七十年代美国费城科学情报所(ISI)相继研制成功《科学引文索引》(SCI)和《社会科学引文索引》(SSCI)后,世界各国的科研工作者很快看到了它在信息检索、科研评价和学科研究方面的优越性,争相推广使用。
引文数据库是一种以引证关系为检索途径的新颖实用的文献检索工具。这种引证关系来源于人们的著述活动。作者在撰写或编辑论著时,常以尾注、脚注、文中注和参考文献的形式标明所引用的概念、理论、方法、文献资料等的来源出处,为自己的论述提供佐证和依据,形成被引文献记录即引文(Citation)。我们追寻这种引证联系,可以找到一系列内容相关的文献,从中可以找出某些学术观点的演化发展脉络,某一领域的研究动态、走向和规律,某一学科的核心作者群,学术研究中的起承转合关系,以及某一名词、概念、方法出现的时间、频次和衰减情况。引文数据库可以提供以引证关系为特征的特殊的文献检索方法,客观准确地揭示文献之间跨时空、跨学科、多领域的网状联系。在科研评价中,引文数据库可以从文献的“数量”(科研产出率)和“质量”(成果影响力)方面提供有关学科分布、作者、机构、期刊和地区的多项统计数据和指标。引文数据库(引文索引)已成为文献计量学研究不可或缺的工具。中国的文献计量学研究与应用,也随着中国引文数据的建设而出现突飞猛进的发展。我院的文献计量学学科建设也是围绕引文数据库建设而发展起来的。
二 我院文献计量研究的缘起与发展
我国学界的文献计量学研究在20世纪90年代还处于起步阶段,只有科技界建的两个科技引文数据库(分别由中国科学技术信息研究所和中国科学院文献情报中心建立),社会科学引文数据库还是空白。
为了推动我国人文社科领域中科学计量研究工作的开展,中国社会科学院文献信息中心国内信息研究部早在1996年便开始了社科期刊论文的量化分析和相关理论方法的研究工作。当时本部门办有两种论文题录刊物,即《中国社会科学文献题录》和《国外社会科学论文索引》。参与编辑工作的同志对期刊论文的选编比较熟悉,在长期工作中,为人文社会科学情报工作提供了很好的题录信息。而在20世纪90年代后期,我院为压缩刊物,取消了上述两份刊物,转而采用数据库的形式提供题录数据。随着莫作钦主任退休,新主任姜晓辉接任,国内信息研究部不久也改称为“数据库部”。数据库部根据工作的实践和社会的需要,开始进行题录数据库的建设,并从文献统计角度开始期刊筛选和评价工作。其间,在本部门同志的共同努力下,莫作钦研究馆员主持完成了国家社会科学基金资助的国家“九五”重点项目《中国人文社会科学论文统计与分析研究》。在完成该项目过程中,课题组广泛收集了1996年的期刊论文,对人文社会科学的学术论文产出率、论文的学科分布、地区分布、科研群体构成及各学科高产学者的情况进行量化统计,从中分析人文社会科学研究活动的基本状况和学科发展态势。该课题首先建立了人文社科论文的统计分析数据库,包括对期刊源的调研和收集、论文的分类和主题标引、统计软件的设计和应用。其后是开展对各项计量指标的综合分析和分科研究,写出研究报告,内容除了对国内期刊论文的分析研究外,还对包括1996年度美国科学情报所编辑出版的SSCI(社会科学引文索引)、A&HCI(艺术与人文科学引文索引)和ISSHP(社会科学与人文科学会议录索引)收录的我国人文社科论文进行了统计分析。由于国内社科期刊数量大、地区分布广,特别是社科期刊大部分论文规范化和标准化差,缺少许多统计要素,诸如论文的著者单位、职称、年龄、基金资助项目,等等。课题组投入了大量的时间和精力,同全国有关期刊编辑部联系,增补论文统计要素并对每篇入选期刊论文进行规范加工和整理。最后,该项成果从学科角度对期刊论文的产出量进行了多方面的分析研究,取得了初创性的重要成果,产生了较好的影响。而随后大家也体会到,要在文献计量学领域继续深入研究,没有引文分析工具显然是不行的。之后的引文库建设,正是在这样的基础上全面展开的。
而要建设引文数据库绝非易事。首先是没有经验,只好先向科技引文数据学习。为此,时任国内信息研究部主任的姜晓辉同志和莫作钦、周霞、杨丹同志去中国科技情报信息研究所登门学习。当时负责接待的张玉华研究员热情地介绍了她们开发的引文数据库,以及建库的难度与艰辛。但参观的人员没有学到具体的引文数据加工技术(对方的加工技术保密),回来后也没有找到资金支持。之后,中国学术期刊(光盘版)杂志社(即现在的知网CNKI公司)的万锦堃教授带人到中国社会科学院找到姜晓辉主任,提出由三家机构联合开发科技和社科引文数据库,即由CNKI公司提供电子数据和加工经费(万锦堃、武秋和主管)、中国科学院文献情报中心负责科技部分(金碧辉主管)、中国社会科学院文献信息中心负责社科部分(姜晓辉主管)。三家机构成立科学计量评价中心,准备引文数据库建成后向学界公布成果,同时以该中心的名义开展了一系列相关的学术活动(见下图)。
1999年5月,中国社会科学院文献信息中心通过合作方式正式开始了人文社科引文库的建设。在三家引文数据联合加工系统正常运转之后,由于原设计规模过大,出现进程缓慢的现象。当时,南京大学从香港大学获得资金,也开始了社会科学引文数据库(即CSSCI)建设,主创人员是邹志仁、苏新宁、袁培国教授等人。由于CSSCI当时只加工300余种社科来源刊,比我们900余种社科来源加工速度快,所以他们抢先发布了引文库的统计结果,并逐步得到教育部的大力支持。作为三家联合加工的成果,我们完成了1999年至2001年900余种来源期刊的人文社会科学引文数据库建设,于2002年首次正式出版了我国规模较大的“中国人文社会科学引文数据库(CHSSCD,2000年版)”。
之后,由于中国科学院文献情报中心得到创新基地的支持,CNKI公司在逐步壮大后建立了自己的网络专用引文数据库系统,三家开始各自建设自己的引文数据库。
我院的引文数据库建设起步极为艰难。当时主要存在两方面困难,一是期刊论文的规范化程度较差,很多论文没有表示引用关系的参考文献的著录,与科技文献相比,社科论文著录的标准化程度和可靠性都不能适应大型引文数据库的加工要求。当时的主管领导也不无担心社科引文数据库建成后的可靠性;二是建库费用大,没有充足的人力物力支持,难以维系一个大规模高质量的引文库。在引文库建立条件不充分的情况下,数据库的全体同志团结一心,克服巨大的困难,开始自力更生建设引文数据库。在初创阶段,我们得到我院科研局的大力支持,当时的黄浩涛局长同意以课题的形式接济了三年的引文数据库加工费,使我院的引文数据库得以迈过初创时的难关。同时,我们努力争取到国家新闻出版署期刊司对期刊著录标准化的大力支持,并请期刊司为本项目的征刊信加了按语。直接参与引文库研制的人员中,包括了原《中国社会科学文献题录》和《国外社会科学论文索引》的编审人员,他们在文献计量学研究和图书情报工作方面有着丰富的经验,是引文库建设的有力保障。而最为重要的是,在没有外援的情况下,数据库部的同志艰苦奋斗,开发出了一套高效的引文数据加工规范系统。见以下两图:
工作流程示意图
模块化管理示意图
经过多年的实践,数据库部培养出一批学有专长的引文数据加工人才。
数据库部成员与主管领导的合影。前排左起依次为文献信息中心主任助理王小宽、副主任李树东、主任黄长著研究员、国内信息研究部原主任莫作钦研究馆员
数据库部成员2000年在海南学术活动中的合影
数据库部成员举办学术讨论会后的合影
在文献计量学研究和应用方面,我院的学科建设已经成为国内一流的研究单位。
主流研究机构专家的研讨会,参加人员(左起)为:中国民航大学党亚茹教授、武汉大学邱均平教授、南京大学叶继元教授、CNKI(知网)万锦堃教授、中国科学院刘小敏研究馆员、北京大学徐克敏教授、中国社会科学院姜晓辉研究员
三 重点研究室和重点学科建设
在我院领导的大力支持下,我部门被列为最早资助的6个重点研究室之一。我院开展的“重点学科建设工程”项目对我们的文献计量学学科进行了第一个五年责任期(2003-2008年)的全面建设。在这个责任期中,我们的研究计划和建设内容主要从三个层面展开:文献计量学的理论和方法研究、应用研究、基础建设和绩效评价服务。应用研究和基础建设是责任期内发展的重点。引文分析和期刊研究是文献计量学的基本研究领域。在责任期内,我们出版了两版《中国人文社会科学核心期刊要刊》(2004年版和2008年版)。其中该书的2004年版获所和院级成果奖。本学科的核心期刊研究在期刊界、科研管理界有较大影响,被誉为学术期刊的三大权威评价体系之一(其他两家为北京大学和南京大学的期刊评价体系)。教育部把本项目的期刊评价体系列为期刊评价指标的重要来源之一。
我们还重点开展了社会科学文献信息资源保障体系研究、成果认证服务研究和学术期刊评价研究。在理论方法研究方面,追踪国际上文献计量方面的前沿研究,开展了与绩效评价有关的H指数研究,检索引擎Google用于统计排名的PageRank指标研究,国外人文社会科学论文的可视化聚类分析研究。这三个层面的研究与服务的布局已初具规模,正处于提速发展阶段。
我们的科研队伍建设是学科建设的基础,其遵循的主导方针是建设本学科一流的理论研究和应用研究团队,能够全面地承担重大的科研任务。在责任期内,我们以原文献中心数据库部的人员为基础,整合了文献中心文献计量学方面的研究人员,科研力量大大加强。责任期内,根据学科发展的要求引进了从事文献计量学研究的博士和硕士各一名,数理统计学专业的硕士一名。学科队伍形成有理论研究、数据处理和统计分析、软件系统开发、评价咨询服务人员构成的合理结构。在责任期内,通过派出学习、参加培训和开展学术交流等方式,大幅度提高了研究人员的业务水平。
引文数据库的建设为文献计量学研究与科研评价工作提供了重要的数据和指标,其质量好坏直接影响学科建设的质量与发展前景,因而责任期内的引文数据库建设是重中之重。经过五年的建设,我们较好地完成了引文数据库的构架建设和加工系统的建设,数据库已经成型并具有一定的规模,已开始为科研工作提供定向服务。除了引文数据库外,责任期内还建立了“中国人文社会科学转摘率统计数据库”。该库是国内同类已知数据库中最大的指标统计数据库,收入40多种文摘刊物上转摘数据,其统计指标能从一个侧面比较好地反映学术论文被社会利用和认可的程度。上述两个为科学研究和评价服务建立的数据库,是建立本学科多项核心指标的核心资源,在学界已经有了一定的影响。由郑海燕研究员完成的专著“SSCI、A&HCI和ISSHP收录中国论文统计分析”及其数据库,是重点学科建设工程的最终成果之一。该课题对三大国际检索工具在1995-2004年期间收录我国论文情况进行综合统计分析,包括论文的学科分布、地区分布、机构分布、期刊和文种分布,以及论文的合著情况、被引用情况、引用和引证文献情况。这些统计分析从一个方面揭示了我国人文社会科学走向世界过程中出现的一些值得关注的特点和动向,包括我国人文社会科学的国际地位和影响,存在的优势与不足,等等。
为了建设一流的学科发展基地,第一个责任期内经院领导批准成立了“中国社会科学院文献计量与科学评价研究中心”(见下图)。
建立这个平台的目的,在于采用定量与定性相结合的方法,开展科研绩效评价研究,构建学术交流平台,促进国内外学者在科研评价领域的沟通与了解,促进哲学社会科学事业的繁荣与发展。在这个平台上开展学术活动,有利于吸引优秀的研究人才,展开横向合作研究。与之相配套,我们还建立了该评价研究中心的网站,开展网上的学术交流活动。在硬件设施方面,本研究室配备和更新了有加工人员使用的23台PC机和打印机等设备,组成了一体化的数据加工与统计网络。
人文社会科学的成果评价研究也是本学科的研究重点,作为基础建设,我们先期开展了学术成果的认证服务,郝若扬同志负责具体的实施工作,虽然它的评价模式和方法还有待完善,但一直受到科研工作者的热烈欢迎。在我院学部委员评选时,该项目服务也受到申报人员的好评;北京市职称评定委员会把该项目定为高级职称评定重要参考依据(样本见下图)。
在日常的学术活动中,本部门分别参与或主办过多种类型的高层学术研讨会和学术论坛。接待学术访问120次,涉及国内文献计量学、期刊研究和文献资源建设的多个领域。
第一个责任期中取得的出版成果为著作4部,共计319万字。学术论文23篇16万字,见下表。
续表
2009年我部门正式更名为文献计量学研究室,在圆满完成第一个责任期后,正在完成我院文献计量学学科建设的第二个责任期(2009-2014年)的任务。
四 学术期刊的评价研究
核心期刊研究是我们评价研究工作的一大亮点,在期刊界有较大的影响。获奖成果见下图:
《中国人文社会科学核心期刊要览》书影
文献计量学与期刊研究具有内在的必然联系。因为学术期刊的学术窗口作用、出刊的时间与数量的规律性,都是定量统计分析的理想研究范畴。核心期刊的存在是期刊发展中的一种客观必然的现象。认识这种现象并掌握它的规律可以充分利用期刊和促进期刊的发展。在我们的实践中,发现核心期刊的合理利用,有利于使用者较快地掌握某学科的主要期刊,方便作者选择优秀期刊投稿,便于读者浏览其他学科的重要期刊。
在核心期刊的研制过程中,我们遵照“科学研制、科学使用”的原则,在核心期刊遴选的定位和统计方法上有所创新,即主要是从学术期刊应用角度,以期刊学科影响因子为主导进行综合统计,同时解决了综合性学术期刊的学科评选问题。
我们的“中国人文社会科学核心期刊”定义表述为:某学科(或某领域)的核心期刊,是指那些发表该学科(或该领域)论文较多、使用率(含被引率、转摘率和流通率)较高、学术影响较大的期刊。上述定义中的“发表学科论文较多”和“使用率较高”的概念,是统计和筛选“中国人文社会科学核心期刊”的最基本着眼点,即通过统计期刊论文的各项量化指标来测定期刊的“学科论文产出率”和“学术影响力”。期刊论文是基本的统计单元。“学科论文产出率”较高的期刊,一般是通过专业期刊体现出来。而反映学术期刊质量的重要指标——“学术影响力”统计,特别是期刊在学科中的影响力统计,才是评选工作的重点和贯穿始终的主线。这条主线体现在:它使用以引用指标为主的综合统计方法来反映期刊的“学术影响力”,其主要特点是从期刊被利用的情况来评价和选择期刊。我们的方法创新体现在:在2004年版的“中国人文社会科学核心期刊”中,首先使用了期刊的学科因子指标,这一指标反映了给定的时间窗口中,某学术期刊的全部论文被某一学科论文集合引用的情况。同时也论证了从学科角度评选综合性学术期刊的可行性。
《中国人文社会科学核心期刊要览》编辑会议(2008年)
《中国人文社会科学核心期刊要览(2008年版)》成果发布会
五 我院文献计量学建设展望
我院从2011年开始实施创新工程建设。大力加强社会科学研究的各项管理工作,科研绩效管理与科研评价服务越来越成为有效实施创新工程的客观需求。我们的文献计量学研究室经过多年的发展,已积累了一定的人才优势,建立了资源优势与品牌优势。目前,文献计量学研究室已完成了引文数据库的构架建设和加工系统的建设,“中国人文社会科学引文数据库(CHSSCD)”已经成型并具有一定的规模,拥有1999年至2001年的近1000万条数据,开始提供优质的服务;在此基础上,进入创新工程将给我们带来前所未有的发展机遇。我们未来的发展模式将在学科建设基础上,进一步加强定量与定性相结合的科学评价研究与应用。重点加强以下几个方面:
1.出版科研产出与影响力指标集。利用中国人文社会科学引文数据库(CHSSCD),对我国年度社科论文的产出力和影响力及其分布情况进行客观的统计和描述。从宏观统计到微观展示省市地区、机构、基金、著者产出力和影响力,显示我国各人文社会学科领域的研究成果,揭示不同学科领域中,研究机构的分布状态。指标集提供的论文产出力、影响力的排序列表,以及各学科的引文指标,将有助于使用者对我国科研产出的宏观、中观和微观三个层面的了解,也可以根据各种指标了解同行在学术研究中的发展,从而制定比超的目标,更好地促进学术的发展。
2.构建人文社会科学研究评价体系,开发科学评价系统网上平台,开展评价研究与服务。在文献计量研究与调查访谈的基础上,以科研成果评价为主线,构建出人才评价、机构评价、学科评价、项目评价的评价体系。依托自建引文数据库,并结合国内外各类型文献资源数据库,全面搜集相关评价信息,进行各项评价指标体系的实施,定期发布各项评价指数值以及综合评价结果。配合我院创新工程,定期对我院的创新人才、创新项目、创新成果提交客观测评结果,以供我院人力资源管理、科研管理、项目管理及成果评奖等活动提供客观参考依据。
3.科学战略分析。定期分析学科领域关注的热点问题及相关研究人员,并请有关专家来进行评论。宏观分析国内外一些领域发展趋势与可能性。
以上的规划已经开始实施,我们会为建成国内领先、世界一流的人文社会科学文献计量学研究基础而进行不懈的努力。
(姜晓辉,中国社会科学院图书馆研究员、原图书馆数据库部主任)