第三节研究设计与方法_华人精英科学家成长规律研究-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

第三节研究设计与方法

一、样本选择

如前文所述，汤森·路透在建立2001版和2014后版（2014年起，每年末更新一版）高被引学者数据库时分别采用了不同的统计口径，导致两版高被引群体的年龄结构差异较大。2001版是在不考虑作者排名的前提下，计算某位学者的SCI论文累积被引次数。总被引次数受到论文发表量和出版时间的影响，一般来说，发表篇数越多，出版时间距今越久，论文被引量会累积越多。因此出现在这一版的多是发表量可观的年长资深学者。而2014后版仅计算学者所发表的高被引文章（ESI中总被引次数排在各领域前1%的论文）的被引次数，这就大大弱化了论文发表量对被引频次的影响。那些产出尚不多，但已有高质量研究成果的中青年学者开始有机会进入名单，从而明显拉低了2014后版高被引学者的平均年龄。本研究旨在对华人高被引科学家的学术成长历程展开分析，在选择样本时自然更倾向于拥有完整职业生涯的科学家群体。很明显，两个版本中先前一版更符合本研究的研究要求。因此，本书选择2001版华人高被引科学家作为研究对象，在部分章节可能会根据需要同时引用2014后版的数据进行对比。

汤森·路透的2001版“高被引科学家数据库”提供了所有高被引学者的英文姓名（First Name/Last Name）、专业类别（Category）和工作机构（Primary Affiliation/Secondary Affiliation）信息。在高被引学者名单中，华人因其特殊的字母拼写规则较易辨认。笔者逐一检索了各专业类别汤森·路透的高被引科学家分布在自然科学和社会科学共21个学科领域，包括工程，化学，物理，材料科学，计算科学，数学，环境生态，生物学和生物化学，地球科学，经济商业领域，农业科学，临床医学，免疫学，微生物学，分子生物学和基因学领域，神经科学与行为领域，药理学与毒理学，精神病学与心理学，植物和动物科学，空间科学，社会科学。本研究以自然科学领域的学者为研究对象，因此剔除掉经济商业领域和社会科学领域的学者。的高被引科学家名录，筛选出其中有华人姓名拼写特征的名字，结合他们所属的工作机构，再通过网络搜索到他们的学术简历及其他相关信息，确认是否有过在华生活和受教育的经历。最后，剔除掉社会科学领域的学者以及个别我们无法确定是否符合研究要求的科学家，最终搜集到102名华人科学家样本，构成了本研究的样本群。

需要说明的是，由于知名科学家通常都具备较显著的职业流动特征，其中不乏一些华人学者在当选高被引科学家后又更换了工作机构，因而有时根据汤森·路透提供的研究机构的信息无法找到相应的对象。不过，因为高被引科学家是一项极高的荣誉，我们最终确认的所有样本皆在自己的个人主页和学术简历的显要位置标注出曾被授予“ISI高被引学者/汤森·路透高被引学者”称号，这也佐证了本书研究对象的准确性。

二、研究方法

本书的研究对象既是一个以高发表高被引为显著特征的高度数据化的群体，同时又是一个个有着丰富人生阅历的鲜活真实、有温度的人物。针对这种双重特点，我们将定量研究与质性研究相结合，主要使用了文献计量分析、传记研究、个案研究和文献研究的方法，对该群体在一段较长时期内发展的过程、趋势进行描述与分析，以期从多个维度揭示华人精英科学家的成长规律及其影响因素。

（一）文献计量分析法

高被引群体的科学论文发表情况是本研究的关键考察部分，而科学论文正是文献计量分析的基本单元。论文的部分特征（例如，作者、参考文献、引证文献、引文数量等）具备可计量性，需要借助专门的计量方法进行统计。而文献计量分析法（Bibliometrics）正是适用于这一情况的，以文献计量学为理论基础的一种定量研究方法。它以各种科学文献的外部特征（包括书名、著者、出版年、出版地、文献内容等等）为对象，采用数理统计方法来描述、评价和预测科学技术的现状与发展趋势。邱均平，王曰芬等.文献计量内容分析法［M］.北京：国家图书馆出版社，2008：1.

文献计量分析法的基本程序包括确定研究对象、收集数据、建立数学模型，并做出诠释。邱均平，王曰芬等.文献计量内容分析法［M］.北京：国家图书馆出版社，2008：122. 它涉及的几个基础定律，分别有不同的应用范围。其中，洛特卡定律主要适用于研究科学家的活动规律和人才的著述特征，推断各个学科研究的发展趋势与科研人员的需求情况等。引证规律则主要适用于研究科学家之间的交流，科学情报的传递等。邱均平，王曰芬等.文献计量内容分析法［M］.北京：国家图书馆出版社，2008：141. 本研究拟通过统计科学论文的时间分布、数量分布、期刊分布，以及合作者等信息，揭示科学家的著述规律和交流情况，研究主题恰在这种方法的适用范围内。

（二）传记研究法

选择传记研究法是源于本书研究对象的生动性和个体差异的存在，本研究的样本基本都是当代知名的华人科学家，在科学界和传媒界皆留存有比较丰富的文字资料。而要想把这些资料转变为有价值的研究资料，则需要选择科学适切的研究方法作为分析工具。从研究问题和材料性质出发，传记研究（Biographical Research）堪当此任。传记研究早在20世纪初即已成形，但新近才受到重视。它指的是搜集并运用个人的生命记录（life documents）或是描述个人生活转捩点的文件所做的研究。王丽云.自传/传记/生命史在教育研究上的应用［M］//中正大学教育学研究所.质的研究方法.高雄：丽文文化事业股份有限公司，2000：265-298. 自20世纪下半叶起，科学学界逐渐认识到，科学最基本、最丰富的特性体现在每一位科学家的科学活动甚至社会活动中，因而科学学研究突破了“科学共同体”“科学知识”等传统概念所设定的疆域，开始对科学界的最小细胞——科学家的行为实施显微研究。袁江洋.科学史：走向新的综合［J］.自然辩证法通讯，1996（1）. 关于科学家的传记研究正是在这样的背景下兴起的。

传记研究的焦点主要指向个人的生命经验，特别是经由对个人的时空定位，理解生命个体在社会文化环境中成长的条件及形式，梳理其与社会历史脉络因素的互动关系，同时通过研究对象所提供的丰富的过程性资料，还有助于理解和诠释个体所属时空环境的特定社会记忆。正因如此，有学者认为，传记研究与生命历程研究有着密切关联 Denzin， N K.Biographical research methods ［M］// Keeves， J P.Educational research， methodology， and measurement：an international handbook.Adelaide：Pergamon， 1997：55. ，而这正契合本研究的研究主题。早期的传记研究以质性分析为主，随着后来理论的丰富与量化技术的引入，计量和实验的方法越来越受到重视。直至20世纪70年代，学界开始反思过度推崇量化研究程序可能导致对研究对象生命本质的忽视。传记研究又逐渐重返人文社科领域，更多采纳了一种诠释的取向。

可用于传记研究资料的范围很广，与主题相关的自传、传记、回忆录、口述历史、讣文、日记、图片和信件等皆可作为分析文本。中国台湾地区学者梁福镇（2004）将传记研究的步骤归纳为确定主题、搜集资料、分析资料、诠释资料和撰写报告五个阶段。在分析环节，既可以采用定量统计，也可以运用质性分析。梁福镇.教学社会学研究的新典范：传记研究方法之探究［J］.教育科学期刊（中国台湾），2004（1）. 丹增（Denzin 1997）是传记研究领域从实证取向转向诠释取向的代表人物，他提出的研究程序包括：①研究者或依照年代顺序，或按照传主的关键经历（如教育、婚姻与就业等），来对传主的生命历程与经验进行描述与注解。②用访谈方式来搜集关于历史脉络的传记资料，重点在于搜集传主的故事与经历。③将这些故事围绕主题进行组织，用以陈述个体生命中的顿悟事件。④研究者仰赖传主对其生命故事的解读，以探究故事中的多样意义。⑤研究者同时找寻传主所处的环境，如采纳团队中的社会互动、文化议题、意识形态及历史脉络等，以诠释传主生命故事所代表的意义。潘慧玲.教育研究的取径：概念与应用［M］.上海：华东师范大学，2005：249. 本研究搜集了华人高被引科学家的个人简历及能够搜寻到的部分样本的传记、回忆录、访谈、讣文、演讲实录等资料，主要采用丹增总结的诠释性研究程序，对精英科学家成长的生命历程、“重要他人”与关键性事件展开分析。

（三）个案研究法

个案研究（Case Study）是当前社会科学领域比较常用的一种方法，是对一个封闭系统所做的深度描述与分析。以殷（Yin）、斯塔克（Stake）和梅里安姆（Merriam）等为代表的一批学者曾对个案研究法进行过系统、深入的阐释。殷（2008）从研究过程的维度对个案研究所下的定义是“一种用于分析真实情景下的现象的经验研究，特别是针对那些现象与环境的界限不甚清晰的情况。” Yin， R.Case study research：design and methods （3rd edition）［M］.SAGE Publications， 2003：18. 与其他方法相比，个案研究能够更全面地揭示某个典型案例的全貌，以作深入详实的描述、诠释与分析，适合对多层次分析单位的研究。本研究拟在部分章节讨论专业学术组织与高被引科学家成长之间的关系，而专业学会作为一种典型的多层次分析单元，本身即涵盖组织架构、成员组成、专业刊物等多项子单元，同时作为一个整体又与不同层次的外部环境有着频繁的互动，较为适合用个案研究法进行分析。因此，本研究选择在国际统计学界和华人社会都享有盛誉的泛华统计协会（ICSA）作为学术社群的代表，采用个案研究法对其进行深入的剖析，资料搜集方法与分析路径将在后文的具体章节展开论述。

（四）文献研究法

在本研究的写作过程中，笔者整理分析了关于高被引科学家及其他科学精英群体的文献、关于影响科学产出因素的文献、关于科学合作的文献、关于社会出身与职业成就的文献、关于华人传统文化对科学创新影响的文献等等，在此基础上提出了本研究的研究框架，并将其应用于全文的分析过程中。这种利用文献资料间接考察历史事件和社会现象的研究方式被称为文献研究。林聚仁，刘玉安.社会科学研究方法（第二版）［M］.济南：山东人民出版社，2004：145. 人文社科领域的文献研究主要是利用二手资料进行分析，具有明显的间接性、无干扰性和无反应性仇立平.社会研究方法［M］.重庆：重庆大学出版社，2008：239. ，已成为当前社会科学研究必不可少的路径。

三、数据采集

（一）量化数据的来源

本研究的量化数据主要来源于2001版华人高被引科学家的学术简历、Web of Science数据库和Journal Citation Reports数据库（以下简称JCR数据库）。笔者在此基础上自建了个人特征数据库、SCI期刊论文数据库、高被引论文数据库和高被引论文发表期刊数据库（见图1-3），四个数据库均创建于2014年11月，下面逐一进行介绍。

图1-3 本研究自建的四个数据库信息图

1.华人高被引科学家的个人特征数据库

大多数华人学者，特别是海外华人都在其个人主页提供了比较完整的学术简历，有的还附上全部发表信息（publication list）。针对部分信息缺失比较多的样本，笔者直接向高被引科学家本人发邮件询问，一共收到两位科学家的回复。笔者根据2001版样本的简历内容所创建的个人特征数据库，涵盖了102个研究对象的中英文姓名、性别、生卒年月、祖籍、出生地、早年成长地、所属专业类别、当前所在地区、最近工作机构、曾经工作机构、职业流动次数、本科毕业院校、本科毕业时间、博士毕业院校、博士毕业时间、是否有博士后研究经历、专业变动情况、海外研修目的地与时长、职阶晋升时间、所获国内外荣誉等要素，其中部分样本的个别信息缺失。这个数据库主要用来分析华人高被引群体的人口统计学特征与部分专业特征。

2.华人高被引科学家的SCI期刊论文数据库

对于科学家而言，学术期刊通常是他们发表新近研究成果的主要阵地。另外还有部分文章被收录进各种学术会议论文集中。但考虑到会议论文的质量良莠不齐，且存在同一篇论文在期刊上重复发表的情况，本书仅将科学家发表的SCI期刊论文纳入考量范围。此外，汤森·路透集团在统计高被引学者时，只计算科学家发表的研究性论文和综述类文章，“书信（letter）”“社论（editorial）”等其他不经过同行评审的文章类型不包括在内。来自30个以上机构的团体作者合作发表的文章也不列入统计范畴（这种大规模合作发表的现象最常见于高能物理学、基因组工程和天文学领域）。因此，本研究尝试以华人高被引科学家被Web of Science收录的经过同行评审的期刊论文作为依据，以专业年龄（距离博士毕业年代的时间）作为统计单位，计算出每位科学家每年发表的论文篇数，建立起相应的数据库。

笔者在建立该数据库时面临的最大问题是科学家的重名现象。Web of Science数据库设置有“作者识别号”（Research ID）的检索选项。本研究中有26位科学家可以通过“作者识别号”直接搜索到他们的全部发表信息，剔除掉不符合要求的文章后，笔者统计出了他们在各个年份的发表数量，这是准确且便捷的一种途径。而大多数没有注册“作者识别号”的科学家的成果搜集工作就要困难得多。由于Web of Science中的大量文章并没有提供作者姓名全称等完整信息，更早期的论文甚至很多没有提供作者单位，仅仅能看到作者的缩写姓名（例如，Zhang， T、Lin， S等）。针对这部分样本，笔者结合科学家简历中提供的职业流动信息，采用“作者+地址+出版年”的检索模式进行查询。遇到仅显示作者缩写姓名的文章，笔者只能通过综合考察论文所属的专业领域、发表年代以及合作者姓名，再结合他们简历中的个人成果来做出判断，必要的情况下对作者缩写姓名之下的所有文章进行逐一核对。不过，对少数重名现象非常普遍或本身职业流动信息不完整的科学家分辨起来难度过大，笔者在数次尝试之后无奈放弃了个别样本。此外，还排除掉极少数无法确认作者身份的论文（主要是Web of Science早期收录的文章）。如上所述，本研究共检索到102名华人高被引科学家中的87个样本的完整SCI期刊论文发表信息，在此基础上创建了“华人高被引科学家的SCI期刊论文数据库”。

3.华人高被引科学家的高被引论文数据库

“高被引论文”指在某个统计时间段内被频繁引用，被引次数位居同领域前列的论文。汤森·路透集团将其界定为同年度同学科领域中被引频次排名全球前1%的论文。这些论文皆通过同行评审，获得了科学共同体的广泛关注和认可，是华人高被引科学家质量最高的一批研究成果，也是本研究对象入选精英科学家群体的重要依据。不过照此统计方式，获取的文章总量必然庞大。考虑到研究的可操作性，本研究选择每位科学家被引频次最高的10篇期刊论文作为高被引论文的代表（简称高被引论文）。

通过与汤森·路透技术人员的交流，笔者确认，在计算高被引群体的过程中，一篇论文的所有作者（不考虑作者排序）都会获得同样的被引频次。因此，本研究利用Web of Science数据库的论文“被引频次降序排列”功能，搜索出每位华人高被引科学家被引次数最多的前十篇文章。部分难以通过Web of Science获取信息的样本则先尝试借助其他数据库（例如Google Scholar Citation等）查询结果，再回到Web of Science进行核对，如此共搜集到93位学者的高被引论文信息。剔除掉其中少量不符合要求的文章（主要指不合要求的文章类型及目前查不到信息的论文）后，最终有912篇高被引论文纳入分析范畴。笔者统计了这些高被引论文的作者人数、分布国家、城市与机构、合作模式、文献类型、发表刊物名称、发表时的专业年龄等信息，采纳这些变量建立了“华人高被引科学家的高被引论文数据库”。

4.华人高被引科学家的高被引论文发表刊物数据库

在上述高被引论文数据库的基础上，笔者理出了华人高被引科学家高被引论文的发表刊物名称，并借助JCR数据库对这些刊物的详细信息进行了分析。JCR是汤森·路透集团专门开发的期刊评价数据库，包括自然科学和社会科学两个版本，提供基于引文频次的多项期刊评定指标，包括期刊的出版信息、影响因子、特征因子、即时引用指数、被引半衰期等等。汤森·路透一般在每年6月下旬发布上一年度的期刊引文报告。因此，本研究以JCR-2013版为标准，采用期刊名称检索方法，对华人高被引科学家的912篇高被引论文的发表期刊进行搜索，剔除掉个别数据库没有收录的期刊，最终确定了280本学术刊物。并搜索了这些期刊的出版国家、学科领域、影响因子、特征因子和期刊分区等信息，在此基础上创建了“华人高被引科学家高被引论文的发表期刊数据库”。

（二）质性资料的来源

本研究的研究对象为分散在世界各地的华人精英学者，笔者曾经尝试通过邮件与他们联络，但收到回复的结果不佳，面对面的访谈无法实现。因此，笔者在探讨影响华人精英科学家成长的中介变量时，选择采用已公开发表的文献作为分析资料。

在质性研究中，文献（documents）是重要的资料来源之一。它泛指通过访谈或观察之外的其他渠道获得的，在研究开展之前就存在的各种材料，包括官方记录、书信、报纸报道、诗歌、歌曲、团体记录、政府文件、历史叙述、日记、自传，以及照片、电影、视频、实物、痕迹，乃至在线数据等各种文字的、图像的、数字的和实物材料。由于文献资料通常是为了研究之外的其他目的而产生的，对它的分析可以避免通过观察和访谈搜集资料时，因研究者的存在而导致的对环境的干扰或改变；而且，在通过访谈、观察搜集数据的过程中，研究对象的合作是至关重要的，文献资料则没有这方面的局限。 Merriam， Sharan B.Qualitative research：a guide to design and implementation ［M］.San Francisco：Jossey-Bass， 2009：139-140. 根据研究目的，笔者通过网络和纸质媒介获取了总数超过20万字的中英文文献材料，主要包括以下三类数据：

1.传记

古今中外皆有名人立传的传统。虽然科学家整体属于比较低调的群体，但作为科学界的明星，精英科学家仍然时常处于聚光灯下，受到众人的景仰。李远哲与丘成桐的生平经历已经被编撰成册，出版了《丘成桐的数学人生》刘克峰，季理真.丘成桐的数学人生［M］.杭州：浙江大学出版社，2006. 、《数学王国的一代天骄：丘成桐传》黄泽林.数学王国的一代天骄：丘成桐传［M］.南京：江苏人民出版社，2014. 等书籍。此外，还有不少个人传记类文章散见于各类期刊、报纸，如《支志明：精心科研，随性人生》向杰.支志明：精心科研，随性人生［N］.科技日报，2007-04-18. 、《从黄陂走出的田长霖及其家世》裴高才.从黄陂走出的田长霖及其家世［J］.武汉文史资料，2003.2-3. 、《农家子弟如何成为美国院士》赵永新，王健.农家子弟如何成为美国院士［N］.人民日报，2012-05-10. 等。以上这些都是我们了解精英科学家成长历程的重要资源。

一般来说，科学家获得重要奖项或被遴选为国家科学院院士后，授予荣誉的机构会对其生平及科学工作进行介绍。本研究参考了美国国家科学院为杨祥发院士所做的回忆录《杨祥发传：1932—2007》 Kent J.Bradford.SHANGFAYANG：November 10，1932—February 12，2007［A］.National Academy of Sciences 2009.Biographical Memoirs：Volume 91［M］.Washington， DC：The National Academies Press：333. 等传记性文章。

2.访谈

本研究的作者虽不能与研究对象进行面对面的访谈，但依然能够通过其他途径获取样本的相关访谈资料。部分科学类报刊设有人物访谈栏目，主要围绕科学家的学术人生和科研工作与杰出学者展开对话。这部分资料数量庞大，与本研究的研究问题相关度高，内容也更多涉及专业领域。如《与科学家对话——访哈佛大学医学院袁钧瑛教授》班立勤.与科学家对话——访哈佛大学医学院袁钧瑛教授［J］.科学中国人，2001.4. 、《物理年与大师对谈系列——访谈朱校长经武》林昭吟等.物理年与大师对谈系列——访谈朱校长经武［J］.物理双月刊（中国台湾），2006.8. 、《做科研的境界：大道至简，大美天成——专访美国工程院院士吴建福》张楠.做科研的境界：大道至简，大美天成——专访美国工程院院士吴建福［N］.科学时报，2011-06-02. 、《袁钧瑛：改变方法，却不丧失聚焦点》 Nicole Le Brasseur.Junying Yuan：Changing avenues without losing focus ［J］.The Journal of Cell Biology， 2007， Vol.179， No.2：174-175. 、《与刁锦寰教授的对话》 Daniel Pea， Ruey S.Tsay.A Conversation with George C.Tiao ［J］.Statistical Science， 2010， Vol.25， No.3：408-428. 等。

另外，还有部分机构从事类似工作且公布了访谈全文。如化学遗产基金会（Chemical Heritage Foundation）2012年8月发布了唐南姗的访谈实录等。汤森·路透集团的科学观察栏目（The Science Watch）于2008—2012年间针对部分高被引科学家做了系列访谈，华人学者中包括王中林、杨培东、夏幼南等皆在其列。

3.演讲与座谈记录

由于在科学共同体内部声名卓著，知名科学家常常受邀对自己的教学研究、职业发展和人生阅历发表演讲，或者在小范围群体内组织一个座谈活动进行面对面的交流。本研究的部分质性数据摘自丘成桐2003年9月在香港中文大学的演讲《我的数学研究生涯》（My Past Experience in Mathematics），李岩岩2006年6月在中国科学技术大学与学生的座谈会记录等。类似的演讲、座谈活动，科学家通常可以用较充裕的时间围绕某个问题展开深入阐释，并提供丰富生动的案例，这些资料都是契合本研究主题的宝贵资源。

四、数据分析

（一）量化资料的分析

本研究使用SPSS 18.0统计软件对华人高被引科学家的“个人特征数据库”“SCI期刊论文数据库”“高被引论文数据库”和“高被引论文发表期刊数据库”的信息进行了定量分析。主要采用描述性统计、独立样本T检验和方差分析功能，对高被引科学家的人口学特征、职阶晋升与职业流动情况，以及学术产出规律等特征进行了描述，对不同学科及不同年龄同期群科学家的相关信息进行了对比。同时利用Excel软件辅助完成部分绘图任务。

（二）质性资料的分析

质性资料的分析往往既与资料的整理工作有重合之处，又有其独立的环节。陈向明（2000）将质性资料的分析分为整理和初步分析、归类和深入分析、理论建构、写作成文四步。陈向明.质的研究方法与社会科学研究［M］.北京：教育科学出版社，2000：269-339. 梅里安姆（2009）则把数据分析程序划分为相对独立的两个步骤：第一步是管理数据，包括为数据编码，在准备分析前记录下自己的观点、思考、推测和假设，给整个数据库建立目录；第二步是分析数据，首先根据研究问题对质性材料进行分割，然后采用开放式编码和“轴向编码”（axial coding）（Corbin & Strauss 2007）或“分析编码”（analytical coding）对质性材料进行分类，而后提炼概念，形成分类系统，再重新对资料进行分类并给各类别命名。 Sharan B.Merriam.Qualitative research：a guide to design and implementation ［M］.San Francisco：Jossey-Bass， 2009：173-193.

结合质性研究的要求，根据资料特点和研究需要，本研究的资料分析工作主要通过如下步骤进行。

1.建立编号系统

在整理和初步分析阶段，首先对每一份文本材料编号，建立编号系统。所搜集的资料基本上是以人为单位的，即一位科学家对应一份资料。不过每份资料可能包括不止一篇文献，甚至涵盖传记、访谈、演讲与座谈记录等多种质性资料类型中的一种或数种。同时考虑到早年成长于中国大陆、中国香港、中国台湾及海外的科学家的经历会有所不同，因此早年成长地域信息也纳入编号系统（中国大陆-M，中国台湾-T，中国香港-H，海外或其他情况-O）。女性科学家因其特殊的社会角色，其成长经历有必要加以特别关注，在编号上也予以特别注明（女性-F）。综上考虑，采用人名首字母缩写+早年成长地域+性别（如为女性）的编号方式。例如早年主要成长于中国台湾的朱经武，编号为ZJW-T，而生长于中国大陆的袁钧瑛（女），编号则为YJY-M-F。根据对资料的初读，剔除只是介绍成就，未描述成长经历的部分文献，最后得到38个编号，其所代表的38位华人高被引科学家的成长经历即本研究质性资料的全部样本（见表1-1）。

表1-1 本研究的质性研究样本及其编号表

2.开放式编码

编码也称为“登录”，目的在于找到对本研究问题有意义的码号（code）。“码号”是资料分析中最基础的意义单位，是资料分析大厦中最小的建筑砖瓦。通过寻找码号及其关系，可以使原始资料超越原有的组织方式，以新的单位重新组织，进而发现其中的意义。而寻找码号的标准在于相关词语出现的频次，如果某些内容在资料中反复出现，形成了一定的“模式”（pattern），那么这些往往是资料中的重要内容，需要引起研究者的特别关注。陈向明.质的研究方法与社会科学研究［M］.北京：教育科学出版社，2000：281-282.

码号寻找的最初阶段通常都是开放式的，即凡是原始资料中表达了一个与研究问题有关的独立意义的语词或短语都予以登录并用数字代表。以下是笔者在登录码号过程中的一个实例（见表1-2）。

表1-2 质性资料登录码号实例

最初寻找到的码号，在随后的反复登录过程中，其中一些码号可能会因出现频率过低而被删除，一些码号会因意义重复而被合并。另外，随着登录和分析的推进，部分码号之间的关联会逐渐显露出来。例如，在开放式登录中的码号：1“师承”，11“知识分子亲属”，20“贵人”之间显然具有一定联系，都可归为成长过程中的“重要他人”。

在质的研究中，整理资料与分析资料在实际操作中往往是同步进行的。对资料的整理必然是建立在一定的分析基础之上，整理行为同样受制于已有的分析体系。另外，随着资料整理的深入，研究者会对研究对象产生一些初步的想法甚至构建起“本土概念”或者“原生理论”，对此应及时进行记录，作为后续深入分析的基础。本研究中，我们主要使用备忘录来记录分析过程中的初步想法，这已被证实是资料分析的有效手段。表1-3是笔者在整理质性资料过程中展开初步分析时所撰写的备忘录片段。

表1-3 备忘录片段

3.建立编码系统和归类系统

经过开放式登录后，本研究共形成了50个初步码号。从资料出发，我们对这些码号的重要程度做了进一步权衡，并寻找码号之间的关联，通过在码号之间建立起相关，资料的内容被不断浓缩，登录的码号也更趋向集中。最终，我们形成了由如下12个要素构成的编码系统（见表1-4）。依据此编码系统，笔者重新阅读质性材料并对资料再一次进行归类。

表1-4 本研究最终确立的编码系统

4.进行类属分析

“类属”是质性资料分析中的另一个意义单位，是建立在许多“码号”组合之上的一个更加上位的意义集合，代表资料所呈现的观点或主题。“类属分析指的是在资料中寻找反复出现的现象以及可以解释这些现象的重要概念的过程。” 陈向明.质的研究方法与社会科学研究［M］.北京：教育科学出版社，2000：290. 类属分析的程序一般是通过比较，先结合编码对资料进行归类，然后判定类属之间存在何种关系，如因果关系、平行关系、包含关系、下属关系等等。在此基础上，研究者可以提炼出数量不等的“核心类属”作为所有类属中最上位的意义单位，而每一个类属之下还可以根据其所涵盖的意义维度和基本属性进一步发展出下属类属。在质性研究中，设定类属并无唯一标准，最重要的还是根据研究者自身对材料的理解和分类来进行界定。陈向明.质的研究方法与社会科学研究［M］.北京：教育科学出版社，2000：290-291. 为了确保资料分析过程的直观明了，在建立类属关系时可以采用画图的方式来呈现。本书中，影响华人高被引科学家成长的三类因素的类属分析结果如图1-4所示。

图1-4 本研究质性资料的类属分析图

5.形成初步的结果或理论

在上述质性资料的分析步骤完成后，本书部分主题的研究结论已在分析过程中逐渐形成了，此时面临的最后程序即为构建相关“理论”和撰写研究论文。尽管社会科学界关于质性研究的目的是否在于建立理论还存在争议，但在陈向明看来，质性研究中的理论并不是传统意义上对社会现实进行概念化和抽象化的“公理”，大多属于“在原始资料的基础上建立起来，在特定情境中对特定社会现象所做的解释” 陈向明.质的研究方法与社会科学研究［M］.北京：教育科学出版社，2000：319. 。按照这种观点，质的研究结果与理论本身即为一体的。

在质性研究领域倡导理论建构的学者主要是扎根理论的倡导者（Glaser & Strauss 1967），其主要宗旨是在系统收集原始资料的基础上，采用自下而上的分析路径，寻找反映社会现象的核心概念，然后通过在概念之间建立联系而逐步归纳形成理论。扎根理论的建构程序与本研究采用的质性资料分析步骤基本一致。具体的研究结论详见本书第三至五章的内容。