第三章 研究方法
一 数据介绍
1.首都大学生成长追踪调查
本书使用的数据主要是“首都大学生成长追踪调查”数据。该项目源于由香港科技大学社会科学部吴晓刚教授和中国人民大学社会学系冯仕政教授于2009年在香港科技大学、中国人民大学的经费资助,由北京市委教育工作委的指导和支持共同创立的“首都大学生成长追踪调查”。2009年,两人共同制定了“首都大学生成长追踪调查”的总体方案,设计了抽样方案和调查问卷,并组织实施了第一期调查。2010年中国人民大学社会学系和高等教育研究中心加入“首都大学生成长追踪调查”,并共同努力将其纳入中国人民大学中国调查与数据中心的常规调查项目。2011年开始,中国调查与数据中心全面负责“首都大学生成长追踪调查”的追访工作(李路路,2013:1)。
“首都大学生成长追踪调查”采取固定样本追踪调查(Panel Survey),连续多年针对同一组调查对象进行调查。相对于截面调查(Cross-Sectional Survey),固定样本追踪调查无论在数据质量上,还是在理论上都具有独特的优势:首先,它是关于同一组调查对象的追踪调查,前后数据之间可以相互校验和补充,最大限度地去除数据之间的矛盾和应答上的欺骗性;其次,分析者对数据的理解可以前后相互参考,从而对数据的实质社会含义的理解会更容易、更准确;最后,在截面数据(包括重复性截面调查数据)中,社会事实之间的时间关系比较模糊,而追踪调查数据所呈现的社会事实之间的时间序列关系非常清楚,从而在因果关系的推断上具有截面数据无法比拟的优势(李路路,2013:2)。
在理论上,“首都大学生成长追踪调查”的研究总体为北京市行政范围内所有非民办大学中的全日制本科生,但在调查执行中,为了在保证样本代表性的同时尽可能节约成本,调查总体确定为2006年和2008年秋季入学的本科生,即2006级和2008级学生。利用北京市教委提供的2006级和2008级在校学生学籍数据库作为抽样框,本调查采用分层、多阶段、概率与规模成比例(PPS)抽样,各阶段的抽样如下。
第一阶段以大学作为初级抽样单位。根据各学校的行政隶属关系以及是否列入211工程学校名单,将符合调查条件的北京高校分成6个抽样框,其中,北京大学、中国人民大学和清华大学三所大学单独作为抽样框,其他三个抽样框分别为:所有教育部直属或者其他部委所属的211大学,所有教育部直属或者其他部委所属的非211大学以及所有北京市属的大学。第二阶段以专业为二级抽样单位。在单独分层的清华、北大、人大三所大学(抽样框1、2和3)中各抽取25个专业;其他学校每所抽取15个专业。第三阶段以学生为最终抽样单位,每个专业抽取20个学生。抽样的最终结果如表3-1所示,本调查抽取的样本总规模为5100名学生。当进行全部大学的总体估计时,我们将根据设计的各抽样框样本的抽取概率对样本进行加权处理,确保各抽样框样本对总体的代表性(李路路,2013:5-7)。
表3-1 “首都大学生成长追踪调查”抽样程序
“首都大学生成长追踪调查”以2009年为基准年,第一次调查时2006级和2008级学生分别为大三和大一学期末,其后在2010、2011、2012、2013年进行了四次追踪调查。其中2009年和2010年的执行是在北京市教工委以及被调查学校的学生工作部门的配合下进行的,主要采取的是现场填答模式。2011年及其之后的调查都是采用网络填答的方式完成,调查过程分为“邀访”和“劝访”两个阶段。第一阶段是邀访,即通过电子邮件或手机短信等方式,一般性地集中通知和邀请被访者凭借其对应密码上网填答问卷,被访者自愿填答。第二阶段,对邀访不成功的被访者,由访问员针对性地通过电话、短信、邮件联系,说服其上网填答(李路路,2014:10)。
最终,这五次调查所涵盖的学校以及各个学校的抽样数、历次调查的实际人数见表3-2。从各次追踪的数据来看,前面四次的调查都保证了很高的成功率,这在同类调查中非常难得,但是,2013年调查的成功率较低,其中一个重要原因是,两届学生此时均已毕业,其中许多出国或者工作的毕业生难以追踪到。这五次调查,对于2008级而言,反映了他们整个大学时代的成长经历;对于2006级而言,则反映了他们从大学走向社会的过程。
表3-2 “首都大学生成长追踪调查”历次调查实际人数
最后需要说明的是,考虑到本调查仅仅使用北京地区的资料,故而在推广到全国大学生的普遍状况时需要谨慎。然而,作为中国的首都,北京是我国高等教育资源最为集中的地区,而且学校之间的层次非常明显,这种特殊的教育空间与我国高校集中的其他城市是类似的,从这个意义上讲,利用北京高校学生的数据来研究大学生不仅具有典型性,也具有相当的代表性(李路路,2014:6-7)。
2.中国综合社会调查(2005~2008)
除了上述“首都大学生成长追踪调查”以外,本书在第七章还将使用2005年、2006年、2008年中国综合社会调查(Chinese General Social Survey,CGSS)数据。中国综合社会调查采用分层四阶段不等概率抽样,各阶段的抽样单位如表3-3。这三次调查都属于中国综合社会调查项目的第一期,在这一期调查中,抽样方案、抽样框以及抽取的初级抽样单元(区、县)、二级抽样单位(街道、乡)、三级抽样单元(居委会、村委会)都保持不变。
表3-3 中国综合社会调查第一期抽样单位
按照中国综合社会调查的抽样设计,在全国28个省、自治区、直辖市中,共抽取125个县(区),500个街道/乡镇,1000个居委会/村委会,10000个家庭,每个家庭中随机抽取1人作为调查对象。最终抽样单元中城市样本与农村样本的比例为5900∶4100。2005年、2006年与2008年调查均覆盖了农村与城市,但实际调查中的总样本数分别为10372、10151、6000。
该数据的具体抽样和执行情况可参见《中国综合社会调查报告(2003—2008)》第一章。