统计分析与数据解读
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一节 总体和样本、统计量和参数

总体指的是能够代表所有研究个体的一个集合,通常由一些拥有共同性质的个体组成。样本是从总体中抽取的一个子集。例如,如果想知道清华大学目前终身教职人员的平均收入,有两种方法:一种方法是,拿到全部全职教职人员的名单,并找出他们的年收入数据。因为这个名单包含每个要研究的教职人员,所以可以作为一个总体。如果我们收集了这些数据,并计算出了平均数,我们将得到一个参数,因此参数是由总体得出的描述总体特征的一个值。另一种计算平均数的方法是,随机抽取教职人员名单上的一部分,即总体中的一个子集,然后计算出子集中的教职人员的平均收入。这个子集被称为样本。从样本中计算出的平均数是统计量的一种类型,而参数则是从总体中获得的值。

在这里,关于总体和样本,需要注意几点:第一,总体并不意味着需要计算全体人口。比如:如果我想知道这个学期我的统计学课程的班级学生的平均身高,那么这个班级的所有成员需要被计入总体。如果我的班级中只有五个学生,那么总体中也相应地有五个个案。第二,总体中的每个成员不一定是人。例如,如果我想了解在过去一年中,我去过的兽医店里所有狗的平均年龄,那么在这个例子里,狗构成了总体,而不是人。同样,如果我想知道2005年美国福特公司生产的汽车产生的一氧化碳排放总量,那么,我所研究的总体则是汽车,而且不是所有的汽车,是仅仅在特定的一年中,单个国家的单个公司生产的汽车。第三,研究者通常会界定他的研究对象的总体,不管以一种明确的方式或者含蓄的方式。从上面的举例中,我们很明确地定义了我们的研究对象的总体。例如,一个研究者会把他的研究目的描述成青少年群众中抑郁症的发生率。但是,他的样本可能是,某年中国某城市中去过某心理健康服务机构的15岁组人群。这就产生了一个潜在的问题,也是我们最后需要注意的一点,即样本也许无法很好地代表它背后的总体。在青少年抑郁症的例子中,需要注意两个潜在的问题:第一,研究者定义了他的研究总体,也就是他的研究问题——青少年这个概念包含的群体很大,可以是所有国家的所有在13~20岁的人群。第二,在样本中需要更加细致地给出这个人群的界定,即某特定年份,去过心理健康服务机构的15岁人群。