R语言在统计中的应用
上QQ阅读APP看书,第一时间看更新

§1.1 统计、统计学和统计模型

§1.1.1 什么是统计

什么是统计?它是数字相加吗?是图表、人们的平均收入、物价上涨率吗?总之,它是不是对社会和自然的数值描述?

统计是一套科学原理和技术,用于在可能得到的信息既有限又富于变化时,从中得出关于总体和过程的结论. 也就是说,统计是关于从数据中学习的科学.

“不确定的知识+所含不确定性量度的知识=可用的知识.”[1]

这就是学习统计的目的.

§1.1.2 统计学

什么是统计学?它是科学、技术、逻辑,还是艺术?它是一门像数学、物理、化学、生物那样有确切定义的独立的科学吗?统计学中,我们研究的现象是什么?

统计学是数据的科学. 它包括数据的收集、分类、概括、整理、分析及解释. 统计学通常应用于两种类型的问题:(1)概括、描述以及探索数据,(2)利用样本数据推断被选取样本的数据集的性质.

全国人口普查可以看成是描述统计应用的典型例子,它涉及数据的收集与整理,包括全国人口的状况、人口的年龄比例及社会经济特征等. 对于计算机软件的工程师来说,管理巨大的数据库需要使用统计方法描述数据库. 类似地,一位环境工程师要利用统计学的方法描述过去一年中每天PM2.5的含量等.

致力于数据集的整理、概括以及描述的统计分支称为描述性统计.

有时数据集(称为总体)刻画的是一种感兴趣的现象,但这样的数据在自然状态下无法得到,或者是代价昂贵,或者是耗时很长才能得到. 在这种情况下,我们可得到一个子集(称为样本),利用这个样本来推断它的性质.

例如,一个灯泡厂每天大约生产50万只灯泡,质量控制部门必须检验灯泡的次品率. 这个任务可以通过检验每一只灯泡来完成,但这样做的花费巨大,而且有时是不可能的. 另一种方法是从每天生产的50万只灯泡中选出1 000只,然后检验这1 000只灯泡. 如果这1 000只灯泡是以正确的方式被选出的,那么从中检验的次品率,可被用于估计全天所有产品的次品比例.

简单地说,你想知道一锅汤的味道如何,是咸,还是淡?你不必将一锅汤全部喝掉,品尝一勺就足够了,当然,品尝的方法要合理.

利用样本数据对一个很大的数据集做出推断的统计学分支称为推断统计学.

§1.1.3 统计学的基本要素

1. 总体与样本

总体是指与所研究的问题有关的全部个体的集合. 例如,研究某城市大学生的身高状况,则总体包括该市全体大学生;研究一批产品的合格率,则总体包括该批中的全部产品. 在前面的例子中,需要研究每天生产50万只灯泡的次品率,则这50万只灯泡就是总体.

以一定方式从总体中抽取的若干个体称为样本,人们也将其中的单个个体称为样本. 样本中所含个体的数目称为样本量. 例如,在灯泡质量控制中,从50万只灯泡中抽取的1 000只灯泡就是样本,这里的1 000就是样本量.

2. 参数与统计量

参数是用来描述总体特征的概括性数字度量,它是硏究者想要了解的总体的某种特征。例如,总体的平均值、方差、比例等。在灯泡质量控制中,50万只灯泡的次品率就是研究者想要知道的参数.

统计量是用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的量. 样本是随机的,因此,统计量是样本的函数. 例如,研究者可以通过样本计算出样本均值、样本方差、样本比例等. 在灯泡质量控制中,1 000只灯泡的次品率就是样本统计量.

统计推断的任务是从样本统计量推断出总体参数,例如,用1 000只灯泡的次品率推断出50万只灯泡的次品率.

3. 变量

在研究总体和样本的过程中,会专注于总体试验中一个或多个人们感兴趣的特征或性质,统计学称这些特征为变量. 例如,在饮用水质量的研究中,感兴趣的两个变量是在100 ml的水样本中,氯的残留量及大肠杆菌的数量.

4. 推断的可靠性

在统计推断中,还有一个需要关心的要素就是推断的有效程度,即推断的可靠性. 例如,我们用1 000只灯泡的次品率来估计50万只灯泡的次品率,需要给出一个估计误差的界,这个界是一个数(如5%),估计误差不大可能超过它(如估计误差不超过5%). 可靠性度量是关于统计推断不确定程度的一个陈述,通常是定量的.

5. 统计学的基本要素

描述性统计问题有4个要素:(1)感兴趣的总体或样本;(2)被研究的一个或多个变量(总体或样本中感兴趣的特征);(3)表格、图形或数字概括工具;(4)确定数据类型.

推断统计问题有5个要素:(1)感兴趣的总体;(2)被研究的一个或多个变量(试验中感兴趣的特征);(3)试验中的样本;(4)基于包含在样本中信息对总体的推断;(5)推断的可靠性度量.

§1.1.4 数据的分类

数据类型可分为两类:定量数据和定性数据.

1. 定量数据

定量数据表示事物的数量或个数,用数值标度度量. 定量数据还可以细分为计量数据和计数数据.

计量数据属于连续型变量,它们的取值可以为某个区间内的任意一个实数,如人的身高和体重,产品的长度、直径和重量,股票的价格和市盈率等. 我们对这类数据可以进行计算,如求和、计算平均值等.

计数数据属离散型变量,它们在整数范围内取值,大部分还仅在非负整数范围内取值,如企业的职工人数、成交股票的股数、单位时间内通过某个交叉路口的车辆数和每天到医院就诊的人数等. 尽管计数数据是离散的,但我们可以对它们进行各种运算,如计算均值,因为每天平均有13.5人到医院看感冒是合理的.

2. 定性数据

定性数据没有量的解释,它们只能是分类或顺序. 定性数据还可以细分为名义数据和有序数据.

当观察值不是数,而是事物属性时,也可以用数值来表示,但这些数只起一个名义作用,因此,称其为名义数据. 它们之间没有大小关系,也不能进行运算. 例如,人的性别分为男、女,可以用数“1”和“2”来表示,在这里“2”和“1”不能比较大小,“1+2”也没有任何意义.

描述事物属性的顺序关系的数据称为有序定性数据,简称有序数据. 例如,人的文化程序由低到高可分为文盲、小学、初中、高中、大学和研究生6个等级,分别用0,1,2,3,4和5表示. 又如,对某项服务的评价分为“很满意”“基本满意”“一般”和“不满意”4类,可用4,3,2和1表示. 这些数只起到一个顺序作用,数字之间不能进行运算. 例如,对服务的评价,只知道“4”要优于“3”,但“4−3”没有意义.

§1.1.5 统计模型

一个量或几个量的取值受到偶然因素的影响时,无法用确定的数量关系或函数关系描述它们,在统计学中,这些量称为随机量或随机序列. 在这些量之间,或其自身前后之间往往存在着某种统计依赖关系,也就是说,在大量的重复观察或丰富的数据资料中,存在着相对稳定的规律,它被称为统计规律.

当这种规律能用某一模型方式描述,或近似描述时,称这种随机量或随机序列适合此模型. 这种模型可以通过相应量的实测数据的计算分析而获得估计. 所以,这种模型称为统计模型.

统计模型的具体形式,在少数情况下能够依靠被考查的各量的实际背景所决定,在大多数情况下并非都能如此. 因此,目前所使用的各种统计模型,在绝大多数情况下都是对真实统计规律的近似描述. 另一方面来讲,真实模型形式总是比较复杂,而实际使用的模型又不能太复杂,因此,近似描述手段又是十分必要的.