统计学案例与实训教程
上QQ阅读APP看书,第一时间看更新

实训篇

第1章 导论

学习目标

1.理解统计学的含义。

2.理解描述统计和推断统计。

3.了解统计学的应用领域。

4.了解数据的类型。

5.理解统计中的几个基本概念。

本章重点

分类数据、顺序数据、数值型数据、参数、统计量、分类变量、顺序变量、数值型变量

基本知识

统计学是一门方法论科学,它在论述其理论与方法时,经常要运用其特有的专门的概念。明确这些基本概念,有利于掌握统计学的基本理论和基本方法,有利于对本书后面各章的学习。本章将介绍统计学的一些基本问题,包括统计学的含义、统计数据及其分类、统计中常用的基本概念等。

1.1 统计及其应用领域

统计学是处理数据的一门科学。人们给统计学下的定义很多,比如,“统计学是收集、分析、表述和解释数据的科学”;“统计是一组方法,用来设计实验、获得数据,然后在这些数据的基础上组织、概括、演示、分析、解释和得出结论”。综合地说,统计学(Statistics)是收集、处理、分析、解释数据并从数据中得出结论的科学。

统计学是关于数据的科学,它所提供的是一套有关数据收集、处理、分析、解释并从数据中得出结论的方法,统计研究的是来自各领域的数据。

数据分析所用的方法可分为描述统计方法和推断统计方法。描述统计(Descriptiye Statistics)研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计(Inferential Statistics)是研究如何利用样本数据来推断总体特征的统计方法。

1.2 统计数据的类型

统计数据是对现象进行测量的结果。例如,对经济活动总量的测量可以得到国内生产总值(GDP)数据,对股票价格变动水平的测量可以得到股票价格指数的数据。下面从不同角度说明统计数据的分类。

1.统计数据的分类

按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。

分类数据(Categorical Data)是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。比如,用1表示“男性”,0表示“女性”;用1表示“医药企业”,2表示“家电企业”,3表示“纺织品企业”等。

顺序数据(Rank Data)是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。比如将产品分为一等品、二等品、三等品、次品等;考试成绩可以分为优、良、中、及格、不及格等。

数值型数据(Metric Data)是按数字尺度测量的观察值。其结果表现为具体的数值。现实中所处理的大多数都是数值型数据。

2.观测数据和实验数据

按照统计数据的收集方法,可以将其分为观测数据和实验数据。观测数据(Observational Data)是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。实验数据(Experimental Data)则是在实验中控制实验对象而收集到的数据。比如,对一种新药疗效的实验数据,对一种新的农作物品种的实验数据。

3.截面数据和时间序列数据

按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。截面数据(Cross-sectional Data)是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况。比如,2013年我国各地区的国内生产总值数据是截面数据。时间序列数据(Time Series Data)是在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况。比如,2010~2014年我国的国内生产总值数据是时间序列数据。

图1-1给出了统计数据的框图。

区分数据的类型是十分重要的,因为对不同类型的数据,需要采用不同的统计方法来处理和分析。

图1-1 统计数据的分类

1.3 统计学中的几个基本概念

统计学中的概念很多,其中有几个概念是经常要用到的,有必要单独加以介绍。这些概念包括总体和样本、参数和统计量、变量等。

1.总体和样本

(1)总体

总体(Population)是包括所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成,如由多个企业构成的集合,多个居民构成的集合,多个人构成的集合,等等。

总体根据其所包含的单位数目是否可数可以分为有限总体和无限总体。有限总体是指总体的范围能够明确确定,而且元素的数目是有限可数的。

总体分为有限总体和无限总体主要是为了判别在抽样中每次抽取是否独立。

(2)样本

样本(Sample)是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量(Sample Size)。抽样的目的是根据样本提供的信息推断总体的特征。

2.参数和统计量

(1)参数

参数(Parameter)是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。研究者所关心的参数主要有总体均值(μ)、标准差(σ)、总体比例(π)等,在统计中,参数通常用希腊字母表示。

(2)统计量

统计量(Statistic)是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。研究者所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等,样本统计量通常用小写英文字母来表示。

3.变量

变量(Variable)是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化,如“受教育程度”“产品的质量等级”等都是变量。

(1)分类变量

分类变量(Categorical Variable)是说明事物类别的一个名称,其取值是分类数据,如“性别”就是一个分类变量,其变量值为“男”或“女”。

(2)顺序变量

顺序变量(Rank Variable)是说明事物有序类别的一个名称,其取值是顺序数据。如“产品等级”就是一个顺序变量,其变量值可以为“一等品”“二等品”“三等品”“次品”等。

(3)数值型变量

数值型变量(Metric Variable)是说明事物数字特征的一个名称,其取值是数值型数据。如“产品产量”、“商品销售额”、“零件尺寸”、“年龄”、“时间”等都是数值型变量。离散型变量(Discrete Variable)是只能取可数值的变量,它只能取有限个值,而且其取值都以整位数断开。连续性变量(Continuous Variable)是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的。

结论分析

在本任务中我们学习了统计学必备的一些基本知识,目的是为学习后面各章打好基础。本章主要内容包括统计的含义,统计学的研究对象,统计数据的类型,统计中的基本概念。通过对本章基本内容的学习,提高了大学生对统计学的学习兴趣,并使学生重点掌握统计的含义、统计数据的类型和统计学中的几个基本概念。

实践训练题

1.统计局抽取了1000个城市职工家庭作为样本,通过这些家庭的收入,分析该城市所有职工家庭的年人均收入。

回答下面问题:

(1)描述总体和样本;

(2)指出参数和统计量。

2.消费者研究机构从金融行业从业者中随机抽取了500人作为样本进行调查,其中70%的人回答他们的月收入在8000元以上,60%的人回答他们的网购的消费支付方式是使用网银。

回答下面问题:

(1)这一研究的总体是什么?

(2)月收入是分类变量、顺序变量还是数值型变量?

(3)消费支付方式是分类变量、顺序变量还是数值型变量?(4)这一研究数据是截面数据还是时间序列数据?