§2.1 统计数据的收集
§2.1.1 原始数据的收集
统计数据收集是根据统计研究的目的要求,采用科学的形式和方法,获取所研究变量数据的过程,在社会经济统计中也称为统计调查。它是进行统计数据整理和分析的必要前提。统计数据收集是整个统计活动的起点,是统计分析的基础,决定着统计活动和统计研究的成败。如果收集的数据不可靠、零碎不全,那么以后的整理手段无论怎样科学,统计分析方法无论怎样先进,都不会得到对事物的正确认识。因此,对统计数据收集的基本要求是:准确性、及时性、完整性。准确性是指收集的统计数据真实可靠,如实地反映客观实际。及时性是指在规定的时间内,提供及时有效的统计数据。完整性指对应该调查的单位和项目要无一遗漏,数据要相互配套,才能全面系统地反映所研究现象总体的特征。
按照获取途径的不同,统计数据可以分为原始数据和次级数据。原始数据是直接从各调查单位收集的数据。次级数据亦称二手数据,是从如统计年鉴、报刊、互联网或有关部门业务管理资料中获取的经过加工整理的数据。相对而言,二手数据的收集比较容易,数据收集的成本低、时间快。但是,二手数据并不一定是为研究者的特定目的而产生的,因此在使用二手数据时,要注意数据的定义、内涵、计算口径和计算方法,避免错用、误用、滥用。
(1)统计数据收集的方式
在自然科学和工程技术研究领域,可以通过科学实验的方式获取所需数据;而在社会经济研究领域,通常是通过对既定社会经济活动的观测或统计调查的方式来收集数据。
统计调查有全面调查和非全面调查。全面调查是对调查对象中的所有单位无一例外地都进行调查,目的在于直接获得总体数据。全面调查包括总体单位完整,收集的数据比较全面,能够满足各个层次、各级政府管理的需要,能够为抽样调查提供抽样框;但全面调查花费的人力、物力、财力较大,所需时间较长,调查过程中容易受到各种人为因素的干扰而影响资料的质量。对社会经济问题的全面调查常采用普查的方式。
非全面调查是只对调查对象中的一部分单位进行调查,其目的是了解总体基本情况,或用样本数据推断总体特征。非全面调查可以节约调查费用,提高调查资料的时效性,调查内容可以比全面调查更深入细致,对调查单位的调查误差相对较小,但存在部分单位对总体的代表性误差。对社会经济问题的非全面调查常采用重点调查和抽样调查的方式。
①普查。普查是对调查对象中所有个体单位都进行调查。普查具有信息全面、完整的特点。普查的目的是为了详尽地了解某项重要国情国力,为政府制定规划、方针政策提供依据。世界各国都定期地(一般是10年)进行人口普查、农业普查等。由于普查涉及面广、调查工作量大,所花费的时间、人力、物力、财力都很大,因而只能间隔较长时间进行一次。我国目前已经建立起了周期性的普查制度,每10年进行一次人口普查和农业普查,每5年进行一次经济普查。
进行普查要注意以下几点:第一,统一规定普查的标准时间,即调查资料所属的时间,以避免由于时间变动使资料重复和遗漏。第二,规定统一的普查期限。在普查范围内的各调查点或调查单位的调查登记工作应尽可能同时进行,保证资料的及时性和准确性。第三,统一规定普查内容和指标解释,不得任意改变或增减项目。同类普查,各次调查的项目应尽可能一致,以便于历史资料的对比研究。第四,同类普查应尽可能按周期进行,以便观察现象发展变化的过程和规律。
②抽样调查。广义的抽样包括概率抽样和非概率抽样。概率抽样也称随机抽样,是指按照随机原则从总体中抽取部分单位构成样本。所谓随机原则,就是在抽取样本单位时不受任何主观因素及其他系统性因素的影响,总体的每一个单位都有一定的机会被抽中。随机原则可以用概率来描述,按照随机原则抽样,每个单位被抽中的概率是已知的,或是可以计算出来的;当用样本对总体数量进行估计时,可以计算和控制抽样误差,使推断结果具有一定的可靠性和准确性。
非概率抽样也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。非概率抽样常用的方式主要有方便抽样和判断抽样。方便抽样是指不考虑抽样的概率,纯粹以便于取得样本的方式进行抽样,如调查员在街头、商店等公共场所进行拦截式的调查。判断抽样是指研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本进行调查的抽样方式。非概率抽样操作简便、时效高、成本低,适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。
概率抽样和非概率抽样是性质不同的两种抽样类型,在调查中采用何种抽样类型,取决于研究问题的性质、使用数据要说明的问题、调查对象的特征、调查费用、调查时间等多方面的因素。统计上所说的抽样一般都是指概率抽样,抽样调查一般都是指随机抽样调查。本教材若无特别说明,抽样均指概率抽样,抽样调查也即对随机样本的调查。
实际调查工作中经常采用的概率抽样方式有以下几种:
A.简单随机抽样。简单随机抽样也称为纯随机抽样,是一种最基本的抽样形式。这种抽样方式无须对总体单位进行任何划分或排队,只需对总体单位进行编号,利用抽签法、随机数表或计算机随机取数法等完全随机地直接从总体中抽取样本单位,每个总体单位入样的概率是相等的。
B.分层抽样。分层抽样也叫分类抽样或类型抽样。这种抽样方式首先将总体单位按有关特征划分为若干层(类或组),然后从各层中按随机原则分别抽取一定数目的单位构成样本。分层抽样是统计分组法与抽样原理的结合,不仅能利用样本估计总体,也能够利用各层子样本推断相应子总体特征,可以深化对现象的认识,满足分层管理的需要;分层抽样保证了样本中包含有各种特征的抽样单位,样本的结构与总体的结构比较相近,从而可以有效地提高估计的精度。分层抽样适用于类间性质差异比较大的情况,比如农产量调查以平原、丘陵、山区为不同的层等。
C.等距抽样。等距抽样也称为系统抽样或机械抽样。这种抽样形式是先将总体单位按照某种标志排队,计算出抽样间隔k(k=N/n,其中N为总体单位数,n为样本单位数),在第一个抽样间隔内确定一个抽样起点r,之后按固定顺序每隔k个单位抽取一个样本单位。等距抽样操作比较简便,如果有辅助信息对总体单位进行有组织的排列,能使样本单位在总体中分布比较均匀,提高样本的代表性。
在等距抽样中,如果按有关标志对总体单位进行排队,其抽样效果接近分层抽样;如果按与调查目的无关的标志对总体单位进行排队,其抽样效果接近简单随机抽样。
D.整群抽样。整群抽样也叫集团抽样。它是将总体全部单位分为若干部分,即若干群,然后按随机原则从所有群中抽取一部分群,对抽中群内的所有单位都进行调查。例如居民住户调查或人口抽样调查,常常以一个乡或街道的所有住户或所有人口为一群,对抽中乡或街道的全部住户或人口都进行调查。
整群抽样以群为单位进行抽样,大大简化了抽样组织工作,也便于实施调查和组织管理。但按群抽取,同一群内的单位或多或少地有些相似,在其他条件相同的情况下,整群抽样的样本代表性可能较差。整群抽样适用于群间同质性比较高的情况。
(2)统计数据收集的基本方法
调查单位确定后,收集统计数据的基本方法主要有观察法、报告法、访问法等。各种方法有不同的特点和适合条件,应该根据调查对象的特点、研究目的和任务及统计调查的条件灵活选择调查方法。
①直接观察法。直接观察法是调查人员深入现场对调查单位进行直接观察、记录和计量。如对商品库存进行实地盘点,农产品产量抽样调查采取的实割实测方法,在商场门口对客流量进行计量等,都属于观察法。观察法取得的资料比较客观、具体,能够保证数据的准确性,但观察法需要花费较多的人力、物力和时间,同时由于观察者认识事物的能力不同,并带有主观见解,其结果往往因人而异。
②报告法。报告法是指被调查者按照调查者的要求,根据自己的实际情况如实填报调查内容,以信函、传真、计算机网络等方式向调查者报送数据的方法。该方法对调查者来讲比较省时省力,但资料的真实性取决于被调查者的配合程度,如果对被调查者没有一定的约束机制,就容易发生虚报瞒报的现象。统计报表制度就是一种规范程度比较高的报告法。
③访问法。访问法也称采访法、询问法,是由调查人员提问、被调查者回答来获取数据的方法。访问法的具体方式有多种,如顾客满意度调查,可以是集体访问,也可以个别访问;可以是街头访问,也可以入户访问;可以是面谈访问,也可以电话访问。
除了以上几种传统的调查方法以外,随着计算机网络技术的普及,电子邮件调查法、WED站点调查法、计算机电话辅助调查等以互联网络为平台进行调查的方法应运而生,其应用范围日益广泛。
(3)统计误差
统计数据的准确性是用统计误差来衡量和表示的。统计误差是指统计数据与客观现象真实数值之间的差异。统计误差可以从不同的角度进行分类。
统计误差可分为登记性误差和代表性误差。登记性误差是指在调查、汇总过程中由于观察、测量、登记、计算等方面的差错或被调查者提供虚假、错误资料而造成的误差。这种误差在任何一种调查形式中都可能产生,如调查过程中对调查单位的登记发生重复和遗漏、被调查者回答误差、被调查者拒绝接受调查、测量工具或测量方法不准确等,都会造成登记性误差。从理论上讲,登记性误差是可以避免的,但是由于各种主观因素的干扰和客观现象的复杂性,一般来说,调查范围越大、调查单位越多,产生登记性误差的可能性也越大。代表性误差是非全面调查特有的,是指由于所调查的部分单位与总体在结构上不完全相同,用部分单位的数据推断总体数量特征所产生的误差。
统计误差还可分为抽样误差和非抽样误差。抽样误差是一种随机的代表性误差,是由于抽样的随机性引起的样本估计量与总体参数之间的误差。对于任何一个随机样本,这种误差都无法避免,但可以计算和控制。非抽样误差是相对于抽样误差而言的,是指除随机抽样以外的各种原因引起的统计数据与客观真实值之间的差异,既包括各种登记性误差,也包括代表性误差中的非随机误差,如抽样调查中的抽样框不完善造成的抽样框误差,或不严格遵守随机原则抽取样本产生的误差。无论是概率抽样还是非概率抽样,或是全面调查,都有可能产生非抽样误差。
§2.1.2 统计调查方案
统计调查涉及面广、工作量大,为保证统计调查工作有计划、有组织的顺利开展,在调查前应该制订一个科学的、周密的调查方案。调查方案的制订是统计设计在调查阶段的具体化。调查方案一般包括以下内容:
(1)确定调查目的和任务
在调查方案中首先应该明确为什么要进行调查,通过本次调查要解决什么问题。只有目的明确才能进一步确定向谁调查、调查什么、用什么方法进行调查等。
(2)确定调查对象、调查单位和报告单位
调查对象是根据调查目的和任务确定所要调查事物的全体,即统计总体。调查单位是所要调查的具体单位,是调查项目的具体承担者,即总体单位。确定调查对象是确定调查范围,确定调查单位是明确具体向谁调查。报告单位(填报单位)与调查单位是两个不同的概念。报告单位是向上报告调查内容、提交统计数据的单位。二者可能一致,也可能不一致。如全国第一次经济普查中,所有的经济活动单位是调查对象,每一个经济活动单位既是一个调查单位,也是一个报告单位;而调查工业生产设备情况,所有的工业生产设备是调查对象,每一台设备是调查单位,而报告单位是各个工业企业。
(3)确定调查项目
调查项目是根据调查的目的和任务,确定调查中需要登记的调查单位的特征。确定调查项目要注意:需要与可能相结合、调查项目的表达要确切具体、同类调查的项目应保持相对稳定。
(4)调查表与问卷设计
把若干调查项目按照一定的顺序排列在表格上,即形成调查表。调查表有单一表和一览表两种。在某些统计调查(如民意调查和市场调查)中,调查表表现为问卷的形式,调查项目主要以提问的形式出现。问卷是以书面文字或表格的形式了解被调查者的意见。问卷的主体部分由一系列问题及备选答案组成。
(5)确定调查组织形式和方法
调查方案要根据研究目的、调查内容和调查对象的性质特点,明确规定调查的组织形式和收集数据的具体方法。
(6)确定调查时间
调查时间有两方面的含义:一是指调查数据所属的时间,即调查的标准时间。如果是时期现象,要明确所要收集的数据所属时期的起止时间;如果是时点现象,要规定收集登记的是现象在哪个时点上的数据。如第四次全国经济普查规定,时点资料的标准时点为2018年12月31日,时期资料的标准时间为2018年度。二是指调查期限,即整个调查工作从开始到结束的时间,包括调查登记的时间、数据处理的时间、数据分析的时间。例如第四次全国经济普查规定,单位清查时间为2018年8—12月,同时对个体经营户开展普查登记工作,普查登记时间为2019年1—4月。规定调查时间是为了保证调查资料的统一性和及时性,使调查工作有组织、有计划地进行。
(7)制定调查的其他事项
为了保证调查工作顺利进行,在调查方案中还需要制定好组织实施的各项具体计划,包括明确调查的组织机构、宣传、调查人员的选择和培训、经费预算、是否需要试点、资料报送程序和方法、数据处理和质量控制、数据公布、资料管理和开发应用等。
§2.1.3 次级资料的收集
次级资料又称第二手资料,是指以前或别人已经收集好的、并经过一定程度整理的统计资料。次级资料的收集通常称为文案调查,是指利用单位内部和外部的各种信息和情报资料,对所需数据资料进行调查;也称为间接调查、桌面调查和二手资料调查。这种调查不受时空限制,可以获得实地调查难以取得的大量历史资料。次级资料是统计分析研究的重要数据来源,比如进行横向比较、趋势测定、季节波动以及相关关系分析等,都需要有系统的历史资料及相关资料,而这些资料通常都属于次级资料;进行调查或研究设计时,现成数据更是研究人员不可缺少的参考依据。相对于收集原始资料来说,利用次级资料,具有时间短、费用低、资料的分析整理更容易等优点。因此,在统计研究中,要善于充分收集各种渠道的现成数据。
次级资料包括内部资料和外部资料。内部资料主要指企业或单位内部相关的数据或档案,如业务资料、客户情报档案、销售报表、财务报表,以及其他资料(如简报、总结)等;外部资料指通过统计部门、信息咨询机构、电台和电视台、图书和报刊杂志、互联网络等渠道公布的有关资料,如行业研究报告、市场调查报告、上市公司财务报告或公告、政府统计部门发布的统计公报、政府统计部门编辑的各种统计年鉴、政府网站的数据库,以及咨询机构出售的资料等。
随着互联网技术的发展和普及,在网站上查找数据有成为次级资料主要来源的趋势。国家统计局网站(www.stat.gov.cn)、国家发展改革委员会主办的中国经济信息网(www.cei.gov.cn)、国务院发展研究中心信息网(www.drcnet.com)、北京大学教育学院主办的www.gse.pku.edu.cn等,有大量的、历年的各种年鉴数据和即时数据。还有一些行业、部门和专业网站,也为次级资料的查阅提供了丰富的二手资料,例如:全国市场调查行业协会网站(www.emarketing.net.cn);中国营销信息网(www.emkt.com.cn);中国医药信息网(www.cpi.gov.cn);中国企业信息化专业网(www.e-works.net.cn)等。一些国际组织的网站则是收集世界各国统计数据的重要渠道,如联合国统计司(unstats.un.org)、联合国粮农组织(www.fao.org)、国际货币基金组织(www.imf.org)、世界银行网站(www.worldbank.org)和经济合作发展组织网站(www.oecd.org)。