第一节 统计数据的来源
任何统计数据的初始来源都是研究者直接的调查或实验。但从数据使用者的角度看,数据有两个来源——直接来源和间接来源。相应地,统计数据被分为两类:原始数据和二手数据。对大多数使用者来说,对一个问题的研究往往是从获取和分析二手数据开始的。
一、统计数据的间接来源
1.二手数据的含义
二手数据也称为二手资料或次级资料,是指由数据使用者之外的机构或个人通过直接调查或实验获取、现已存在的数据资料。
2.获取二手数据的途径
从获取二手数据的途径来看,二手数据可分为来自内部的二手数据和来自外部的二手数据。
来自内部的二手数据主要是单位积累的业务资料,如与业务经营活动有关的各种单据、记录,经营活动过程中的各种报表,各种会计、统计、业务分析资料等。
来自外部的二手数据范围广泛,包括各种纸质的和电子介质的数据。具体来说,其主要包括以下几类:统计部门和其他部门公布的有关资料,如定期发布的统计公报、定期出版的各类统计年鉴等;各类经济信息中心、信息咨询机构、各行业协会和联合会提供的市场信息和行业发展的数据情报;各类专业期刊、报纸、书籍所提供的文献资料;各种会议,如博览会,展销会,交易会及专业性、学术性研讨会上交流的资料;广播、电视媒体中的各种数据资料;互联网上可查阅到的各种相关资料等。
3.二手数据的优点和局限性
二手数据一般是某调查者为实现某特定目的调查得来的。对于二手数据的使用者来说,其优点是:数据采集费用低、时间短,研究者可以在较短的时间内以较低的成本获得必要的信息。二手数据的作用非常广泛,除了用于分析所要研究的问题外,还可以提供研究问题的背景,帮助研究者更好地定义问题,寻找解决研究问题的思路和途径,构造合适的研究方案,回答和检验某些问题及假设,更深刻地解释原始数据等。因此,二手数据对研究者来说是非常方便和经济的。
但二手数据也有很大的局限性,主要表现为数据的相关性差、时效性差、准确性差。二手数据往往是别人为满足其特定的研究目的而收集的,与统计人员目前所研究的口径可能不一致,也许已经过时了,也许数据本身的质量存在问题,是不可靠的数据。因此,在使用二手数据前需要对二手数据进行评估。
4.对二手数据的评估
对二手数据进行评估主要从以下几方面进行。
(1)谁收集的数据(Who)?同一数据会有多个来源,政府部门和比较专业的市场调查公司收集并公布的数据更可靠。
(2)收集数据的目的是什么(Why)?了解收集数据的动机有助于判断数据的质量。
(3)收集数据的方法是什么(How)?不同的方法误差不同。
(4)什么时候收集的数据(When)?过时的调查数据或者在与当前研究无关的时间收集的调查数据不能说明问题。
(5)收集的是什么数据(What)?带有倾向性的数据、样本量很小的数据、相互矛盾的数据等都应引起使用者的注意。
微课 :如何获取统计数据
二、统计数据的直接来源
原始数据是调查者通过直接调查或实验所获得的第一手数据。尽管二手数据有收集速度快、成本低、方便等优点,但有时二手数据并不能回答研究者提出的问题。这时就需要通过直接调查获取第一手资料。进行原始数据的收集,需要根据具体情况选择合适的调查组织方式和调查方法。
1.统计调查的组织方式
收集原始数据的方式可以归为两类:一类是对调查总体中的所有个体实施全面调查,常用的调查形式是普查和统计报表;第二类是对调查总体中的一部分个体实施调查,常用的调查形式是抽样调查、重点调查和典型调查。统计调查的组织方式如图2-1所示。
(1)普查。普查是为了实现某一特定目的而专门组织的一次性全面调查。对于不需要经常调查但又需要掌握其全面情况的现象可采用普查的形式。普查一般是对某一现象总体在一定时点上的状态所做的调查。世界各国重大国情国力的调查通常采用普查的方式。我国修订后的统计法也规定,数据收集“应当以周期性普查为基础,以经常性抽样调查为主体,综合运用全面调查、重点调查等方法,并充分利用行政记录等资料”。周期性的普查是我国现行统计调查体系的基础。
图2-1 统计调查的组织方式
2003年,国家统计局公布的调整后的全国性周期性普查项目有人口普查、农业普查、经济普查等。
① 人口普查以自然人为对象,主要普查全国人口和住房以及与之相关的重要事项。该项普查每10年进行一次,在尾数逢“0”的年份实施。
② 农业普查以从事第一产业活动的单位和农户为对象,主要普查农、林、牧、渔业的发展变化情况。该项普查每10年进行一次,在尾数逢“7”的年份实施。
③ 经济普查以企业事业组织、机关团体和个体工商户为对象,主要普查第二、第三产业的发展变化情况。该项普查于2004年在全国首次进行,以后每10年进行两次,分别在尾数逢“3”和逢“8”的年份实施。
普查数据全面、准确、规范化程度高,但耗费的人力、物力、财力很大,所需时间长。
(2)统计报表。统计报表是按国家统一规定的表式、统一的指标项目、统一的报送时间,自上而下布置、自下而上逐级定期提供基本统计资料的调查方式。我国大多数统计报表要求调查对象的全部单位都要填报,属于全面调查范畴,所以又称全面统计报表。统计报表是我国政府统计系统获取国民经济运行数据的主要调查方式之一,具有统一性、全面性、周期性和可靠性等特点。目前,我国的统计报表体系由国家统计报表、业务部门统计报表和地方统计报表组成。统计报表按报送时间分为月度、季度和年度统计报表,报表内容涉及国民经济各部门和各行业。我国最新统计调查制度规定,在以下统计范围内实行“一套表统计调查制度”,即规模以上工业(年主营业务收入2 000万元及以上)、有资质的建筑业、限额以上批发(年主营业务收入2 000万元及以上)和零售业(年主营业务收入500万元及以上)、限额以上住宿和餐饮业(年主营业务收入200万元及以上)及全部房地产开发经营业等国民经济行业法人单位及所属的产业活动单位,规模以上服务业法人单位,其他有 5 000 万元以上在建项目的法人单位,以及工业生产者价格统计调查样本法人单位。调查单位采取联网直报方式,严格按照规定的调查内容、上报时间独立自行报送数据。调查结果是各级政府制定政策和规划、进行经济管理与调控的依据。
统计报表和普查同属全面调查的范畴,但统计报表不能代替普查。究其原因,一是统计报表并不全面,它没有将所有单位的所有经济活动都列入调查的范围。如对工业企业的统计,平时定期报表的范围仅包括年主营业务收入在2 000万元及以上规模的工业法人单位。年主营业务收入在2 000万元以下的工业法人单位和全部个体经营工业单位则采用按名录分阶段分层随机抽样和按行政区划分层随机整群抽样相结合的方法进行抽样调查。二是统计报表的调查内容、统计分组等相对比较简单,普查的调查内容更全面。
微课 :第三次全国农业普查宣传片
(3)抽样调查。抽样调查是抽取调查对象中的一部分单位构成样本,对样本实施调查以获取总体特征的一种非全面调查方式。与全面调查相比,抽样调查具有节省人力、物力和财力,调查误差小,操作灵活和取得资料较快等优点,因此被人们视为统计调查中的重要方法之一。目前,我国政府统计部门从事的人口变动情况调查,城乡住户调查,农产量调查,物价调查及农村劳动力结构、固定资产结构等调查均采用了抽样调查的方法。在商业性的市场调查活动中,对调查对象实施全面的调查往往是不可能的或者是没有必要的,因此,抽样调查成为实际调查活动中运用最广泛的一种调查方式。
抽样有概率抽样和非概率抽样两种方式。
① 概率抽样是按随机原则从总体中抽取样本。随机原则是指在抽取样本时不受主观意识的影响,通过随机化程序抽取调查单位,使每个单位都有一定被抽中的机会(或者说,每个单位都有一定被抽中的概率,只是被抽中概率大小的问题)。实践中,概率抽样又可以根据实际情况采用简单随机抽样、等距抽样、分层抽样、整群抽样和多阶段抽样等不同的具体操作方式,详细的解释见“第五章 抽样估计”。
② 非概率抽样是指在抽取样本时不按照随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽取部分单位进行调查。总体中的一部分单位因各种原因不会被抽到,或者说这部分单位被抽中的概率为零。实践中,常用的非概率抽样方式主要有便利抽样、判断抽样、滚雪球抽样、配额抽样等。
a.便利抽样以便利性为原则,不考虑抽样误差的大小。便利抽样不适用于正式抽样,也不可用于对总体参数的估计,常用于正式抽样前的试测抽样。例如,调查员在街头、商店、公园等公共场所进行的拦截式调查即为便利抽样。
b.判断抽样是调查人员在抽样之前先进行主观判断,判断调查单位符合研究目的的程度,符合者选入样本中,不符合者舍去。使用判断抽样时,虽然总体中的单位不具有相同的中选概率,但有时会产生有效的抽样结果。例如,欲了解消费者对复读机的需求,可以调查一部分使用复读机的大学生,因为大学生是复读机的主要购买群体。
c.滚雪球抽样是调查人员在抽样过程中完全不考虑抽样的概率问题,首先选中一组调查单位对其实施调查,并根据该组调查单位提供的线索进行此后的调查,样本量如滚雪球式成倍增加。例如,欲对保姆进行调查,则首先调查A保姆,再由A保姆介绍另外若干名保姆并对其实施调查;这几名保姆再分别提供一部分保姆名单,如此便滚雪球般获得了足够的有效样本量。
d.配额抽样类似于概率抽样中的分层抽样,是非随机抽样方法中应用最广的一种抽样方法。所谓配额,是指按照某变量(如性别、年龄等)在总体中的实际分布比例来分配样本数量。配额抽样的最大优点是经济和便利,但配额抽样只管样本分配额度的完成,难以顾及额度分配中样本抽选的随机原则,所以不太适合正式抽样。
微课 :1%人口抽样调查
进行抽样方法的选择时,需要综合考虑研究的目的、研究所具备的条件和研究对象的特点等因素。
(4)重点调查。重点调查是从调查对象中选择一部分重点单位进行调查,以获得统计数据的一种非全面调查方式。重点单位是指在数量上只占调查单位总量的较小比重,而在调查的某项变量值上却占总体较大比重的单位。对这部分重点单位进行调查所获得的统计数据能够反映该项变量发展变化的基本趋势。例如,要了解全国钢铁产量的增长情况,只需要对全国为数不多的大型钢铁企业的产量进行调查,就可以掌握其基本情况。和抽样调查不同的是,重点调查取得的数据只能反映总体的基本发展趋势,不能用于推断总体,因而只是一种补充性的调查方法。此种方法的优点是所投入的人力、物力少,可以在短时间内收集到统计信息资料。一般来讲,当调查任务只要求掌握总体在某一方面的基本情况,而一部分单位又能比较集中地反映总体在这一方面的情况时,就可以采用重点调查方式。
(5)典型调查。典型调查是在对所研究对象进行全面分析的基础上,选择少数有代表性的单位进行深入、周密研究的一种非全面调查方式。典型调查也被称为“解剖麻雀”。典型调查的目的是通过对典型单位的调查来描述或揭示同类事物的本质和规律,因此选择的典型单位应具有所研究问题的本质属性或特征。例如,要研究工业企业的经济效益问题,可以在同行业中选择一个或几个经济效益突出的单位作为典型来做深入的调查,从中找出经济效益好的原因和经验。典型调查的特点是调查单位少,且调查单位具有代表性,便于进行深入、具体、周密的调查。典型调查和全面调查结合,既可以掌握全面情况,又可获得丰富、生动的典型材料。
2.统计调查的方法
确定了调查的组织方式,也就明确了调查的范围和需要调查的个体,接下来需要确定采集个体单位原始数据的具体方法。采集原始数据的方法有很多,可以归为3类:访问法、观察法和实验法,如图 2-2 所示。对社会经济现象进行调查通常采用访问法或观察法。实验法更多地用于对自然现象的研究,在社会经济现象的调查中应用得较少。
图2-2 统计调查的方法
(1)访问法。访问法是研究者通过与被调查者直接或间接接触来获得原始数据的一种调查方法。
① 访问法按访问的内容可以分为标准化访问和非标准化访问。
a.标准化访问又称结构化访问,是按照调查人员事先设计好的、有固定格式的问卷或表格有顺序地依次提问,由受访者做出回答的访问方法。标准化访问是一种对访问过程进行高度控制的访问形式,因此获得的调查结果比较可靠,也便于对访问结果进行统计和定量分析。但这种访问方法缺乏弹性,难以对问题进行深入探讨,也不利于充分发挥访问者和被访问者的积极性、主动性。
b.非标准化访问又称非结构化访问,它事先不制作统一的问卷或表格,没有统一的提问顺序,访问者出于一定的调查目的,按照一个粗线条的调查提纲进行访问,受访者自由回答。非标准化访问有利于充分发挥访问者和被访问者的主动性、创造性,有利于获得原设计方案中没有考虑的新情况、新问题。但这种方法对访问者的要求较高,对访问调查的结果难以进行定量分析。
② 访问法按访问的形式可分为直接访问和间接访问。
直接访问是访问者与被访问者进行面对面的访问,如面访。间接访问是访问者通过电话、计算机、书面问卷等中介工具对被访问者进行访问,如电话访问、邮寄问卷调查、网上调查等。
a.面访是指调查人员当面向受访者提出问题,受访者当场回答,调查人员现场获取所需资料的一种调查方法。面访根据一次访问人数的多少可以分为个人访问和小组访问两种。
个人访问有入户访问、街头拦截式访问等形式。
小组访问采用小型座谈会的形式,因此也称为小组座谈法。
面访的优点是面对面交流可以激励受访者的参与意识,因此可提高调查的回答率;同时由于调查员可现场解释问题,因此可提高调查数据的质量。面访的缺点主要有:调查成本较高;对调查过程的质量进行控制有一定难度,因为调查的数据质量与调查员的工作质量直接相关;调查需要的时间比较长。
b.电话访问是调查者通过电话向被调查者询问有关调查内容的一种调查方法。电话访问的优点是:速度快,能够在很短的时间内完成调查;回答率较高,一般能获得问卷提纲的多数回答;电话的普及使得访问者可以访问到较广泛的样本,且与面访相比费用更低;对访问过程的控制比较容易,因为调查员的工作地点都在一起,遇到问题可以及时解决。电话访问的缺点是:在电话拥有率不高的地方,以电话簿为抽样基础,所获得的样本容易失去代表性;电话访问的时间不能太长,故所获得的调查内容有限;空号、错号、拒访、不方便接听等情况使访问成功率降低。目前,电话调查正在向计算机辅助电话调查(Computer-Assisted-Telephone-Interviews,CATI)方向发展。CATI系统把计算机与电话访问连接起来,调查问卷被输入计算机,调查员在计算机屏幕前操作,计算机随机抽选出样本并进行自动拨号。调查员将调查结果输入计算机后,程序可以对录入的结果进行逻辑审核,调查员在调查过程中可以得到即时的调查结果统计,从而了解到样本的分布情况并及时做出调整。对于无法接受调查的情况,CATI系统可以自动记载下来,并在适当的时候提示调查人员进行重新调查。目前,在发达国家,使用 CATI 系统已经成为数据收集的最主要方法。随着我国电话拥有率的提高,电话访问在我国将有广阔的发展空间。
c.邮寄问卷调查是将设计好的问卷通过邮寄方式寄给被调查者,被调查者在没有调查员协助的情况下自己填写问卷完成调查,并将问卷寄回的调查方法。这是一种标准化调查方法,调查者与被调查者之间没有直接的语言交流,信息的传递完全依赖于调查表。其优点是调查区域广泛,调查费用低,可以避免调查员的主观偏差;缺点是回收率低,调查时间长,填写的问卷质量难以控制。随着电话、计算机、网络的普及与更快捷、有效的调查技术的使用,邮寄问卷调查的比例在下降。我国的市场调查极少采用邮寄问卷调查的方法,在欧洲,邮寄问卷调查所占的比例也远远低于电话调查和面访调查,主要是因为邮寄问卷调查具有上述局限性。
d.网上调查是指利用互联网进行数据调查的方法。随着互联网的快速普及,网上调查近几年得到了广泛的应用。网上调查作为信息时代的一种新兴的信息收集和处理方式,利用高效的互联网,可实现信息共享与信息的快速传递,极大地提高了调查效率,具有传统调查所不具备的很多优势。
网上调查的优势有以下几方面。一是方便。网上调查不需要派出调查人员,不需要印刷调查问卷,调查过程中最繁重、最关键的信息采集和录入工作可在众多网上用户的终端上完成,可以无人值守和不间断地接受调查填表,信息检验和信息处理由计算机自动完成。网上调查一般是在线封闭式填写,所以回答非常方便。二是费用低。对于传统调查方式,纸张、印刷、邮资、电话、人员培训、劳务及后期统计整理、分析等要耗费大量的人力和财力。通过互联网进行联机调查没有降低调查的基本费用,如设计调查问卷、分析调查结果等,但确实降低了调查实施的附加成本、接触成本及数据分析处理方面的费用。网上调查的初期费用仅包括组织核对E-mail地址、创建调查网页与数据库等方面的费用。网上调查没有座谈场地、访问场合的要求,可以简单地在网上实现。三是快捷、高效。传统的市场调查周期一般较长,网上调查利用覆盖全球的互联网弥补了这一不足。问卷一上线,在当天几乎就可以得到调查结果。网络可以对调查数据自动地进行多元整理、集中、计算和分析,即时自动生成各类网络统计报表,统计分析效率大大提高。四是无时空限制。这是网上调查所独有的优势。网络分布广泛,可获得的样本量大,网站可以全天接受调查填表。
网上调查也有以下不足之处。一是网络上的样本难以具有真正的代表性。互联网是一个极为开放的空间,任何人都可以参与。另外,上网者大多属于年轻、高收入、城市化和高学历的群体。因此,网上调查受网上受众特征的限制,所代表的群体可能是有限的。二是调查结果受制于调查对象。在互联网上,被调查者是在完全自愿的原则下参与调查。网上调查的问卷能否收回,取决于被调查者对调查项目的兴趣;问卷也可能被重复填答。这将在一定程度上影响调查结果的可靠性和样本的准确性。
(2)观察法。观察法是指研究者在自然条件下,通过感官或借助于一定的科学仪器,对被调查者的行为进行直接观察并记录以取得统计资料的调查方法。
观察法在市场调查中的应用如下。
① 对实际行动和迹象的观察,如调查人员通过对顾客购物行为进行观察,来预测某种商品的销售情况。
② 对语言行为的观察,如观察顾客与售货员之间的谈话。
③ 对表现行为的观察,如观察顾客谈话时的面部表情等身体语言。
④ 对空间关系和地点的观察,如对商品陈列、橱窗布置、所临街道的车流量、客流量情况的观察和记录。
⑤ 对时间的观察,如观察顾客进出商店以及在商店内逗留的时间等。
⑥ 对文字记录的观察,如观察人们对广告文字内容的反应等。
观察法直接记录调查的事实,尤其是被调查者的现场行为,因此获得的数据客观、准确、及时、生动。但它只能反映客观事实的发生过程,不能说明发生的原因和动机;有些调查所需时间较长,调查费用较用。
(3)实验法。实验法是指在实验中控制一个或多个变量,在有控制的条件下得到观测结果的一种统计调查方法。实验法的基本逻辑是:有意识地改变某个变量的情况(设为 A 项),然后看另一个变量的变化情况(设为B项)。如果B项随着A项的变化而变化,就说明A项对B项有影响。
实验法主要用于考察变量之间的因果关系,研究自变量对因变量的影响或效应。例如,其可用于研究商品的价格、包装、陈列位置等因素对销售量的影响,品牌对消费者选择商品的影响,商品的颜色、名称对消费者味觉的影响。此外,实验法还可用于测试各种促销方法的效果等。实验法通常采用以下两种方式。
① 变动商品因素。在同一市场条件下,分析人员首先对正常经营情况下的各个因素进行测量,然后测量变动某个商品因素(如价格、包装、广告等)后的情况,通过销售情况来测定该商品因素对购买行为的影响。
② 变动调查区域。市场形势的变化,商品购买力的变化及价格、消费心理、季节的变化等,都会不同程度地影响实验效果。如果在同一时间对不同区域的经营状况进行对比,就会大大提高实验效果。例如,同一类商品采用某种特定的包装形式分别在条件大致相同的两个公司试销,然后测量销售结果,就可了解这种包装形式对购买行为的影响。
三、练习题
1.选择题
(1)二手数据的特点是( )。
A.采集数据的成本低
B.数据搜集比较容易
C.数据可靠性差
D.不适合自己的研究需要
(2)原始数据的收集方法有( )。
A.实验法
B.抽样法
C.观察法
D.访问法
(3)下列调查方式中,不是按随机原则抽取样本的是( )。
A.分层抽样
B.系统抽样
C.整群抽样
D.判断抽样
(4)下列调查方法中,其结果可用于对总体参数进行估计的是( )。
A.判断抽样
B.分层抽样
C.便利抽样
D.系统抽样
(5)与概率抽样相比,非概率抽样的缺点是( )。
A.调查成本比较高
B.存在抽样误差
C.不适合探索性研究
D.不能用样本的结果对总体相应参数进行推断
(6)物业管理人员在居民小区内随机抽取了60户居民,调查其对小区物业服务的看法,采用入户填写问卷的方法。这种数据收集方法称为( )。
A.座谈会法
B.面访调查法
C.邮寄调查法
D.个别深度访问法
(7)对某省餐饮业从业人员的健康状况进行调查,调查单位是( )。
A.该省餐饮业的全部网点
B.该省餐饮业的每个网点
C.该省餐饮业所有从业人员
D.该省餐饮业每个从业人员
(8)对一批食品进行质量检验,最适宜采用的调查方式是( )。
A.全面调查
B.抽样调查
C.街头访问
D.问卷调查
2.简答题
(1)什么是二手数据?二手数据有什么作用?从什么角度评估二手数据?
(2)简述普查和抽样调查的特点。
(3)概率抽样和非概率抽样的方法各有哪些?
(4)数据收集方法有哪些?简述其优点和缺点。
3.综合应用题
(1)某咨询公司在为一个企业进行长期战略策划时,需要做一份潜在客户的地区性简介。该咨询公司希望找到各地区企业的信息,包括企业地址、产品名录、主要领导姓名、员工数量、销售情况等资料。该咨询公司该如何获得上述资料呢?请设计合适的调查方法。
(2)某汽车修理厂为了解消费者对其服务工作的满意度,对消费者进行了回访调查。具体办法是:把修理好的车交给消费者后的两天内,打电话对消费者进行回访。这种调查可以得到消费者对整个工作程序的评级。对低于平均水平的评分,访问者应当询问消费者为什么对其评分这么低。将评分按周、月、年进行汇总,以提供改进工作的目标。指出该调查中采用的调查方法。你是否有更好的调查方法?