2016年中央财经大学432统计学[专业硕士]考研真题及详解
一、单项选择题(每小题2分,共30分)
1.在重复抽样中,以下因素中不影响抽样平均误差的是( )。
A.抽样方法
B.总体的差异程度
C.总体单位数N
D.以上都不对
【答案】C
【解析】抽样平均误差反映所有可能的样本估计值与相应总体参数的误差程度。通常情况下,抽样调查中的抽样误差指的就是抽样平均误差。重复抽样情况下它受三个因素的影响:总体内部的差异程度、样本容量的大小和抽样方法;而在不重复抽样情况下它还受总体单位数N的影响。
2.以下反映集中趋势的测度指标中,易受极端值影响的是( )。
A.均值
B.中位数
C.众数
D.中位数和众数
【答案】A
【解析】众数、中位数和平均数都是用来度量数据的集中趋势的数值。众数是一组数据中出现次数最多的变量值,中位数是一组数据排序后处于中间位置上的变量值,二者都不受极端值影响。而均值是由一组数据相加后除以数据个数所得的结果,易受极端值影响。
3.调查了一个企业10名员工上个月的缺勤天数,有3人缺勤0天,2人缺勤2天,4人缺勤3天,1人缺勤4天。则以下说法正确的是( )。
A.中位数为2
B.中位数为2.5
C.中位数为4
D.众数为4
【答案】B
【解析】将题目中的数据从小到大排列得到:0 0 0 2 2 3 3 3 3 4。因为样本量为偶数,所以中位数等于中间两个数的平均值,即中位数=(2+3)/2=2.5。而众数是一组数据中出现次数最多的变量值,故该组数据的众数为3。
4.下面关于相关系数的陈述中,错误的是( )。
A.数值越大说明两个变量之间的关系越强
B.仅仅是两个变量之间线性关系的一个度量,不能用于描述非线性关系
C.只是两个变量之间线性关系的一个度量,不一定意味着两个变量之间一定有因果关系
D.绝对值不会大于1
【答案】A
【解析】相关系数用来衡量变量之间的线性相关关系,取值在-1至1之间,其绝对值越大表示两变量之间的线性关系越强,故A项错误,BD两项正确。相关关系不等于因果关系,C项正确。
5.关于数据标准化之后得到的Z分数,以下说法正确的是( )。
A.没有计量单位
B.服从正态分布
C.取值在0-1之间
D.取值在-1到1之间。
【答案】A
【解析】数据标准化即将各数据值减去该组数据的平均值之后除以该组数据的标准差,数据标准化后得到的z分数取值范围不确定。数据标准化只是对原始数据进行了线性变换,它并没有改变该组数据分布的形状,而只是将该组数据变为平均数为0、标准差为1的z分数。
6.一元线性回归方程的表达式为y(∧)=100-16.8x,判定系数等于0.81,则x与y之间的相关系数( )。
A.0.81
B.0.9
C.-0.9
D.0.9或者-0.9
【答案】C
【解析】在一元线性回归模型中,x与y之间的相关系数的平方等于回归方程的判定系数,且相关系数与回归方程的回归系数同号。
7.设X~N(µ,σ2)其中µ已知,σ2未知,X1,X2,X3为样本,则下列选项中不是统计量的是( )。
A.X1+X2+X3
B.max{X1,X2,X3}
C.
D.Xi-µ
【答案】C
【解析】统计量是不含未知参数的关于样本的函数,由于样本的取值是随机的,故它又是一个随机变量。题目中C项含有未知参数,故C项不是统计量。
8.对于任意两个随机变量X和Y,若E(XY)=EXEY,则以下正确的是( )。
A.D(XY)=D(X)D(Y)
B.D(X+Y)=D(X)+D(Y)
C.X和Y独立
D.X和Y不独立
【答案】B
【解析】D(X+Y)=D(X)+D(Y)+2Cov(X,Y),Cov(X,Y)=E(XY)-E(X)E(Y),由于E(XY)=E(X)E(Y),故B项正确;E(XY)=E(X)E(Y)不能推出变量X和Y是否相互独立。
9.设A,B为两随机事件,且BÌA,则下列式子正确的是( )。
A.P(A+B)=P(A)
B.P(AB)=P(A)
C.P(B|A)=P(B)
D.P(B-A)=P(B)-P(A)
【答案】A
【解析】由题设可知,事件B是事件A的真子集。则事件A发生或事件B发生的概率等于事件A发生的概率,A项正确。事件A发生且事件B发生的概率等于事件B发生的概率,B项错误。P(B|A)=P(AB)/P(A)=P(B)/P(A),C项错误。事件B-A即事件B发生但事件A不发生的概率为0,D项错误。
10.在假设检验中,分别用α,β表示犯第一类错误和第二类错误的概率,则当样本容量n一定时,下列说法中正确的是( )。
A.α减小β也减小
B.α增大时β也增大
C.α,β其中一个减小,另一个会增大
D.A和B同时成立
【答案】C
【解析】α和β分别度量犯第一类错误(弃真错误)和犯第二类错误(取伪错误)的概率。在样本容量n一定的情况下,二者是此消彼长的关系。
11.设总体X~N(µ,σ2),X1,…,Xn为抽取样本,则是( )。
A.μ的无偏估计
B.σ2的无偏估计
C.μ的矩估计
D.σ2的矩估计
【答案】D
【解析】总体方差的无偏估计应为样本离差平方和除以(n-1),由于题目中给出的估计量为样本离差平方和除以n,故它是总体方差的矩估计,D项正确。
12.设总体X~N(µ,σ2),σ2已知,µ未知,X1,X2,…,Xn是来自总体的样本观察值,己知μ的置信水平为0.95的置信区间为(4.71,5.69),则取显著性水平α=0.05时,检验假设H0:µ=5.0,H1:µ≠5.0的结果是( )。
A.接受H1
B.不能拒绝H0
C.拒绝H0
D.条件不足无法检验
【答案】B
【解析】该置信区间包含了在置信水平在0.95的条件下包含了总体均值µ=5,根据假设检验与区间估计一一对应的性质,可知本题选B项。
13.欲测定循环变动,根据时间序列乘法模型的原理需要从时间序列中( )。
A.减去长期趋势和季节变动
B.减去长期趋势、季节变动和不规则变动
C.除去长期趋势和季节变动
D.除去长期趋势、季节变动和不规则变动
【答案】D
【解析】时间序列模型包括长期趋势、循环变动、季节变动和不规则变动四个部分。在时间序列乘法模型中,要测定某种成分的变动,须从原时间序列中除去其他影响成分的变动。
14.以下哪一条不属于线性回归模型中的假设条件( )。
A.随机误差项服从正态分布
B.自变量之间不相关
C.随机误差项是同方差的
D.随机误差项之间不相关
【答案】B
【解析】线性回归模型的统计假设包括:①随机误差项为零均值、同方差且服从正态分布的变量,各随机误差项之间互不相关;②因变量y与自变量x之间具有线性关系;③在重复抽样中,自变量x的取值是固定的,即假定x是非随机的。
15.某县财政收入2013年比2012年增长12%,2014年比2013年增长16%,则2014年比2012年总的增长( )。
A.28%
B.29%
C.29.9%
D.30.5%
【答案】C
【解析】2014年相对于2012年的增长值为:[(1+12%)×(1+16%)-1]×100%=29.9%。
二、多项选择题(每小题2分,共10分。每题的备选项中,至少有两个符合题意,少选、错选、多选均不得分)。
1.欲抽查某生产线上一批罐装可乐的糖份,己知该生产线每天匀速运转10个小时,产量为1万罐,首先从生产线末端的第1到100罐中随机抽取1罐,而后每隔6分钟抽取1罐,直到抽取100罐为止,对这100罐进行检验。此种抽样方法属于( )。
A.简单随机抽样
B.整群抽样
C.概率抽样
D.配额抽样
E.等距抽样
【答案】CE
【解析】题目中涉及的抽样方法为典型的系统抽样方法等距抽样——先从数字1~k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k,…。而这种方法属于概率抽样方法,故CE两项正确。
2.使用同一组样本根据正态分布估计总体均值时,如果我们将置信度由95%调整为99%,则( )。
A.Zα/2将增大
B.Zα/2将减小
C.样本均值保持不变
D.置信区间宽度减小
E.置信区间宽度增加
【答案】ACE
【解析】由于使用同一组样本,故样本均值保持不变,C项正确。因置信度为(1-α)100%,故置信度提高时,α的值减小,z分数的上α/2分位数增大,从而置信区间宽度增大。
3.在SPSS中进行单样本的t检验,检验变量为职工工资,样本量为100,设定的检验值为2500。显著性水平α=0.05,则以下说法正确的有( )。
A.如果原假设为μ=2500,则检验的结论为不能拒绝原假设
B.如果原假设为μ≤2500,则检验的结论为拒绝原假设
C.如果原假设为μ≤2500,则检验的结论为不能拒绝原假设
D.如果原假设为μ≥2500,则检验的结论为不能拒绝原假设
E.如果原假设为μ≥2500,则检验的结论为拒绝原假设
【答案】ACE
【解析】当原假设为μ=2500时,检验p值=0.063>0.05,故不能拒绝原假设;由于t检验统计量取值<0,故当原假设为μ≤2500时,检验p值=1-0.063/2=0.9685>0.05,不能拒绝原假设;当原假设为μ≥2500时,检验p值=0.063/2=0.0315<0.05,拒绝原假设。
4.在二元线性回归中,样本量为n,则关于t检验与F检验的自由度以下正确的有( )。
A.t统计量的自由度为n-3
B.t统计量的自由度为n-2
C.F统计量的自由度为n-3
D.F统计量的自由度为1,n-2
E.F统计量的自由度为2,n-3
【答案】AE
【解析】对于有k个自变量的线性回归方程,样本量为n时,t检验的自由度为n-k-1,F检验的自由度为(k,n-k-1)。故AE两项正确。
5.某企业产品产量和单位成本资料如下表。
则以下正确的有( )。
A.丙产品的个体价格指数为83.3%
B.3种产品的拉氏销售量总指数为116.0%
C.3种产品的拉氏价格总指数为116.0%
D.3种产品的帕氏销售量总指数为101.8%
E.3种产品的帕氏价格总指数为101.8%
【答案】ABE
【解析】丙产品的个体价格指数等于其报告期单位成本比上基期单位成本,即2500/3000≈83.3%,A项正确。拉氏销售量总指数计算公式为,计算得到三种产品的拉氏销售量总指数为116.0%,B项正确;拉氏价格总指数计算公式为,计算得到三种产品的拉氏价格总指数为102.3%,C项错误;帕氏销售量总指数计算公式为,计算得到三种产品的帕氏销售量总指数为115.3%,D项错误;帕氏价格总指数计算公式为,计算得到三种产品的帕氏价格总指数为101.8%,E项正确。价格总指数以销售量为权数,销售量总指数以价格为权数;拉氏指数将作为权数的同度量因素固定在基期,帕氏指数将作为权数的同度量因素固定在报告期。
三、简答题(每小题8分,共40分)
1.试述单侧检验和双侧检验的区别。
答:(1)双侧检验的原假设的命题为μ=μ0的形式,它有两个拒绝域、两个临界值,每个拒绝域的面积为α/2;在双侧检验中,只要统计量在任意一个拒绝域,就可以拒绝原假设。
(2)单侧检验的原假设的命题为μ≤μ0或μ≥μ0的形式,它只有一个拒绝域和一个临界值,拒绝域的面积为α;在右侧检验中,拒绝域在右侧;在左侧检验中,拒绝域在左侧。
2.解释样本统计量抽样分布的含义。从一个单位数为N,均值为μ,方差为σ2的正态总体中,按照简单随机抽样方式无放回地抽取一个样本量为n的随机样本,则样本均值x(_)的抽样分布有何特征?
答:(1)样本统计量是根据样本数据计算出的关于样本数量特征的概括性度量,它是样本的函数。由于样本是随机的,故样本统计量是随机变量,样本统计量抽样分布就是统计量所以可能取值的概率分布。
(2)对于来自正态总体的样本来说,样本均值`X的抽样分布仍为正态分布,且在无放回即不重复抽样的情况下,`X的数学期望为μ,标准差为
3.在数据分析中经常需要考察数据分布的正态性。有哪些统计指标、图形和检验方法可以帮助我们判断或检验数据分布的正态性?
答:(1)统计指标方法——偏度。正态分布是关于X=µ的对称分布,故当一样本来自正态分布总体时,其概率密度曲线的偏度应等于0。
(2)图形方法——Q-Q图:当样本来自正态分布总体时,其Q-Q图中的点应该紧密分布在一条0-1之间的上升斜线附近;还可以通过观察各组数据的直方图对样本的分布作出直观上的判断。
(3)检验方法——K-S检验:可利用非参数检验方法K-S检验对样本的分布形态作出判断。
4.一个消防局收集了过去10年每周发生的火灾事故次数的数据,希望预测未来6个月中每周的火灾次数。请给出适用的统计分析方法,并分析预测中可能遇到的问题。
答:因题目中的数据为在一定连续时期上测量的观测值的集合,故采用时间序列分析的统计方法。联系实际可知火灾应多发于干旱高温或用火用电高频的季节,故在建立时间序列模型时,需要先估计出季节变动这一成分,从而可得到时间序列模型以对未来6个月中每周的火灾次数作出预测。
5.在19世纪40年代后期脊髓灰质炎疫苗出现之前,美国的公共卫生专家注意到脊髓灰质炎病例的增加与冰激凌和软饮料消费的增长相一致,不再消费冰激凌和软饮料甚至被推荐为应对脊髓灰质炎的饮食方案。试分析上述结论中的统计错误。
答:题目中的结论错将相关关系等同于因果关系。相关关系是指当一个变量取一定值时,与之相对应的另一个变量的值按某种规律在一定范围内变化;而因果关系是指一个事件的发生引起了另一事件的发生。脊髓灰质炎病例的增加与冰淇淋和软饮料的增长相一致,只能表明它们有正相关关系,不能因此认为它们有因果关系。
四、(8分)根据某足球俱乐部的门票收入(Y,百万欧元)的季度数据(2000年春季到2004年冬季),求得春、夏、秋、冬四季的季节指数分别为0.6、1.2、1.5、0.7,拟合的趋势方程为Y(∧)=2.5+0.1t(2010年春季t=1,2014年冬季t=20)。根据以上资料预测该俱乐部2015年四个季度的门票收入。
解:由于题设中给出的季节指数相加等于4,故该时间序列模型为乘法模型。
对于2015年的四个季度,t的取值分别为21,22,23,24。
根据拟合的时间序列趋势方程,计算得到:
2015年四个季度的长期趋势的拟合值分别为4.6,4.7,4.8,4.9,
再分别乘以各自的季节指数得到:
2015年四个季度的门票收入预测分别为2.76,5.64,7.2,3.43。
五、(每小题3分,共12分)为了研究某高校男女生考试成绩的差异,调查了一个课堂上男女生的考试成绩。
1.该课堂男女生的平均考试成绩和标准差如下表。根据表中的数据比较男女生考试成绩的相对离散程度。
根据样本数据对考试成绩进行两个独立样本的t检验。SPSS统计软件的输出结果如下表:
2.表中的F统计量为1.64,Sig.=0.21。这里F检验的原假设和备择假设分别什么?在5%的显著性水平下检验的结论如何?
3.输出结果中有两个t检验值。这里应该采用哪个t检验值得出结论?t检验的原假设和备择假设分别什么?检验的结论如何?显著性水平等于5%。
4.在t=-2.45,df=38时SPSS计算的Sig.(2-tailed)等于0.019。画一个示意图说明Sig.(2-tailed)的含义。
解:(1)男女生考试成绩的相对离散程度即离散系数cv=s/x(_)×100%。由表中数据可计算出男、女生考试成绩的相对离散程度分别为11.4%和11.7%。
(2)设两个总体的方差分别为σ12,σ22。此处F检验的原假设和备择假设分别为:
H0:σ12=σ22 vs H1:σ12≠σ22
由于F检验的p值=0.21>0.05,故不能拒绝原假设,认为两个总体的方差相等。
(3)由题2中的假设检验可知两个总体的方差相等,故应采用上面一行的t检验值。设两个总体的均值分别为μ1,μ2,则t检验的原假设和备择假设分别为:
H0:μ1=μ2 vs H1:μ1≠μ2
由于t检验的p值=0.019<0.05,故拒绝原假设,认为两个总体的均值不相等。
(4)
双侧检验下的P值=P(|t|≥|tobs|),即上图所示的阴影部分的面积。
六、(每小题4分,共12分)在一次研究中比较了A、B、C共3种汽车在相同行驶条件下的百公里耗油量(升)。研究中每种汽车进行了5次实验,用Excel对数据进行分析,输出的结果如下。
1.这是什么统计方法?使用这种方法需要哪些假设条件?
2.写出分析中的原假设、备择假设以及检验的结论和检验的依据(α=0.05)。
3.用SPSS进行多重比较的部分结果如下表,根据结果分析兰种汽车平均耗油量两两之间的差异是否显著(α=0.05)。
解:(1)对多个总体的均值进行假设检验,需使用方差分析的方法。
方差分析的统计假设包括:
①各总体都服从正态分布;
②各总体的方差相等;
③各观测值之间相互独立。
(2)设三个总体的均值分别为μ1,μ2,μ3,则原假设和备择假设分别为:
H0:μ1=μ2=μ3 vs H1:μ1,μ2,μ3不全相等
由表中结果可知F检验的p值约为0,故拒绝原假设,认为A、B、C3种汽车在相同条件下的耗油量有显著差异。
(3)由表中多重比较的结果可知:除了B、C两种汽车t检验的p值为0.2469﹥0.05外,其余t检验的p值都约为0。故认为只有B、C两种汽车的平均耗油量存在显著差异。
七、(8分)某工厂正常生产时,排出的污水中动植物油的浓度X~N(10,σ2),今阶段性抽取10个水样,测得平均浓度为10.8(mg/L),标准差为1.2(mg/L),从均值的角度分析该工厂生产是否正常?已知α=0.05,t0.025(9)=2.262。
解:设现阶段工厂污水中动植物油浓度的总体均值为μ。又令原假设和备择假设分别为:
H0:μ=10 vs H1:μ≠10
现阶段下检验统计量的观测值为:
因tobs的取值没有落在拒绝域内,故不能拒绝原假设,认为该工厂的生产正常。
八、(每小题4分,共12分)研究人员试图通过随机调查取得50名从业人员的性别、月收入和月消费支出数据,来建立居民消费支出的预测模型。分析中性别变量的取值为男性=1,女性=0。
1.根据得到的50组数据,用Excel进行回归分析(支出为因变量,性别和收入为自变量),部分结果如下。己知居民的平均支出为2188元,计算模型预测误差的离散系数。
2.根据以下结果写出回归方程的表达式,说明回归系数的含义,并计算月收入为3000元的女性的平均支出。
3.在回归分析中,我们通常需要对回归方程同时做t检验和F检验。这两种检验的目的有何区别?可以相互替代吗?
解:(1)模型预测误差的离散系数为:
cv=s/x(_)×100%=99.2477/2188×100%=4.536%
(2)根据回归结果,得到回归方程的表达式为:
变量X1的回归系数为0.64,其统计含义为:在性别相同的条件下,收入每上升1个单位,消费支出平均上升0.64个单位;
变量X2的回归系数为-413.86,其统计含义为:在收入相同的条件下,女性的消费支出平均比男性高413.86元。
(3)t检验用来检验回归方程中的某个回归系数是否显著;而F检验则用来检验回归方程中整体的显著性。二者只有在一元线性回归方程中才可以相互替代。
九、(每小题4分,共8分)某工厂对产品使用寿命进行检测,用不重复抽样方法从6000件成品中抽取240件对其使用寿命进行调查,测得样本平均寿命为4300小时。而前期研究表明总体标准差为720小时。请回答如下问题:
1.样本平均寿命的抽样平均误差是多少?
2.若其他条件不变,调整最大允许误差为70小时,按不重复抽样方法,至少应抽取多少产品作为样本?
解:1.样本平均寿命的抽样平均误差即样本平均寿命的标准差。
计算公式为:
已知:N=6000,n=240,σ=720,计算得到:
样本平均寿命的抽样平均误差约为45.54
2.最大允许误差的计算公式为:
已知:N=6000,σ=720,E=70。则在α=0.05的显著性水平下,可计算得到:
样本容量n=380.71,向上取整,应抽取381个产品作为样本。
十、(10分)设某人从外地赶来参加紧急会议,他乘火车、轮船、汽车或飞机来的概率分别是3/10,1/5,1/10和2/5。如果他乘飞机来,不会迟到;而乘火车、轮船或汽车来,迟到的概率分别是1/4,1/3,1/2。现此人迟到,试推断他乘哪一种交通工具的可能性最大?
解:令事件A1:乘火车;A2:乘轮船;A3:乘汽车;A4:乘飞机;事件B:迟到
则:
P(B)=3/10×1/4+1/5×1/3+1/10×1/2+2/5×0=23/120;
P(A1︳B)=P(A1B)/P(B)=(3/10×1/4)/(23/120)=9/23;
P(A2︳B)=P(A2B)/P(B)=(1/5×1/3)/(23/120)=8/23;
P(A3︳B)=P(A3B)/P(B)=(1/10×1/2)/(23/120)=6/23;
P(A4︳B)=P(A4B)/P(B)=(2/5×0)/(23/120)=0。
即已知此人已迟到的条件下,他乘火车的可能性最大。