第5章 测量效度
5.1 复习笔记
一、效度概述
(一)效度的概念
(1)效度是指一个测验或量表实际能测出其所要测的心理特质的程度。关于效度的概念,要特别注意以下几点:
①效度是一个相对的概念。这种相对性表现在两个方面:效度是相对于一定的测量目的而言的;心理特质是较隐蔽的特性。
②效度是测量的随机误差和系统误差的综合反映。
③判断一个测量是否有效要从多方面收集证据。
(2)一组测验分数的总变异包括三部分:真实的(稳定的)、与测量目的有关的变异;真实的、但出自无关来源的变异;随机误差的变异。
在测量理论中,效度被定义为:在一列测量中,与测量目的有关的真实变异数(由所要测量的变因引起的有效变异)与总变异数(实得变异数)的比率,即:
这里单位代表测量的效度系数,代表有效变异数,代表总变异数。
(二)效度与信度的关系
信度高是效度高的必要而非充分的条件,测验的效度受它的信度制约。
二、效度的估计
(一)内容效度
1.内容效度的含义
内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。估计一个测验的内容效度就是去确定该测验在多大程度上代表了所要测量的行为领域。
2.内容效度的应用范围
内容效度主要应用于成就测验,用来测量被试掌握某种技能或学习某门课程所达到的程度。在这种测验中,题目取样的代表性问题是内容效度的主要考察方面。内容效度也适合于某些用于选拔和分类的职业测验。这种测验所要测的内容就是实际工作所需的知识和技能,编制这种测验应首先对实际工作做较细的分析。内容效度不适合用于能力倾向测验和人格测验。
3.内容效度的确定方法
(1)逻辑分析法
内容效度的确定方法主要是逻辑分析法,其工作思路是请有关专家对测验题目与原定内容范围的吻合程度做出判断。其具体步骤是:
①明确欲测内容的范围,包括知识范围和能力要求两个方面。
②确定每个题目所测的内容,并与测验编制者所列的双向细目表(考试蓝图)对照,逐题比较自己的分类与制卷者的分类,并做记录。
③制定评定量表,考察题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差异,还要考察各种题目数量和分数的比例以及题目形式对内容的适当性,等等,对整个测验的有效性作出总的评价。
(2)统计分析法
克龙巴赫还提出过内容效度的统计分析方法。其具体方法是:从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关低,则两个测验中至少有一个缺乏内容效度;若相关高,则测验可能有较高的内容效度。
(3)再测法
还有一种判断内容效度的方法是再测法。这种方法的操作过程是:在被试学习某种知识之前作一次测验,在学过该知识后再作同样的测验。这时,若后测成绩显著地优于前测成绩,则说明所测内容正是被试新近所学内容,进而证明该测验对这部分内容而言具有较高的内容效度。
(二)结构效度
1.结构效度的含义
结构效度是指一个测验实际测到所要测量的理论结构和特质的程度,即测验分数能够说明心理学理论的某种结构或特质的程度。
2.结构效度的特点
(1)结构效度的大小首先取决于事先假定的心理特质理论。
(2)当实际测量的资料无法证实理论假设时,并不一定就表明该测验结构效度不高,因为还有可能出现理论假设不成立,或者该实验设计不能对该假设作适当的检验等情况。
(3)结构效度是通过测量什么、不测量什么的证据累积起来给以确定的,因而不可能有单一的数量指标来描述结构效度。
3.结构效度的应用范围
结构效度主要用于智力测验、人格测验等一些心理测验方面。
4.结构效度的确定方法
(1)步骤
①提出理论假设,并把这一假设分解成一些细小的纲目,以解释被试在测验上的表现。
②依据理论框架,推演出有关测验成绩的假设。
③用逻辑的和实证的方法来验证假设。
(2)结构效度的估计方法
①测验内部寻找证据法:可以考察该测验的内容效度;可以分析被试的答题过程;可以通过计算测验的同质性信度的方法来检测结构效度。
②测验之间寻找证据法:可以去考察新编测验与某个已知的能有效测量相同特质的旧测验之间的相关;也可以去考察新编测验与某个已知的能有效测量不同特质的旧测验间的相关;通过因素分析的方法来了解测验的结构效度。
③考察测验的实证效度法:如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类作为该测验的结构效度指标来推论测量的结构效度。这里有两种做法:
a.根据效标把人分成两类,考察其得分的差异。
b.根据测验得分把人分成高分组和低分组,考察这两组人在所测特质方面是否确有差异。若两组人在所测特质方面差异显著,则说明该测验有效,具有较高的结构效度。此外,对于一些被认为是较稳定的特质,若在短期内两次施测的结果差异不太大,则说明该测验符合理论构想。
④多种特质——多种方法矩阵法:该方法实质是相容效度和区分效度法的综合运用,其原理是若用多种极不相同的方法测量同一种特质相关很高(用极为相似的方法测量不同特质相关很低),则说明测量效度较高。
(三)实证效度
1.实证效度的含义
实证效度,也称效标关联效度,是指一个测验对处于特定情境中的个体的行为进行估计的有效性。即一个测验是否有效,应该以实践的效果来作为检验标准。被估计的行为是检验测验效度的标准,简称为效标。
2.实证效度的种类及作用
根据效标资料搜集的时间差异,实证效度可以分成同时效度和预测效度两种。
(1)同时效度:效标资料是与测验分数同时搜集的。同时效度主要用于诊断现状,在于用更简单、更省时、更廉价和更有效的测验分数来取代不易搜集的效标资料。
(2)预测效度:效标资料是在测验之后根据实际工作成绩来确定的。预测效度的作用在于预测某个个体将来的行为。
3.效标
(1)效标就是衡量一个测验是否有效的外在标准,它是独立于测验并可以从实践中直接获得的人们所感兴趣的行为。
(2)人们所感兴趣的行为往往是一个观念上的东西(观念效标),它必须用一个数字或等级来进行表达(效标测量)。其中,效标测量的特点有:多样性、复杂性、特殊性、时间性。
(3)效标测量要想较好地体现观念效标,效标测量本身就必须是有效的和可靠的,而且还必须客观、实用。
4.实证效度的确定方法
(1)实证效度的确定步骤
明确观念效标;确定效标测量;考察测验分数与效标测量的关系。
(2)实证效度的估计方法
①相关法:实证效度的一种常用估计方法是计算测验分数与效标测量的相关系数(积差相关法、等级相关法、二列相关法、四分相关法等)。
②区分法:该方法的思路是,被试接受测验后,让他们工作一段时间,再根据工作成绩(效标测量)的好坏分成两组。这时再回过头来分析这两组被试原先接受测验的分数差异,若这两种人的测验分数差异显著,则说明该测验有较高的效度。
③命中率:当用测验作取舍决策时,决策的正命中率和总命中率是测验有效性的较好指标。
a.总命中率是指根据测验选出的人当中工作合格的人数,以及根据测验淘汰的人当中工作不合格的人数之和与总人数之比。若总命中率高,则说明测验的效度高。这种测验在区别合格与不合格方面是有效的。
b.有些测验只关心被选者中合格者有多少,而不关心被淘汰者中是否有合格者。这时测验的效度应该用测验的正命中率来评价。正命中率是指测验选出的人中合格者所占的比例。
c.在评价一个测验的效度时,还要注意测验使用的功利率比例。
三、提高测量效度的方法
(一)影响测量效度的因素
凡是与测量目的无关的稳定的和不稳定的变异来源都会影响测量的效度。即测验本身的构成、受测被试的特点、施测的过程、阅卷评分、分数的转换与解释等一切与测量有关的环节都可能影响测量的效度。
1.测验的构成
当组成测验的试题样本没有较好地代表欲测内容或结构时,测量的内容效度或结构效度就必然会不高。若题目语义不清、指导语不明、题目太难或太易、题目太少或安排不当等,都会降低测量效度。一般而言,增加测验的长度可以提高测量信度,进而为提高测量效度提供了可能。测验长度与效度的公式如下:
式中是测验x增长至原来的K倍后,新测验与效标(y)的相关(效度系数);K为测验增长的倍数;为原测验的效度系数;为原测验的信度系数。
2.测验的实施过程
一个测验在实施过程中,如不遵从指导语的要求、或出现意外干扰、或评分计分出现差错,等等,都会降低测量效度。
3.接受测验的被试
(1)被试的应试动机、情绪、态度、身体状态等,都会影响测量信度,造成较大的随机误差,进而影响测量的效度。
(2)就整个被试团体而言,如果缺乏必要的同质性,则很可能会得到不恰当的效度资料。
4.所选效标的性质
(1)由于同一个测验可以有不同的效标,同一个观念效标也可以有不同的效标测量,所以在评价测量效度时,所选效标的性质是很重要的考虑因素。
(2)在考虑效标与分数的相关时,有一个因素是必须重视的,即测验分数与效标之间是否符合线性关系的问题。因为皮尔逊积差相关的前提之一是二变量间具有线性关系,否则会得出错误的效度结论。
5.测量的信度
测量信度是测量的随机误差的反映,而任何误差的增加都会降低测量的效度。所以信度不高的测验不可能具有很高的测量效度。
(二)提高测量效度的方法
要想提高测量效度,就必须设法控制随机误差、减小系统误差,同时,还要选择好特别恰当的效标,把效度系数准确地计算出来。提高测量效度的方法如下:
(1)精心编制测验量表,避免出现较大的系统误差。
(2)妥善组织测验,控制随机误差。
(3)创设标准的应试情境,让每个被试都能发挥正常的水平。
(4)选好正确的效标、定好恰当的效标测量,正确地使用有关公式。