心理测验的特征
经过严格开发和研究的心理测验有一些特征,它们不同于报纸或网站上“你是一个好的配偶吗”或者“你的性感系数是多少”之类的测验。一个好的测验不仅是一系列与所测变量相关的问题,它还应该是标准化的、客观的、基于常模的、可靠的和可信的。
标准化
标准化(standardization)是指实施心理测验的条件和程序的一致性。如果人力资源部门想要就同一个测验比较许多求职者的表现,那么所有的求职者必须在相同的环境下接受测验。这也意味着在测验中,每一个求职者都应该处于相似的物理环境,读到或听到同样的指导语,并且完成测验的时间相同。
测验程序中的任何变化都可能会导致个别测验表现的变化。例如,如果在夏天测验房间中的空调坏了,那么此条件下的受测者可能没有在舒适条件下的受测者表现得好。如果一个缺乏经验的、粗心的施测者没有向一组求职者阐述完整的测验指导语,那么其实这组求职者和其他求职者的受测条件是不同的。
测验开发者设计合适的施测程序,而施测者有责任维持标准化的测验情境,因此施测培训至关重要。如果施测者未受过培训或者粗心大意,一个优秀的测验可能会变得无效。计算机技术有助于标准化施测,它能够保证每个受测者在相同的情境下接受同样的指导语。
客观性
客观性主要是针对测验结果的评分。为了使测验评分客观,计分过程必须摆脱主观判断和计分者的偏见,即无论谁负责测验计分,最终结果必须是一致的。
在你的大学生涯中,你都接受过客观和主观的测验。在客观测验(objective tests)(例如多项选择题和判断题)中,计分是机械的,不需要专门的培训或专业知识。只要提供附有正确答案的计分标准,一名人力资源部文员,或者一名心理学院的学生,或者一个计算机软件都能够精确计分。
对于主观测验(subjective tests)(例如论述题)而言,计分相对更困难,它的结果会受到评分者个人特点(如是否喜欢受测者)的影响。因此,为了公平平等地评估求职者,更应该采用客观测验。
测验常模
要解释心理测验的结果就要建立参照系或参照点,由此每个人的表现才能和其他人进行比较。测验常模就可以实现这一要求。测验常模(test norms)是指与受测者同质的一大群被试的测验得分分布。这一群体的分数就是所谓的标准化样本(standardization sample),参照标准化样本,可以得知一位求职者的某一能力在一群求职者中的相对位置。
假设,一个高中毕业生申请一份要求机械操纵技能的工作,并且在机械操纵技能测试上获得了82分。单独看这一分数,我们不知道他技能水平高低,但是如果将82分同测验常模(大群高中毕业生在这一测验上的成绩分布)进行比较,那么我们能够得出个体分数的意义。如果测验常模的平均数是80,标准差是10,我们很快可以知道,获得82分的求职者在机械技能上只是一般或中等水平。有了这一可比性信息,我们才能够很好地客观评估该求职者相较于其他受测的求职者能够胜任该工作的几率。
那些广泛使用的心理测验都有一系列针对不同性别、不同年龄层次、不同种族民族和不同教育水平的常模。全面的常模能够确保测验在任何招聘过程中都具有有效性。
信度
信度(reliability)指一项心理测验结果的一致性和稳定性。如果一群求职者在一周前接受认知能力测试并且平均分数为100分,一周后再进行这个测试而平均分为72分,那么一定有些地方出了问题,两次测验结果很不一致,那么这个测验是不可信的。经过一段时间后再次施测,测验分数上发生微小的变化是正常的,但是如果分数波动太大,那么说明测验或者计分方法出错了。
重测法、复本法和分半法是三种确定信度的方法。重测法(test-retest method)是要求同一批被试先后进行两次施测完成同一份问卷,然后求这两次得分的相关。相关系数(在这种情况下即信度系数)越接近完美的+1.00(正相关),那么这个测验越可信。在实际选择用于选拔的测验中,该相关系数接近+0.70也能让人接受,但是理想上最好超过+0.80。然而,重测法有一些局限性,比如让应聘者花时间去完成两次测试是不经济的,而且学习效应(记得测试题)和两次测验之间产生的学习/练习经验可能会导致第二次测验分数更高。
复本法(equivalent-forms method)也是采用重测的方法,但是不同于使用同一测题的重测法,复本法在第二次测验上使用形式相似的测题。复本法的缺点在于要设计两套独立而又等效的量表既困难又费钱。而在分半法(split-halves method)中,测试项目被分为两半,只需要施测一次,然后计算这两个部分得分的相关性。这种方法和前两种方法相比,耗时少,也只需施测一次,受测者没有机会学习或者回忆题目,分数也就不会受到影响。
新闻聚焦
对于这份工作来说你太优秀了?
鲍勃·乔丹(Bob Jordan)想要成为康乃狄克州新伦敦市的一名警官。他申请了这份工作,完成了温德利人事测验(Wonderlic Personnel Test),但是没有得到任何面试通知。他确定他通过了测试——问题好像都很简单。当他听说和他同时申请的其他人已经被录用时,他去警局询问到底他的申请哪里出了问题。他被告知是因为他不符合成功警官的要求。难道他在测验中表现太差了?难道他的得分太低了以至于不适合接受培训?还是他太无能无法学会如何完成工作?不,鲍勃的问题是他的得分太高了。
太高了?他太优秀了?是的。温德利人事测验的常模提供一系列工作最合适的分数范围。如果你的分数太低,常模认为你缺少胜任这项工作的能力。如果你的分数太高,说明你太聪明了,你会很快厌倦这份工作并且辞职。根据测验手册:“只是单纯的雇用获得最高分的人反而会弄巧成拙。”鲍勃·乔丹得分是6分,对于这项工作来说他的得分太高了,因此不合适。
与副警长交流之后得到了更多的信息:“鲍勃·乔丹就是我们想要筛选出去的那类人,警察的工作很平凡,我们不是每个晚上都要处理枪战。”
当乔丹感到他受到不公平对待后,他很生气地做了任何美国人都会做的事情——他起诉警局,声称他由于自己的智力水平而受到歧视,但是法官裁决由于警察局对待所有高智力水平的人都是一样的,因此警察局没有歧视他。法官也指出,虽然警局取消乔丹面试资格的这一做法可能是不明智的,但是乔丹没有失去平等就业对他的保护,他现在的工作是狱警。
资料来源:Allen, M.(1999, September 9). Help wanted:The not-too-high-Q standard. New York Times.
效度
对于心理测验或者其他选拔方法来说,效度(validity)是最重要的。也就是说,测验或者选拔方法必须证明它能够测量出要测量的东西。工业与组织心理学家会考虑几种不同的效度。
效标关联效度。假设一名为美国空军服务的工业与组织心理学家开发了测量雷达员操作熟练度的测验。如果这个测验能够测量在工作中表现良好所需要的技能,那么这个测验就是有效的。确定效度的一种方法是计算测验分数与其他测量方法(如效标或者后续工作绩效)的相关。如果在雷达员熟练度测试上高分者在工作中表现好,而低分者在工作上表现不好,那么测验分数与工作绩效之间的效度系数很高,说明这一测验真实地测量了成为优秀雷达员所需的技能,能够预测员工之后的工作绩效。对于员工选拔测验来说,效度系数在+0.30至+0.40是可接受的。这种定义和建立效度的方法叫做效标关联效度(criterion-related validity)。它不涉及测验本身的特性和性质,而是涉及测验分数与之后工作绩效的关系。
两种建立效标关联效度的方法分别是预测效度和同时效度。预测效度(predictive validity)是用新测验对所有求职者施测,而且不管测验得分是多少,都雇用所有的求职者,工作一段时间后,通过产量指标或者上级评估等一些工作绩效的测量方式去评估员工,得到他们的工作绩效分数,再对测验分数与绩效分数进行相关分析,看该测验能在多大程度上预测工作的成功。多数企业管理层往往不愿意使用这种方法,因为肯定会有一部分被雇用的员工是低绩效的。
同时效度(concurrent validity)在管理层中更受欢迎。它是指对在职员工进行测验,计算其测验分数与工作绩效的相关性。这种方法的缺点是仅仅对在职员工施测,而低绩效的员工可能早就自动离职、被解雇、降职或转岗,大部分效度样本是优秀员工。通过同时效度的方法很难确定这个测验是否真正区分了高绩效和低绩效员工。
同时效度的另外一个问题是求职者与在职员工相比动机不同,因此在心理测验上的表现也会不同。比起对于自己的职位感到安全的在职员工,求职者可能有更高的动机想要在应聘测试中有好的表现。
在建立效标关联效度时常用的工作绩效标准是上级对员工目前工作进行打分。工作绩效评估中,打分是一种常用的方法(我们会在第5章讨论绩效评估)。
理性效度。工业与组织心理学家对理性效度(rational validity)同样感兴趣,理性效度和测验的性质、特点、内容相关,与后续工作绩效等测量结果无关。在一些雇用过程中,有些公司可能会因为规模太小无法承担高昂耗时的检验效度过程,或者由于目前的工作是个新职业,建立效标关联效度不可行,这时候就可以采用理性效度。例如在美国最初选拔飞行员时,没有工作绩效结果可以与测验分数进行相关研究。
两种建立测验理性效度的方法分别是内容效度和构念效度。在内容效度(content validity)方面,我们需要评估测验的项目,确保它们都是测验想要测量的知识技能的代表性样本。通过工作分析,即考察测验题目是否和工作中需要的能力相关,就能完成这一评估。例如,在文字处理工作中,关于文字处理软件的测验题目是和工作相关的,而有关音乐能力的测验题目是和工作无关的。在课堂上,如果教授告诉你们将对前三章内容进行测试,那么其他章节知识就不是内容效度考虑的范围。
构念效度(construct validity)力图找到测验想要测量的心理特质。我们怎么能够知道一套为了测量智力、动机或者情绪稳定性而发展起来的新测验是否真的测量了它要测的特质呢?获得构念效度的一种统计学方法就是比较新测验的分数与已有的测量相同特质的测验分数的相关程度。如果相关系数高,那么我们就可以说这个新测验测量了它要测的特质。
表面效度。表面效度(face validity)不是一个统计量,而是关于测试题目与工作要求的相关程度的主观印象。飞行员在接受机械或者航行的测验时不会感到奇怪,因为他们认为这些测验的题目和他们在工作中的表现直接相关。而当被问到他们是否喜欢自己的父母或者是否开灯睡觉时,他们在回答上会有所犹豫,因为这些问题虽然可能和情绪稳定性有关,但是好像和驾驶飞机无关。如果一个测验缺少表面效度,那么求职者可能不会认真对待它,这可能会导致他们的测验成绩降低。
最好的心理测验应该在他们的使用手册上写明效度研究结果。如果没有这一信息,人力资源或者人事经理在使用这一测验选拔员工时,会质疑测验是否确实测量了要测的特征和能力。虽然获得测验效度信息要花费很多,但是合理的效度考察程序会带来更多的收益。
效度概化(1)。工业与组织心理学家过去宣扬“情境特异性”原则,认为在每一个情境中,即在需要进行招聘的每个组织的每个工作岗位上,都应检验测验的效度。测验具有不同效度,也就是说某一测验在一家公司中用来选拔实验室技术人员是合适的,但在另一家公司不一定有效。因此,无论测验在其他相似的工作招聘中的效度有多高,只要没有确定测验在某一特定情境下的效度,就不能证明它在这一情景下可以有效选拔员工。
然而,效度概化(validity generalization)慢慢取代效度的情境特异性这种理念。基于之前效度研究的元分析,工业与组织心理学家得出这样一个结论:测验在一个情境中有效可能在另外的情境中也有效。换句话说,一旦在某一情境下确定了测验的效度,那么在其他情境下效度也是普遍存在的。
工业与组织心理学会(SIOP)支持效度概化的观点。美国国家科学院也认可这一观点,将其列入美国心理学会教育与心理测验标准之中。效度概化不仅在使用测验中被接受,在使用履历调查、评价中心、面试、诚信度测试等其他选拔方法中都被广泛接受。许多大型公司和政府机构都将效度概化的理念应用到它们的选拔项目中。
效度概化作为一种员工选拔技术,对心理测验具有重要的实践意义。组织已经意识到如果测验不再需要对每个职位的每个层级进行昂贵的效度检验程序,那么它们可以通过使用心理测验去提高选拔的效率,而且还省时省力。