第二节 绩效考核的研究进展
Journal of Applied Psychology(简称JAP)作为管理学科知名期刊,近百年来为各界人士理解绩效考核做出了实质性的贡献。基于绩效研究的时间线和发文数量,我们认为,绩效考核的研究分为萌芽期、发展期、全盛期和成熟期四个阶段。
第一阶段,绩效考核研究萌芽期(1920年以前)。19世纪末至20世纪初,就已经有组织开展绩效考核工作,但尚未形成理论研究体系。
第二阶段,绩效考核研究发展期(1920—1970年)。绩效考核的心理学研究发端于20世纪20年代,Thorndike在《心理评级中经常出现的偏差》一文中提出了晕轮效应[5]。在之后有研究指出“图形评分法”尤其容易出现这类偏差。这些研究推动了自那以后至少50年的绩效考核研究[6][7]。1970年之前,JAP期刊上发表了94篇主要涉及绩效测量或绩效考核的文章,但大多数文章研究的主题是评级方法和减少评级“偏差”的方法。
第三阶段,绩效考核研究全盛期(1970—2000年)。在此期间,JAP期刊上发表了187篇相关文章,其中与绩效考核相关的评级方法研究、评级有效性研究、培训研究、认知过程研究等是主要话题。Denisi和Murphy通过分析全盛时期(1970—2000年)发表在JAP期刊上的绩效考核相关研究的文献,主要发现了三个研究趋势:第一,量表研究非常流行,尤其是在1970—1979年期间(占这一时期发表的绩效考核文章的40%以上)。量表研究有助于推动绩效考核领域的发展,但是有学者指出了量表格式研究的低效性,并呼吁暂停对量表格式的研究[8]。第二,从20世纪80年代开始,逐渐出现对评分标准的研究(如评估者主观偏差、评估标准一致性、评分准确性等)。虽然部分观点有偏差或误导,但这些研究帮助我们理解了,为什么减少评级偏差不是评估系统的最终目标。第三,20世纪80年代,对评估绩效认知过程的研究大幅增长。然而,自1990年开始,绩效考核中的认知过程研究大幅下降,因为学者们越来越关注绩效考核实践[9]。尽管如此,这些研究对我们理解如何评估绩效做出了贡献,并为改进组织中的绩效考核提供了有用的建议(例如,行为日记)[10]。
第四阶段,绩效考核研究成熟期(2000年以后)。研究视角逐渐从绩效考核转向绩效管理。
为了更好地探讨关于绩效考核研究的进展,Denisi和Murphy将绩效考核的相关文章分为了八个类别,分别是评级方法研究、评级数据质量研究、评估者培训研究、评估反应研究、评估目的研究、评级来源研究、人口影响因素研究、认知过程研究[11]。本节将以此分类及相关内容为依据,探讨关于绩效考核的八类研究进展。
一、评级方法研究
回顾关于绩效考核评级方法的研究历程,可以发现,从绩效考核研究萌芽期伊始,人们就已经提出了不同的评估方法,并应用于实践中。学者Thorndike和Rugg为20世纪20年代以后50多年的绩效考核研究奠定了基础[12][13]。在20世纪20—30年代,评级方法研究主要涉及改进图表评价等级或排序法的方式[14]。此后,Knauft提出了使用加权清单来评估绩效的想法[15],这项研究引入到员工行为列表中,其他寻求进一步改进的研究紧随其后[16]。但清单领域最重要的发展是关键事件法的引入,Flanagan在Personnel Psychology 期刊上发表的一篇文章中介绍了这一方法,后来在Psychological Bulletin期刊上发文进行了详细阐述[17]。强制分布法的综述发表在Psychological Bulletin期刊上[18],随后这种评级方法因Sisson[19]及Berkshire和Highland[20]的文章而流行起来,一些学者在JAP期刊上发表的文章中提出了改进方法[21][22]。1963年,Smith和Kendall[23]的经典文章基于关键事件法,采用了Champney[24]提出的量表评分法来制定绩效考核量表,这种方法通常被称为行为锚定评分法。学者们普遍认为,行为锚定的使用为考核维度和不同绩效水平提供了明确的定义和一致的参考框架。Blanz和Ghiselli[25]在Personnel Psychology期刊上发表的文章指出,要求评估者确定被评估者的表现是好于、差于还是大致等于行为标准的绩效水平。后来Saal[26]将这种方法引入评分系统中。
Landy和Farr在Personnel Psychology期刊上发表了一篇关于绩效考核研究的综述,他们认为,量表格式的变化对评级数据的质量只有适度的影响[27]。可以说,这篇综述标志着绩效考核当时主流研究路线(寻找能够解决主观性、不准确性和缺乏可信度等问题的量表)的终结,这些问题长期以来一直导致人们对绩效考核领域的担忧。之后,只有少数学者继续研究绩效考核的评级方法。
二、评级数据质量研究
许多绩效考核研究都与考核评级数据的质量有关,即数据质量影响绩效考核的可靠性、有效性或准确性。第一,可靠性。比如,Rugg使用可靠性测量评级系统的质量[28]。如果一个系统能产生可靠的评级,那么它就是“好的”[29],如果它能以更少的时间和精力产生同样可靠的评级,那么它就是“更好的”[30]。第二,有效性或准确性。在1920年~1970年期间,从JAP期刊发表的第一篇绩效考核的文章开始,学者们提出了“三位一体”的评估者偏差(晕轮效应、宽大效应/严苛效应、居中趋势)[31]。有部分学者试图更直接地评估评级的准确性,例如,Mullins和Force假设实际评估与测试分数接近的评估者更准确[32]。Wiley和Jenkins 将单个评估者的评分与许多评估者评分的平均值进行比较,并认为最接近平均值的评估者更可信[33]。Borman开发了一种评估评分准确性的方法,该方法将单个评估者的评分与在最佳评分条件下工作的多个专家评分的平均值进行比较[34][35]。在实践中,这种方法需要严格控制被评估的因素,通常包括让受试者和专家对录像的表演片段进行评定。在20世纪80年代,大量发表在JAP期刊上的文章应用了这些方法。这一领域的研究者指出,传统的评估系统有效性标准存在问题,尽管随后的研究表明,评级准确性可能不是最好的测量标准,但这条研究路线将我们从传统的偏差测量引向准确性测量,并最终引向对公平性和准确性感知的测量。
三、评估者培训研究
在JAP期刊中,Levine和Butler首次描述了评估者培训计划。他们使用了多种培训方法,比如向评估者讲述评估者偏差的本质,并告诫评估者要避免这些偏差[36]。这种培训在某种意义上说是有用的,它意味着较少的晕轮效应和宽大效应。例如,在对评估者错误的讨论中,加入对评估方法中行为锚的描述,增加关于准确记录行为的培训等方面的详细讨论[37][38]。之后,Borman提供了一种评估者培训方法,即参考框架(Frame of Reference,简称FOR)培训[39]。他向评估者展示绩效相关的录像带,让评估者给录像带评分,然后讨论每个候选人最合适的评分(“真实分数”)及为什么合适。Bernardin和Buckley[40]正式引入了FOR培训的概念,Woehr[41]将其定义为包括绩效维度、代表每个维度的行为事件样本、代表每个事件样本绩效水平的指标组合,然后使用这些指标组合进行实践并获得反馈。之后有关FOR培训的研究,为评估者开展有效的工作绩效管理提供了理论依据[42][43][44]。
关于评估者培训的研究,主要包括两大主题:第一,如何培训评估者;第二,如何确定培训的有效性。结果是,前者比后者取得了更大的进展。学者们一致认为,培训评估者不要做什么(例如,培训评估者如何避免犯错)是无效的;而培训什么代表“好的绩效”和“差的绩效”是有效的。
四、评估反应研究
直到20世纪70年代,很少有关于绩效考核反应的研究,仅有的研究主要集中在被评估者的满意度和公平感上。关于公平感的研究可以看到Landy等学者的研究结果,他们发现,“确定改善目标”、“频繁地评估”和“评估者的知识”是感知公平性和评分准确性的重要预测因素,保持反馈来源的一致性也很重要[45][46]。之后Levy和Foti的元分析报告表明,员工各种形式的参与度与其反应程度高度相关,报告还表明公平感在这一过程中的重要性[47]。同时,也有文章关注了对公平的感知在绩效考核反应中的作用[48]。我们认为,对考核反应的研究非常重要,其与评级偏差研究相结合,有助于推动将绩效考核结果运用于人力资源管理活动中。总之,公平感已经成为后来的绩效管理模型的重要组成部分,它也是今后研究的一个重要领域。
五、评估目的研究
绩效考核通常用于多种目的,这些目的会导致评估目标冲突[49]。已有研究表明,使用评级的目的会影响所寻求的信息种类及如何使用该信息来做出决策[50][51];尽管组织在评级时有目的,但评估者在评级时也有自己的目的和目标[52];评估者在评级时的目标会影响评价的性质。但总体而言,这项研究对绩效考核的实践产生的影响不大,因为很少存在组织出于多个不同目的而进行的绩效考核。
六、评级来源研究
绩效考核通常从主管处获得信息来源,但学者们很早就认识到,可以利用其他信息来源(例如,下属、员工个人)进行绩效考核。早在20世纪40年代,Ferguson通过同事、主管和下属等信息来源制定评估标准,但他没有同时从这三个来源获得绩效考核的信息[53]。Springer第一个提出“主管人员和员工的评分是否一致”的问题,并在JAP期刊上发表文章,他发现,同事和上司对相同维度的评分结果存在正相关关系,这为后续的研究奠定了基础[54]。这项研究在推动多来源或“360度评估”(即从多个来源收集反馈进行评级的系统)方面产生了很大的影响。关于评级多来源的研究结果存在一定的分歧,学者London和Smither认为,来自多个来源的反馈信息可能会影响后续的目标和绩效[55];但Greguras和Robie的研究表明,没有一个评级信息来源显示出了高水平的可靠性[56];而Seifert、Yukl和McDonald建议提供辅助方法以提高这些方案的有效性[57]。
针对评级来源的研究经历了一系列阶段,首先是关于是否可以从多个来源获得绩效考核的信息;其次是关于这些来源的评级是否具有可比性;最后是关于多源反馈是否有效。
七、人口影响因素研究
长期以来,绩效考核可能受到种族、性别或年龄等人口统计特征的影响,这种可能性被认为是“就业歧视”的潜在来源。在早期发表的一项关于绩效考核的种族差异的研究中,Dejung和Kaplan发现黑人评估者偏爱黑人被评估者,但白人评估者不偏爱白人被评估者[58]。后续也有相关研究得到了类似的结果[59]。然而,这些实验室研究的结果高估了人口统计学特征在评估过程中的影响。Wendelken和Inn认为,在实验室研究中,人口统计学特征的差异尤其显著,因为在这些研究中,评估者的其他特征受到严格控制,评估者未经训练,对被评估者事先没有了解,也与被评估者没有关系[60]。Murphy等学者的元分析证实,实验室研究确实比实际绩效的研究产生更大的影响[61]。基于以上研究,Denisi提出,在某些情况下(尤其是实验室研究)人口统计特征会影响绩效考核,但这些变量不会对绩效考核产生很大的影响[62]。年龄、性别或种族等特征会影响组织中发生的许多事情,但绩效考核的结果似乎不会受到这些人口统计特征的强烈影响。Bowen、Swim和Jacobs的元分析表明,尽管不同性别、不同民族的成员在绩效考核方面存在一些差异,但这些差异通常很小[63]。究其原因,Denisi认为,有可能随着时间的推移,人们获得了关于绩效的信息,这些信息最终会淹没在那些会影响判断的、产生刻板印象的、信息不丰富的环境中。但是,目前这还只是一个假设,有待进一步检验。
八、认知过程研究
关于认知过程研究的文章主要集中在20世纪80年代,一些综述和理论文章激发了学者们对绩效考核认知过程的兴趣。在接下来的10~15年间,大量的研究(主要是实验室研究)在JAP期刊上发表,主要涉及绩效考核信息的获取、组织和编码,以及这些信息的回忆和整合。已有研究考察了评级目的[64][65]、评估者影响[66]及个体差异[67]在认知过程中的作用,并发现记录行为日记可以帮助回忆编码[68]。还有研究者发现,在观察行为之前,评估者大脑中存在的类别会影响回忆中信息的组织[69],评估者组织信息的模式影响了所关注的内容和后来回忆的内容[70],因此,实际观察和回忆的内容可能会影响准确性[71]。有趣的是,这些发现与FOR培训相关,表明该培训可以引导评估者采用一组一致且适当的类别来组织信息,从而提高回忆和评估的准确性[72][73]。值得注意的是,尽管在涉及认知过程的少数几个领域研究中,已证明了,日记和结构化回忆任务的类似效果[74],但评估绩效考核的准确性与观察和编码行为的准确性基本无关[75]。此外,许多研究表明,行为回忆受到一般印象和总体评价的强烈影响[76],甚至还受到基于行为的评级量表中使用的锚的影响[77]。更为关键的是,这些影响可能会胜过评估者对具体行为的实际回忆[78]。
总之,认知过程影响绩效考核结果的准确性,认知过程研究对绩效考核做出了决定性的贡献,它考虑了评估者获取、处理和检索绩效信息的方式。另外,这一系列研究主要集中在20世纪80年代,但到20世纪90年代中期急剧减少。这种转变在一定程度上是由于人们认识到,绩效考核是一项发生在复杂环境下且要求较高的任务。