第10讲习得性反射—奖赏与惩罚式学习_超图解心理学与生活-QQ阅读男生武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

第10讲习得性反射—奖赏与惩罚式学习

心理学家对于学习的研究主要是关注人类和动物学习行为的特征，解释有机体学什么、怎样学和为什么学，是对学习规律和学习条件的系统总结。

巴甫洛夫的狗——经典条件反射

在“望梅止渴”的故事中，曹操和他的将士在行军途中口渴难耐。曹操则告诉大家，不远处有梅林，梅子可以解渴。“梅子”一词起着信号作用，代表着梅子的形状、颜色、味道等，所以将士们听到后想起了梅子的味道，嘴里流出了口水，一时间就不口渴了。

狗的唾液反应

俄国生理学家巴甫洛夫为了研究唾液在消化中的作用，以狗为被试，把各种可食用或不可食用的东西放入狗的嘴里，然后观察狗唾液分泌的情况。通过研究，巴甫洛夫发现，狗在得到流质食物时只分泌少量唾液，而在得到比较干燥的食物时则产生大量唾液。这种在一定条件下分泌唾液的现象被巴甫洛夫称为“反射”（巴甫洛夫的发现，后来被称为经典条件反射）。

巴甫洛夫用于研究经典条件反射的设备

反射是一种对特定刺激自动发生的反应，不需要学习。同样地，人也具备这种在刺激下自动分泌唾液的反射。随着研究的继续，巴甫洛夫进一步发现，当食物还没有进入狗嘴而仅仅是闻到食物的气味时，狗就已经开始分泌唾液。一段时间之后，即便是在完全没有消化刺激的情况下，狗也会分泌唾液，例如给狗呈现喂食的容器或者让狗看到喂食的人，甚至仅仅听到喂食的人的脚步声，也会令狗产生这种反射。

无条件反射与条件反射

无条件反射不需要学习，先天具备而自动产生，并且同一物种的无条件反射大体相同。无条件反射的例子有：食物进入口中时人会分泌唾液，灯光熄灭后人的瞳孔会放大，听到巨大的声音时人会跳起来，等等。无条件刺激引起无条件反应形成了无条件反射。在巴甫洛夫的研究中，食物就是无条件刺激，而唾液分泌则是无条件反应。

条件反射则正好相反，它需要通过经验或学习获得，并且在同一物种的不同成员中可能存在很大的差异。巴甫洛夫实验室的狗听到脚步声时分泌唾液，或者人闻到牙科诊室的气味时会感到牙疼等，这些都是条件反射。条件反射的形成需要条件刺激，如脚步声（条件刺激）引起了狗的唾液分泌（条件反应）。

条件反射的特点与规律

消退条件反射形成以后，如果得不到强化就会逐渐削弱，直至消失。例如，狗对脚步声形成唾液分泌的条件反射以后，食物的强化使条件反射进一步巩固；如果只提供脚步声而不给食物，已经形成的条件反射就会消退。

泛化在条件反射形成后的初期，类似的刺激也会引起条件反应。如狗形成了对较重的脚步声的条件反应后，也会对较轻的脚步声做出相同的反应。新的刺激越接近原来的条件刺激，泛化现象越容易发生。

分化对事物差异的反应。例如，狗可以只对较重的脚步声做出条件反射，而对较轻的脚步声没有唾液分泌的反应。

斯金纳的老鼠——操作性条件反射

斯金纳箱是心理学研究中最巧夺天工的装置之一；通过这个装置，心理学家可以完全控制动物被试所处的环境，同时还可以观察动物的行为。

斯金纳箱

伯尔赫斯·弗雷德里克·斯金纳可以说是最广为人知、最有影响力的行为主义心理学家。虽然他不是行为主义心理学的先驱，但是他很好地发展了巴甫洛夫、华生等人的观点，并实现了在严格的实验监控下进行行为主义理论的研究，充分证明了他“激进行为主义”的立场——心理学研究依靠的是可观察的行为，而不是不可观察的思想。

从实验中斯金纳得出结论，行为的形成主要是通过动作的结果习得的。这一观点成为行为主义心理学的转折点。

斯金纳在研究期间，对老鼠进行了一系列实验，他在实验中使用的装置被称为“斯金纳箱”——在一只空的笼子或者箱子里，安置了一个用来放食物的碟子或托盘。斯金纳箱中装有一个特殊的杠杆，当放进箱内的老鼠每次按压杠杆时，碟子或托盘上都会出现食物颗粒。该装置可以自动记录按压杠杆的频率。刚开始，老鼠或许是出于好奇或者偶然按压了杠杆，一段时间以后，老鼠就会发现只要按压杠杆食物就会出现，于是为了得到食物，它们学会了主动按压杠杆。

斯金纳箱

操作性条件作用

根据斯金纳一系列的实验可以得出结论，动物的行为会受到它们的动作或周围环境带来的反馈的影响。当老鼠在斯金纳箱中探索周围的环境时，它们的某些动作带来了积极的结果，而这样的结果鼓励它们重复那种行为。斯金纳说，动物操纵着它的环境，而它的这种操作性行为（按压杠杆）又会受到带来积极影响的刺激（得到食物颗粒）的强化。为了区别于巴甫洛夫的经典性条件作用，斯金纳提出了“操作性条件作用”的说法。

与经典性条件作用不同的是，操作性条件作用依赖于产生的行为结果而不依赖于先前的刺激。两者间的另一个差别是，操作性条件作用不仅通过动作或行为操纵环境，同时也通过环境塑造着行为，也就是说，它是一个双向的过程。

在实验后期，斯金纳重新安排了老鼠获得食物的速率，他让一些老鼠只有在多次按压杠杆后才能获得食物，而按压的次数有的是固定的，有的是随机的。改变了老鼠获得食物速率后的实验同样得出了先前实验的结论，并且还有新的发现：当强化刺激使行为发生的可能性较大时，突然停止强化刺激，行为发生的概率就会随之减小，其模式取决于刺激撤销的模式。

桑代克的猫——试错学习定律

跟随着满意结果的反应，以后出现的概率会越来越大；而跟随着不满意结果的反应，以后出现的概率会越来越小。这种行为与结果之间的反应被称为效果律。

猫与“迷笼”

当巴甫洛夫在俄国致力于用狗做实验时，爱德华·李·桑代克（Edward Lee Thorndike）在美国也开始了动物行为的研究。最初，桑代克试图让鸡学习走他为了实验专门设计和搭建的迷宫。随着研究的推进，桑代克开始用猫为被试做实验，并发明了“迷笼”来观察猫学习逃跑的能力。

他把饥肠辘辘的猫关在迷笼中，让其探索迷笼中的环境。这时，猫会碰到各种装置，如铃铛、线绳或者按钮、面板，其中有一种装置连接着打开箱门的门闩。如果猫发现了这一装置，它就可以跑出来并得到食物奖励。桑代克多次重复这个过程，观察并记录猫每次打开迷笼门所用的时间。

实验中，桑代克把不同的猫放到一系列具有不同开门机关的迷笼中。桑代克发现，猫在第一次尝试和犯错后发现了逃跑的机关，随后的尝试和犯错次数会逐渐减少，因为猫学会了哪些行为可以获得奖赏，而哪些则是无效的。这项研究使用特别创设的环境，使被试在其中接受特定的刺激或任务，这就是“工具性条件作用”或“工具性学习”。这为后来的行为主义实验技术提供了品质保证。

猫的迷笼

效果律

根据这些实验的结果，桑代克提出了效果律，即当某种情境引发的反应带来了令人满意的结果，那么在未来这种反应再次出现的可能性会更高；当对一种情境的反应带来了不好的结果，那么在将来再次出现这种反应的可能性就会很小。桑代克认为，一旦刺激与反应之间建立了联结，大脑中就建立了对应的神经连接。这种学习被桑代克称为“联结主义”。

桑代克提出的效果律是所有行为主义心理学的基础。效果律说明了动物是通过加强行动与结果之间的连接来学习的；积极的结果更容易被动物记住，而消极的结果则会很快被它们忘记。

正强化与负强化：无益的行为被淘汰出局

在学习过程中，有的行为被保留，有的行为被淘汰，这些通常取决于行为的结果，即这项行为的结果是会获得奖励还是惩罚。因此，桑代克和斯金纳都认为，强化的作用会对行为的取舍产生影响。

正强化与负强化

桑代克认为，在尝试—错误学习中，行为的结果是影响学习的关键因素：正确的行为会保留下来，错误的尝试被放弃；正强化会促进行为，而负强化或惩罚会削弱行为，即桑代克提出的“效果律”。斯金纳也认为，部分行为不是由刺激情景引发的，而是有机体的自发行为，行为的结果是使行为得以巩固或再次出现的关键因素，即强化的作用。

斯金纳把“凡是使反应概率增加，或维持某种反应水平的任何刺激”都归为强化物。他把强化分为两种类型：正强化和负强化。无论是正强化还是负强化，其所引发的结果都是使行为再次出现的概率增加，使行为的发生得到促进。正强化是指环境中某种刺激增加使行为反应出现的概率增加；负强化是指环境中某种刺激减少后使行为反应出现的概率增加，通常情况下，负强化表现为一种让有机体力图回避的厌恶刺激。

强化的控制

斯金纳认为，强化方式是在行为实验中最容易控制、最有效的变量。在精确控制的实验情景中，实验者可以精确地决定使用哪一种类型的强化、如何给予强化和在什么时间给予强化。

强化可以细分为不同的类型，有连续强化和间隔强化、固定比例强化和变化比例强化、固定时间强化和变化时间强化等。

通过不同的强化作用，可以影响行为的习得、反应和消退的速度。

儿童是怎样习得攻击行为的

除直接的奖励和惩罚外，还可以通过简单地观察、模仿其他人的行为来塑造行为。

模仿

美国当代心理学家阿尔伯特·班杜拉（Albert Bandura）指出，儿童能够通过模仿成人而学会攻击行为。一个人要完成对他人行为的模仿需要经历四个阶段：注意、保留、复制和动机。模仿首先需要注意到某一要进行模仿的行为，然后模仿者会记住自己所观察到的行为，并且学会这种行为，最后他会在合适的动机或原因的驱使下再现这一行为。

“波比娃娃”实验

研究人员从当地幼儿园招募3~6岁的男孩女孩各36名，将这些儿童分为3组，每组24人（男孩12名，女孩12名）。第一组不安排成人榜样，作为对照组；第二组安排一名攻击充气波比娃娃的成人，并让儿童与这位成人接触；第三组安排一位平静地与娃娃玩耍的成人，并让儿童与这位成人接触。为了确保被试不受到同龄儿童的干扰，在实验中所有的孩子都单独进行测试。

实验过程中，第二组的儿童会观察到成人用木棍击打娃娃、把娃娃抛到空中、用脚踢娃娃、把娃娃扔到地上用脚踩等行为。接着，每个儿童都被安排到一个单独的房间，房间里除了波比娃娃外，还有其他一些玩具。结果发现，这一组的儿童会模仿成人对娃娃实施大量的攻击行为，有的儿童甚至还会使用自发性的攻击行为去击打娃娃。这一组的儿童对枪械玩具表现出了高度的兴趣。

第三组的儿童，即那些接触到平静成人的儿童，几乎不表现出任何身体和口头上的攻击行为。儿童会模仿自己看到的行为这一事实表明：的确存在通过观察和模仿来实现学习的过程。

儿童在不同情况下产生攻击反应的次数

注：上表记录了被试在不同榜样类型影响下采取不同类型攻击的次数。

通过波比娃娃的实验，班杜拉得出以下结论：

1．如果成人行为向儿童传递暴力行为被允许的信息，那么就会削弱对儿童发生的攻击行为的抑制。

2．当儿童以后遇到挫折时，更容易表现出攻击行为。

3．在世界大部分国家的文化中，攻击行为被看成是典型的男性行为，而不是女性行为，从而男性榜样的攻击行为对男孩的影响明显大于女性榜样的攻击性行为对女孩的影响。

小阿尔伯特的恐惧：泛化的习得行为

无论天性如何，任何人都可以被训练成任意的样子。

——约翰·B.华生

小阿尔伯特的恐惧

约翰·B.华生和助手从当地儿童医院挑选了一个9个月大的婴儿阿尔伯特进行了一系列的实验。尽管现在看来，华生的实验方法显得残忍且不道德，但在当时他进行的研究确实将从前的动物研究向前推进了一大步。

小阿尔伯特是研究人员和医护人员认为心理和生理上都很健康的婴儿。为了确定他是否害怕某种特定的刺激，实验者分别把老鼠、猴子、狗、白色羊绒棉以及有头发和没有头发的面具呈现在他的面前。通过观察小阿尔伯特的反应，研究者发现他对许多动物和物品都感兴趣，愿意接近甚至不时触摸它们，完全没有表现出任何的恐惧。我们可以把这些不引起恐惧的东西看作是中性刺激。接下来，为了确定阿尔伯特是否会对巨大的声音产生恐惧反应，实验者在阿尔伯特身后用锤子敲一根铁棒。结果，阿尔伯特被这种突然出现的声音吓得开始哭泣。

在阿尔伯特11个月大时，研究者向阿尔伯特呈现白鼠的同时还发出了令他恐惧的声音。原本对白鼠感兴趣的阿尔伯特只要伸手想要触摸白鼠，就会听到铁棒被突然敲响，突如其来的响声让阿尔伯特十分惊恐，这一过程重复了3次。一周后，重复同样的过程。经过7次白鼠与声音同时呈现后，即便没有敲打铁棒的声音，仅仅向阿尔伯特呈现白鼠，他也会感到恐惧。

一周后，再次向阿尔伯特单独呈现白鼠，他仍旧对白鼠产生恐惧。随后研究者呈现给阿尔伯特一种与白鼠相似的东西，如白兔、狗、白色毛皮大衣等，结果发现他对类似的东西也产生了恐惧。

由此可以得出结论：小阿尔伯特开始对其他刺激物产生恐惧，也就是说这种习得的行为已经泛化了，即对某种事物的恐惧是会迁移到其他事物上的。华生的研究证明了情绪是可以通过简单的刺激-反应手段而成为条件反应的。这一发现对行为主义的开创功不可没。然而，这项实验也饱受争议，有人指出其实验方法严重违反了人类行为研究中的伦理准则。

无限的可塑性

华生提出，可以把儿童看作“白板”。他还说，通过行为主义原理可以把孩子塑造成各种专家，无论是艺术家还是医生都能够实现，且不在乎孩子的天性如何。

他甚至在1924年所写的《行为主义》一书中写道：“给我一打健全的婴儿和能够用于培养他们的特殊环境，我就能保证，把随机选出的任何一名婴儿训练成任何类型的特殊人物，包括医生、律师、艺术家和商界领袖，或乞丐、小偷，而无须考虑他的天赋、爱好、倾向、能力、职业和种族。”

迷信的鸽子：非关联性强化

如果一个人的行为，被认知心理学家或人本主义心理学家或其他人认为是由我们高度进化的意识或智力所致，那么，这也许只是心理学家还没找到引发这一行为并使之维持的强化物。

迷信行为与斯金纳的假设

生活中不乏一些迷信行为，如忌讳从梯子下走过，忌讳踩到裂缝，随身带着一枚幸运硬币或其他护身符，在掷骰子的时候采用一种特定的方式，等等。可以肯定地说，每个人都会因为迷信做过某些事情。

斯金纳解释说，人们之所以会做出这样的行为，是因为他们相信或揣测迷信行为和某些强化性的结果之间存在一定联系，尽管实际上两者并不相关。而这种不存在的联系却被人们深信不疑，其原因是某种行为（如用某种方式掷骰子）得到了偶然的强化（如掷出一个好点数）一次或多次。斯金纳把这种联系称为非关联性强化。

人们会认为，迷信需要人们思考、辨别、推理，甚至可以说是一种信仰，所以迷信行为是人类所独有的。但斯金纳认为，从本质上来看，迷信行为与其他任何一种行为一样，都可以用操作性条件反射原理来解释。

斯金纳说：“如果你认为这是人类特有的行为，那么我将给你一只迷信的鸽子。”

6只迷信的鸽子

还记得斯金纳箱吗？斯金纳再次利用了这个装置，但这一次是为了研究迷信行为。为了这次研究，斯金纳对原有的装置做了一项改变：箱子里的食物被设置为每隔15秒自动落在盘子里。也就是说，无论箱子里的动物做了什么，都会在每隔15秒后获得食物。

这次研究的被试是8只鸽子。为了确保这些鸽子在实验中处于饥饿状态，研究者连续几天喂少于它们正常进食量的食物，以此增强鸽子寻找食物的动机（这增加了强化的效果）。接下来，研究者会让每只鸽子每天在实验箱里待几分钟，期间对其行为不做任何限制，只是每隔15秒食物会自动出现。几天后，观测者记录下每只鸽子在箱中的行为。

最终得到结果，其中6只鸽子产生了非常明显的反应：第一只鸽子在箱子中逆时针转圈，在两次强化之间转二到三圈；第二只鸽子反复将头伸向箱子上方的一个角落；第三只鸽子反复用头抬起一根看不见的杆；还有两只鸽子的头部前伸，从右边快速地摆动到左边，然后又慢慢地返回，它们的身子也顺势移动，有时由于动作幅度过大还会踉跄几步；最后一只鸽子做出啄击或轻触地面的样子，却不触及地面的行为。

鸽子的这些行为都是在建立条件反射后才出现的。事实上，鸽子所表现出的新行为与得到食物毫无关系。然而，它们表现得就好像通过那种行为就能得到食物似的——也就是说，它们变得迷信了。

第10讲 习得性反射—奖赏与惩罚式学习