开学才两个月,我们就已经看到了APer们对AP心理这门科目深深的吐槽...?
AP心理看似很有趣很容易,结果学起来发现知识点背到天荒地老,最后才考个4分?
还记得巴甫洛夫的狗吗?上一期我们一起了解了关于classical conditioning(经典条件反射)的概念:
环境中的某些刺激(unconditioned stimulus, 如肉)可以自动地触发生物体的反射反应(unconditioned response, 如狗流口水)。在此基础上,通过建立起这些刺激和其他刺激物(conditioned stimulus, 如铃声)的联系,生物体就能够学会对不同的刺激做出反应。
今天,我们将要来聊一聊另一种学习的方式——operant conditioning(操作性条件反射)。
本文目录
⊙Skinner Box
⊙Definition of Operant Conditioning
⊙Schedules of Reinforcement
01、Skinner Box 斯金纳箱
在给出operant conditioning的定义之前,我们先来了解一种叫做Skinner Box(斯金纳箱)的装置。
Classical conditioning的概念出现后,行为主义心理学家B.F. Skinner认为它有很大的局限性:毕竟狗流口水是在进行conditioning之前就存在的行为,不管它是看到肉还是听到铃铛声流口水,它的行为并没有发生任何的变化啊!
也就是说,classical conditioning并不能解释新的行为的习得,比如让小狗学跳舞。为了解释行为的变化是如何产生的,Skinner提出了一种理论,他认为我们的行为所导致的结果会影响我们的行为。
Skinner的理论基础来自于另一位心理学家Thorndike所提出the law of effect:我们更愿意去多做那些带来好的结果的事情,而更少去做那些带来负面结果的事情。
比如,因为好好复习AP心理和认真读这篇推送可以帮助我们在5月的考试中取得5分(hopefully!),所以同学们就会投入更多的时间复习AP心理和阅读我们的优秀推送!
【非重点概念】
The Law of Effect: behaviors that are followed by consequences that are satisfying to the organism are more likely to be repeated, and behaviors that are followed by unpleasant consequences are less likely to be repeated (Thorndike, 1911).
不常考,只是为了辅助大家的理解~
口说无凭,Skinner需要通过严谨的科学实验去验证他的理论,而他的实验的一个重要组成部分就是他所发明的Skinner Box。这是一种特殊的装置,它一般含有一个控制杆(bar/lever),箱子里的动物在按压这个杆子后,动物就可以通过一个窗口获取食物或者水。
【重点概念】
Skinner Box: a special contraption which has a way to deliver food to an animal and a lever to press or disk to peck in order to get the food.
小白鼠进入Skinner Box以后,这摸摸、那瞅瞅,在它无意间按到控制杆的时候,它惊奇地发现居然会有水和食物的出现哎!它再试探性地按了按,好家伙,又出现了水和食物!
于是,在不断的重复和试探中,小白鼠逐渐建立起了按控制杆和出现水及食物之间的关系,导致它按压控制杆这个行为发生的频率不断增加。这就很好地应证了Skinner提出的后果可以对行为产生影响的理论。
02Definition of Operant Conditioning操作性行为反射
有了前面的铺垫,operant conditioning的定义就很好理解了,它指的就是这样一种学习方式:生物体将行为(behavior)与行为所导致的结果(consequence)联系起来,取决于这个结果是正面的或者负面的,从而更多或更少地去做这个行为。
【重点概念】
Operant Conditioning: a kind of learning based on the association ofconsequences with one’s behaviors.
Operant conditioning有两种类型:reinforcement(强化)和punishment(惩罚)。区分它们非常简单,我们既可以通过行为所导致的结果的好坏,也可以通过行为发生频率的变化判断:
不知道大家小时候有没有这样的经历,父母为了鼓励孩子做家务,会“明码标价”每项家务的“工资”,比如扫个地10元、洗碗15元、洗衣服12元之类的,小朋友就屁颠屁颠地去做家务了,因为可以领零花钱,这就是一个reinforcement的例子:小朋友做家务→可以领钱→领钱让小朋友快乐→小朋友做家务做得更多。
不过,这么做的风险是可能会挫伤孩子的intrinsic motivation(内在动机),这在AP心理中的motivation一章中会有详细地探讨。
03Schedules of Reinforcement强化程序
虽然通过reinforcement我们总能使一个行为出现的频率增加,但是多久进行一次强化、基于什么量进行强化,这会对行为出现的频率(response rates)和持续性(consistency)产生影响。
我们可以基于行为出现的次数(ratio),也可以基于时间周期(interval)给予强化物;我们可以在行为出现固定的次数、固定的时间流逝后(fixed)给予强化物,也可以随机(variable)地给予。
由此形成了四种搭配,也就是四种schedules of reinforcement:
让我们来通过一些例子更好地区分不同的schedules。
1) Fixed-ratio schedule:也就是你的这个行为出现n次(n是固定的)我就给你一个奖赏:在工厂里做工,按加工完成的成品数量发工钱就属于FR,比如每包装好100袋零食就可以得到20元工钱,给工钱是根据包装零食这一行为出现的次数,属于ratio;只要包装零食完成100次,就可以拿到钱,得到奖赏需要出现的行为次数是固定的,属于fixed。
2) Variable-ratio schedule:当你做这件事情5次时,可能就可以得到奖赏,下一次得到奖赏却可能是你做了50次后,再下一次也许是2次;slot machine(俗称老虎机)就是一个例子。谁也不知道下一次得到奖赏是尝试多少次以后,但正是这样的不确定性促使人们一直想去赌,心里总想着:万一下次就可以得大奖呢?
3) Fixed-variable schedule:经过一段固定的时间就给一次奖赏:月结工资(monthly salary)就属于这种奖赏方式,每经过一个月就发一次钱,但可想而知大家工作的积极性大概率就没那么强了,反正拿多少钱也与工作强度、工作质量无关,一个月一过就可以拿一次钱。
4) Variable-interval schedule:也许第一次过两天得到了强化,下一次或许是三十天以后,再下一次又可能是五天以后,时间不定:是不是很像pop-quiz的概念?随堂小测,测试随时可能出现,大家只能默默地每节课都认真复习了。
下面这幅图是通过实验得到的不同的schedules和a)行为出现的频率(response rates);b)行为的持续性(consistency)之间的关系。
在同样的时间内,number of responses越大代表着response rates越高,也就是说图中的curve的斜率越大response rates越高;curve横跨的时间越长表示行为的持续性越强。
请仔细观察下图,你发现了什么规律吗?
希望你发现了以下规律:【重点规律】
注:这里的大于号和小于号所比较的是效果~
其实这些规律是很好理解的。Response rates越大,行为出现的频率越高,也就说明生物习得此行为越快,为什么ratio和fixed schedules效果比较好呢?
生物发现奖赏的出现和自己的某一行为出现的次数有关(ratio),而且关系还非常固定(fixed),为了得到奖赏,生物就会非常高频率地去做这一行为;不过,因为生物很容易地就发现了这个规律,后期可能就有所懈怠了,持续性就会比较弱。
而对于interval和variable schedules来说,生物习得行为的速度会比较慢,这是因为奖赏的出现看起来很随机,跟自己的行为好像没啥太大关系,不太确定自己的行为是否可以带来奖赏,去做这一行为的动机比较小,所以行为出现的频率会比较小。
但是正是因为这种随机性,就像上文所提到的老虎机/赌博的例子一样,大家抱着赌的心态一直期待着下一次可以得到奖赏,就会不断的去尝试,从而导致行为的持续性更强。
结 语
本期我们一起了解了operant conditioning的基本概念,以及不同的强化程序对习得速度和持续性的影响。在下一期,我们将学习如何区分不同类型的强化和惩罚,be ready!