「我没有忘记我的作品被第一次附上打分标准的那个瞬间……忽然间所有的快乐都消失不见了。我是为了分数而写作——我不是为了我自己而探索。我想找回这种快乐。我能找回这种快乐吗?」
— 学生 Claire(于 Olson,2006 年)
关于评估学业表现的资料写得太多了,足以塞满一整个图书馆。但如果你稍微想一想,学业评估其实就是简简单单的两个步骤。我们需要收集学生表现的信息,将这些信息分享给与学生和家长(或许附带上我们的评价)。收集并报告足矣。
你会说魔鬼藏在细节里?可能是这样吧,但我认为过于关注实际过程中的细节会让我们失去大局观——至少,有两条根据最佳理论、实践和研究所得出的结论,会被你忽略:「收集信息不需要考试,分享这些信息不需要分数。」实际上,如果摆脱了这两个蒙昧时代的遗物,学生会好得多。
为什么考试对于检测学生的学习成果(至少是比较重要的学习成果)不是很有用,认真的教育者会做什么,这两个问题要等到日后再回答。在这里,我们的任务是聚焦于第二种做法,使用字母和数字来总结学生的表现,而不考虑得出这些结论的方法。
打分的影响
我们今天会听到对于打分的批评,实际上,它们大多数早在四十到八十年前就已经被有力而优美地叙述了出来(Crooks, 1933; De Zouche, 1945; Kirschenbaum, Simon, & Napier, 1971; Linder, 1940; Marshall, 1968),这些早期的文章读起来令人大开眼界。他们提醒我们,我们所做的事情存在一些问题,这一点已经清楚很久了,以及我们虽然意识到了这一点,却仍在原地踏步。
在二十世纪八十和九十年代,教育心理学家系统地研究了分数的影响,像我在别处提到过的(Kohn, 1999a, 1999b, 1999c),如果比较一下被要求专注于分数和没有被要求专注于分数的小学生、中学生和大学生,结果就会支持三个强有力的结论:
- 分数会削弱学生的兴趣,无论他们学的是什么。研究证明「分数倾向」和「学习倾向」呈现负相关,并且,就我知道的而言,所有关于分数对内在动机的影响的研究都证明这种影响是负面的。
- 分数会让学生偏向于选择最容易完成的任务。如果学生知道了自己的所作所为会影响分数,他们会避免一切不必要的智力风险。为了得到更好的分数,他们会选择更短的书来读,做项目也会选择熟悉的话题——这不是因为他们「缺乏动力」,而是因为他们足够理性。是那些成年人为他们设定了取得高分的目标,传递出了学业成功比掌握知识更重要的信号,而他们只是回应这些成年人而已。
- 分数会降低学生的思考质量。他们可能会把书草草翻一遍以掌握「他们需要知道的」。他们不会想「我们能确定这地方是正确的吗?」之类的问题,而是会问:「考试会考吗?」有个实验让学生理解一段社会学研究材料的主要含义。研究者告诉一组学生他们要接受考试,而告诉另一组学生他们不会被打分。接受考试的学生对材料大意的理解更糟糕。一周后考察他们能背出多少内容,被打分的一组记住的知识点也更少(Grolnick 和 Ryan,1987 年)。
最近几十年里,关于打分各方面影响的研究进展较慢,但现有研究都证实了之前的发现。比如,分数导向的环境中作弊现象较严重(Anderman 和 Murdock,2007 年);即使是对于优秀学生,分数(无论是否附带评语)都会引发恐惧感(Pulfrey 等,2011 年);在医学学校中不公布分数(而选择通过/不通过的模式)收效甚佳,而弊处不明显(White 和 Fantone,2010 年)。更重要的是,没有任何最近的研究得出与之前「三大结果」相悖的结论,所以这些结论仍然成立。
为什么打分存在本质问题
有位学徒问大师,他要修炼多少年才能悟道。「十年」,大师说。但学生接着问,如果自己非常努力呢?「二十年」,大师说。学生很诧异,并接着问如果他非常非常努力,比静修处所有学生都努力,那需要多少年。「那样的话要三十年」,大师说。他解释道:「如果你拿一只眼睛拿来关注你离达成目标有多近,那么你只剩一只眼睛专注于任务了。」
为了理解为何研究者得出了这些关于分数的结论,我们需要将目光从教育评估技术转向更广泛的心理学和教学领域,这样我们便能看出打分背后有一系列错误的假设。
动机:尽管在接受几年传统学校教育之后,很多学生可以认为是分数驱动的,但动机的本质非常重要。外在动机,比如取得高分的渴望,不仅与内在动机非常不同,更会破坏内在动机,破坏为学习而学习的渴望(Kohn,1999a)。很多评估方面的专家认为只有一种动机——而他们推荐的做法只是粉饰雕琢后的奖惩系统,这种系统会让学生追逐分数,而减少对学习本身的兴趣。如果对我们来说,培养学习的渴望是首要目标的话,那么打分这种做法存在本质问题。
成就:有两位教育心理学家指出,「对评估的过度重视会阻碍学生对卓越的追求」(Maehe 和 Midgley,1996,第七页)。这一令人不安的结论,即使不考虑评估本身的质量仍然成立,但尤其适用于在使用分数系统进行评估时。这两人的调查,以及很多其他研究者,如 Carol Dweck,Carole Ames,Ruth Butler, John Nicholis(Kohn 199b),都支持这一结论。简而言之:越引导学生重视他们的表现要有多好,他们就对自己实际上正在做什么越不上心。
因此,评估必须谨慎且节制,以免学生过于顾虑表现(他们在某事上的表现有多好,或更糟糕地,他们相比其他人的表现)而不再关注学习本身。即便是用意良好的老师,也可能会让他的一屋子学生过于关注自己的阅读技巧,而忽略故事本身。评估咨询师担心的是分数可能没有真实地反映学生的表现;教育心理学家担心的是分数让学生过于关注他们的表现。
量化:有人可能会问我,测量学生学习质量(或者老师教学的质量)难道不重要吗?对此,我会请他们重新思考他们选择的动词。「评估」教与学的质量当然有价值,但「衡量」教与学,用数字来表示质量,往往是并不必要,甚至是不可能的。的确「可量化的结果可能是学习最不重要的结果」(McNeil,1986,p. xviii)——这一结论,对于当今沾染公司习性,对数据高度执迷的「学校改革」,是令人耳目一新的反击。
用具体的度量来讨论教室中的活动,乃至儿童脑中的思考是否在前进或后退,不仅是过度简化,无法抓住现实特征的做法,更是充满破坏性的,因为这一度量会破坏现实中的活动。如果我们过于关注可以用数字描述的东西,比如作文中有多少语法错误,或者孩子记住了多少种数学算法,学生的思考能力会被大幅破坏。这正是我们试图把学习框进四个或五个(鬼知道有多少个)百分制标准的结果。
课标:Howard Gardner(1991 年,254 页)写道,「纵使我们有最优质的评估手段,如果相配套的课标质量无法匹配,那么评估手段也毫无作用。」评估领域的一些人对评估和课标的相关性很坦率,他们会帮助你根据目标和课标调整评估手段。结果是老师们变得很擅长衡量学生是否掌握一组特定的知识和技能,这些知识和技能的价值究竟可不可靠,从来没有人对此产生疑问。这就像 Elliot Eisner (2001 年,370 页)所说的,「如果某项知识不值得教,那么它也不值得好好地教。」我们也可以再加上一句,「不值得好好评估」。
比如说,如果用作品集替代分数,而非根据作品集产出分数,那么这会是更有建设性的做法。作品集提供了一种方法,深思熟虑地收集各种大量有意义的学习例子,帮助学生们复习。但如果「教学时时刻刻都按照工作表来,以致所有作品集都一个模样,那还有什么用?」(Neill 等人,1995 年,第四页)。相反,有时候更深思熟虑的教学方式——比如通过研讨会教学写作——和某些令人沮丧的标准化评估手段之间,存在十分大的鸿沟(Wilson,2006 年)。
改良打分:徒劳无功?
「我一直在提倡基于标准的打分方法,这也是非常重要的运动,但只有在一些优秀的教育者教导我之后,我才意识到如果我希望我的评估是基于真实反馈的,那么我应该直接放弃打分这种做法。」
——新泽西中学教师 Json Bedell(2010 年)
「面向学习的评估」(以及「形成性评估」)等概念相关的内容令我非常不安:其中推荐的做法过于矫揉造作而机械化;数据收集的必要性凌驾于儿童自己的地位之上,也凌驾于帮助他们对自己所做的事情产生热情之上。尽管如此,如果不过分频繁和张扬,面向学习的评估还是有可能的。然而如果是「面向学习的打分」,用 1960 年代的口号来说,就是像是为了和平而轰炸。对学生和其努力打分并排名本质上会适得其反。
如果我是对的——更为重要地,如果我之前提到的所有研究被认真对待——那么去除打分是促进深度思考,提升思考动力的必要不充分条件。我们有必要在这个观点上多思考片刻,因为各方势力都在试图兜售提升打分技术的方案,而没有真正处理打分本身的问题。
- 把打分中的数字或字母换成标签(「超越期望」「符合期望」之类)是不够的。如果你把学生分成了四类或五类,你仍然在给他们打分。指标通常是包含数字和标签的,这只是我们要对此抱有怀疑的原因之一。(Wilson,2006 年;Kohn,2006 年)。
- 提前把对学生的期望告诉他们是不够的。「如果把学校当成考试,而非是思维丛林中的一次探险」,而老师「提前列明学生为了取得高分要完成的事」,那么老师可能觉得这是比较公平的做法。「[然而]这样的教育在更广泛的意义上是不公平的,因为这种教育让学生擅长通过其他人设置的考试,而没有增强他们与同伴合作时设置自我目标的能力。」(Nicholls 和 Hazzard,1993 年,77 页)。
- 更高效地发布分数,比如说发在网上,是不够的。已故的 Gerald Bracey 曾评论道,「有很多飞速发展的技术,能让我们在纳秒之间完成很多事,但这些事我们本就不应该做。」(引用自 Mathews,2006 年)。实际上,在网上发布分数是巨大的退步,因为这种做法让分数更加显眼,增强了分数对学习的破坏性影响。
- 附加叙述性报告是不够的。「如果分数和评论一同发布,评论是为了证实分数而存在的。」(Wilson 2009 年,60 页)。但如果「只有评论,接受者会阅读评论。」高中英语教师 Jim Drier 说到。此外,根据研究,即便附加了报告,分数对创造力的破坏性并没有减少(甚至可能更多)。只有没有分数的情况下,叙述才会有用。
- 使用「基于标准的」打分是不够的。这一词语有很多暗示,比如更一致的打分,或使用了更精细的公式来决定分数;分数含义更具体;或者给更多任务或技能打分。最好的情况下,这些方案没有解决打分的本质问题;最坏的情况下,它们加剧了这一本质问题。除了数据越多越好这一简单化前提,我们发现与昔日行为主义者共享的爱好,即学习可以也应该被分解成一个个组分来分别评估。过于频繁的获取数据,助长了以学习为代价的对表现不成比例的关注,而这正是研究者发现的非常有害的情况。
「基于标准」一词,有时候仅仅指的是打分是根据一系列目标制定的。这时候我们的首要反应则应该是思考这些目标的价值(以及制定这些目标时学生的参与程度)。如果分数是依据国家的标准制定的,那么我们就很有必要担忧了,因为这些标准往往过于具体,与年龄不相称,从定义上来说是标准化的(Kohn,2001 年)。根据我的经验,对于遥不可及的官方制定的一系列目标,或者用这些目标作为他们学生思想的评估手段,最好的老师是有所顾虑的。
最后,「基于标准」一词有时候跟基准考试(criterion-based testing)一词所指类似。基准考试指的是避免根据曲线来给学生打分。(尽管有些老师不会明面上按曲线给分,但他们认为分数应该是接近正态分布的,只有一小部分学生能拿到 A。但这一分布并不是自然的,也并不是老师「严谨」的表现。这是失败的符号——教学的失败,考试的失败,对学生智力施加影响的失败[Milton, Pollio & Eison,1986 年])。相比故意让高分非常稀少,让学生互相竞争的系统,基准考试无疑是一大进步。但我们虽然去除了洋葱最外面一层皮(竞争),但我们要暴露出内在的危害:外在动机,数字打分,以学习为代价的成就。
如果我们的初衷是做更频繁的考试,获取更多数据,或者提升打分的一致性,那么我们会选用相应的方案。然而,如果我们的初衷并不是打分,而是为了让学生深刻理解知识,或者是从文字和数字中获得乐趣,或者是做自己学习的主人,那么我们的做法可能会大不一样。我们会认为打分系统是一台冒烟呲油,轰隆作响的巨大机器,时刻需要修复和新零件。我们要做的是拔掉电源线。
去除分数,或至少淡化分数
「不管你喜不喜欢,打分已成定局」这种话,任何有责任感的教育家,都不会将其作为不作为的借口。约定俗成的做法是否对学生最有利,这是我们关心的问题。如果不符合学生的利益,我们必须要努力消除这种做法,与此同时也要努力减轻其影响。
给出叙述式评估或开展教师与家长的会议,以此替换数字或字母分数,也就是用书面或谈话形式给出的学生进展的定性总结,这种做法并不是乌托邦式的幻想。很多公立私立的小学中学,乃至高中,都已经采取这种做法并取得了成功。(Kohn,1999c)。重要的不仅是明白为何有学校采取这种做法,而且要调查为什么他们摒弃了分数,他们怎么做到的(提示:这一过程可能是渐进式的),以及他们取得了什么好处。
对于这样重大的方针转向,或者说任何重大转向,自然会有人反对,然而只要教师向学生和家长展示相关研究,解答他们的疑虑,并邀请他们一同构建其他的评估方式,摒弃分数的做法不仅是现实的,而且是相对于现状的巨大改善。有时候只有终结了打分,我们才能意识到打分的危害有多大。
我知道你们在担心什么,但我可以肯定地说,这些去分数化高中的毕业生,是能被大型公立大学和高门槛的私立大学接收的——相比平均分(GPA),这些高中提供的叙事性评估报告,以及对培养方案的详细描述(配合推荐信,论文,采访等内容)为大学申请者描绘了更加全面的画像。此外,这些学校指出,相比传统学校为分数焦头烂额的学生,他们的学生在学习上更有动力,也更擅长、更适合大学生活。
无论如何,申请大学并不是小学和中学摒弃分数的阻碍,因为大学并不关心学生在高中之前的所作所为。对低龄段儿童施加分数的鼓吹者,由此会使用我称之为 BGUTI 的论点:「最好早点适应(Better Get Used To It)」(Kohn,2005 年)。他们的观点是,我们应该尽早把这些不愉快而又不必要的事加在孩子身上,以便让他们适应之后这些会加在他们身上的事。这一辩解太过荒谬,但教育政策的制定中仍有其一席之地。
即便管理者还没准备好放弃传统成绩单,教师也可以两步走来「无害化分数」,让他们教的学生学得更好。首先,停止在作业上写字母或数字分数,而只提供定性的反馈。每学期发成绩单已经很差劲了,然而研究者发现,如果每天都对学生在校的行为打分,伤害会更大(对于学习兴趣,对挑战的意愿,以及思考质量)。只要把分数换成真实的评估,老师就能避免不少伤害。不仅如此,就跟我们之前所说的一样,没有数字分数后,任何反馈都会更加有用。
第二,尽管老师可能需要上交最终分数,但并没有人要求分数必须只由老师给出。所以,老师可以让学生一同参与评价,或是互相商讨(老师有最终决定权),或是让学生给自己打分。如果有人觉得这种做法有风险,这可能是他们意识到这会让教室的环境更加民主,让老师必须构建合适的教学方法和培养方案,使得学生真心参与其中,而非让老师胁迫他们按安排行事。实际上,对这一提议的负面看法(「这不现实!」)恰好说明了分数更多是控制学生的手段,而非报告学生表现的必要方法,或者有任何建设性。
我最近和几位停止给学生打分的初高中老师谈了谈。其中,Jeff Robbins 已经在新泽西教授八年级科学 15 年,他坦白:「还是打分更容易点」,因为打分比提供有意义的评估快多了。但这一效率背后是巨大的代价。他注意到孩子们压力很大,而且倾向于避免智力上的挑战。他们会选择更容易的作业以保证他们得 A 。
一开始 Robbins 宣布,学生可以重新提交所有项目或考试,以获得更高的分数。可惜的是,这种做法并没有解决根本问题,他最终意识到,他必须完全停止打分。现在,他为他的所有学生(125 名)撰写评论,「围绕他们的表现,和他们需要改善的地方」,并在他的记分册上写下简短的笔记。每学期末,他会花一周的时间找每位学生谈话:「因为在教育系统的原始设计下,孩子无法得到这种反馈」——他会问孩子学了什么,如何学到的。「只有在谈话末尾,他会问什么样的分数最能反映孩子的学习,而他们会一同得出结论。」就像我这些年来交流过的很多老师一样,Robbins 说他几乎总是接纳学生的打分提议,因为他们基本上和他打的分是一样的。
Jim Drier 是伊利诺州 Mundelein 高中的英语老师,他教了 90 名学生,其能力分布从「挂科边缘到大学预修水平」。他很高兴地发现,给学生的作业写简短的评论「并不会花太长时间」——这是「对他们努力的反馈,以及对他们如何改进的一些建议」。但他从不「对学生的作业打分。分数驱使孩子做的事,对于教育者而言是非常心痛的。」:与教师争辩,跟家长争斗,考试作业作弊,为考试死记硬背,再忘得一干二净。「这不是我成为教师的初衷」。
没有了分数后,「我觉得我和学生的关系改善了很多」,Drier 说。「他们的写作水平提升得很快,知识也记得更牢了。很多学生告诉我,他们对学校的态度也改变了。」他本以为家长会有所抵触,但他说三年后只有一个家长反对停止打分,而他在给那位家长寄信写明缘由后,家长的态度也有所缓和。现在有两名他的同事也加入了摒弃分数的行列。
Drier 根据学生书面提交的自我评估给出最终分数,而这一评估则基于学生对他们作品集中的作品的评价。他与四分之三的学生每学期简单见面两次,以评估他们的表现,此外如果必要的话(虽然不常发生),他会和他们讨论他们自己提供的分数是否合理。有人问过他,没有字母和数字的记分册他该怎么办,Drier 则说:「如果我跟学生共处了 18 周,我会很清楚他们的写作和推理能力。」
对于这些放弃打分的老师以及其他老师来说,真实评估的一大关键要素,是让学生有机会设计评估机制,并思考其意义——无论是每个学生自己,还是整个班集体。注意这与另一种常见的自我评估方式有所不同,在那种方式里,学生只是根据老师设定的(或者法律要求的)目标衡量自己的进度,而他们必须依据打分指标,为自己的学习进展给出粗略的数字分数。
从这些老师的交流中可以找出不少共通之处,当然也有存在差异的做法。来自加拿大阿尔伯塔省红鹿城的教育家 Joe Bower (无日期)收集了一些例子。比如说,有一些老师会衡量学生的表现(当然是定性的),但其他人认为只提供反馈是更有建设性的做法,也就是只提供信息。对后者而言,「分数的另一种方案是描述」,「描述的起点应该是白纸一张,而不是用一种引导和同质化描述的形式」(Marshall 1968 年,131, 143 页)。
老师也提供了同事和管理层乃至学生自己对摒弃打分的回应。John Spencer (2010 年)是一名阿里桑那州的中学老师,他坦白道:「很多优秀学生一开始非常愤怒。他们认为摒弃打分是不公平的。他们认为上学是工作,而同学是竞争者……随着时间推移,他们的反应有所变化,他们平静下来了。他们分数上的压力消失了,因此他们也学得更多了。」
根据研究,学生对分数的关注倾向,并不是学生内在的偏好或是什么学习风格的反映;这只是学生终年被牵着为分数劳碌的反映。在一项研究中(Butler,1992 年),研究者鼓励一些学生去思考他们在一项创意性任务上表现如何,而只要另一些人发挥自己的想象力。之后,每个学生被带到一个房间里,里面是其他人根据相同指示绘制的作品,此外也有让他们算出「创意分」的一些指示。当然,那些被指示要思考自己表现的孩子,现在想要知道的是他们相比同龄人干得怎么样。那么能够沉浸于任务之中的孩子,则对其他人到底做了什么更感兴趣。
分数没办法让孩子为现实世界做好准备——除非有人喜欢学习和思考质量无足轻重的世界。分数也并不是学校教育的必要组分,正如体罚和长时间听写一样。尽管如此,在这样一个定量比定性更重要,符合(他人的)标准比探索想法更重要,任何「严谨」的事物会自动获得价值的时代,为孩子做正确的事是需要勇气的。
参考文献
Anderman, E.M., & Murdock, T.B., eds. (2007). Psychology of academic cheating. Burlington, MA: Elsevier Academic Press.
Bedell, J. (2010, July). Blog post.
Bower, J. (2010, March 28). Blog post.
Bower, J. (n.d.). Blog post. [Grading moratorium list]
Butler, R. (1988). Enhancing and undermining intrinsic motivation: The effects of task-involving and ego-involving evaluation on interest and performance. British Journal of Educational Psychology, 58,1-14.
Crooks, A.D. (1933). Marks and marking systems: A digest. Journal of Educational Research, 27(4), 259-72.
De Zouche, D. (1945). “The wound is mortal”: Marks, honors, unsound activities. The Clearing House, 19(6), 339-44.
Eisner, E.W. (2001, Jan.). What does it mean to say a school is doing well? Phi Delta Kappan, pp. 367-72.
Gardner, H. (1991). The unschooled mind: How children think and how schools should teach. New York: Basic Books.
Grolnick, W.S., & Ryan, R.M. (1987). Autonomy in children’s learning: An experimental and individual difference investigation. Journal of Personality and Social Psychology, 52, 890-98.
Kirschenbaum, H., Simon, S.B., & Napier, R.W. (1971). Wad-ja-get?: The grading game in American education. New York: Hart.
Kohn, A. (1999a). Punished by rewards: The trouble with gold stars, incentive plans, A’s, praise, and other bribes. Rev. ed. Boston: Houghton Mifflin.
Kohn, A. (1999b). The schools our children deserve: Moving beyond traditional classrooms and “tougher standards.” Boston: Houghton Mifflin.
Kohn, A. (1999c, March). From degrading to de-grading. High School Magazine, pp. 38-43.
Kohn, A. (2001, Sept. 26). Beware of the standards, not just the tests. Education Week, pp. 52, 38.
Kohn, A. (2005, Sept. 7). Getting hit on the head lessons. Education Week, pp. 52, 46-47.
Kohn, A. (2006, March). The trouble with rubrics. Language Arts, pp. 12-15.
Linder, I.H. (1940, July). Is there a substitute for teachers’ grades? School Board Journal, pp. 25, 26, 79.
Maehr, M.L., & Midgley, C. (1996). Transforming school cultures. Boulder, CO: Westview.
Marshall, M.S. (1968). Teaching without grades. Corvallis, OR: Oregon State University Press.
Matthews, J. (2006, Nov. 14). Just whose idea was all this testing? Washington Post.
McNeil, L. M. (1986). Contradictions of control: School structure and school knowledge. New York: Routledge & Kegan Paul.
Milton, O., Pollio, H. R., & Eison, J. A. (1986). Making sense of college grades. San Francisco: Jossey-Bass.
Neill, M., Bursh, P., Schaeffer, B., Thall, C., Yohe, M., & Zappardino, P. (1995). Implementing performance assessments: A guide to classroom, school, and system reform. Cambridge, MA: FairTest.
Nicholls, J. G., & Hazzard, S. P. (1993). Education as adventure: Lessons from the second grade. New York: Teachers College Press.
Olson, K. (2006, Nov. 8). The wounds of schooling. Education Week, pp. 28-29.
Pulfrey, C., Buch, C., & Butera, F. (2011). Why grades engender performance-avoidance goals: The mediating role of autonomous motivation. Journal of Educational Psychology, 103, 683-700.
Spencer, J. (2010, July). Blog post.
White, C.B., & Fantone, J.C. (2010). Pass-fail grading: Laying the foundation for self-regulated learning. Advances in Health Science Education, 15, 469-77.
Wilson, M. (2006). Rethinking rubrics in writing assessment. Portsmouth, NH: Heinemann.
Wilson, M. (2009, Nov). Responsive writing assessment. Educational Leadership, pp. 58-62.
声明
Copyright 2011 by Alfie Kohn. Reprinted from The Case Against Grades and translated by Thoughts Memo with the author's permission.
Thoughts Memo 汉化组译制
感谢主要译者 Geert、Shom,校对 Jarrett Ye
原文:The Case Against Grades (##) - Alfie Kohn
发表于 2011 年 11 月
作者:Alfie Kohn
创作声明:内容包含教育建议,国外经验仅供参考。