反分数论 - @Thoughts Memo

「我没有忘记我的作品被第一次附上打分标准的那个瞬间……忽然间所有的快乐都消失不见了。我是为了分数而写作——我不是为了我自己而探索。我想找回这种快乐。我能找回这种快乐吗？」

— 学生 Claire（于 Olson，2006 年）

关于评估学业表现的资料写得太多了，足以塞满一整个图书馆。但如果你稍微想一想，学业评估其实就是简简单单的两个步骤。我们需要收集学生表现的信息，将这些信息分享给与学生和家长（或许附带上我们的评价）。收集并报告足矣。

你会说魔鬼藏在细节里？可能是这样吧，但我认为过于关注实际过程中的细节会让我们失去大局观——至少，有两条根据最佳理论、实践和研究所得出的结论，会被你忽略：「收集信息不需要考试，分享这些信息不需要分数。」实际上，如果摆脱了这两个蒙昧时代的遗物，学生会好得多。

为什么考试对于检测学生的学习成果（至少是比较重要的学习成果）不是很有用，认真的教育者会做什么，这两个问题要等到日后再回答。在这里，我们的任务是聚焦于第二种做法，使用字母和数字来总结学生的表现，而不考虑得出这些结论的方法。

打分的影响

我们今天会听到对于打分的批评，实际上，它们大多数早在四十到八十年前就已经被有力而优美地叙述了出来（Crooks, 1933; De Zouche, 1945; Kirschenbaum, Simon, & Napier, 1971; Linder, 1940; Marshall, 1968），这些早期的文章读起来令人大开眼界。他们提醒我们，我们所做的事情存在一些问题，这一点已经清楚很久了，以及我们虽然意识到了这一点，却仍在原地踏步。

在二十世纪八十和九十年代，教育心理学家系统地研究了分数的影响，像我在别处提到过的（Kohn, 1999a, 1999b, 1999c），如果比较一下被要求专注于分数和没有被要求专注于分数的小学生、中学生和大学生，结果就会支持三个强有力的结论：

分数会削弱学生的兴趣，无论他们学的是什么。研究证明「分数倾向」和「学习倾向」呈现负相关，并且，就我知道的而言，所有关于分数对内在动机的影响的研究都证明这种影响是负面的。
分数会让学生偏向于选择最容易完成的任务。如果学生知道了自己的所作所为会影响分数，他们会避免一切不必要的智力风险。为了得到更好的分数，他们会选择更短的书来读，做项目也会选择熟悉的话题——这不是因为他们「缺乏动力」，而是因为他们足够理性。是那些成年人为他们设定了取得高分的目标，传递出了学业成功比掌握知识更重要的信号，而他们只是回应这些成年人而已。
分数会降低学生的思考质量。他们可能会把书草草翻一遍以掌握「他们需要知道的」。他们不会想「我们能确定这地方是正确的吗？」之类的问题，而是会问：「考试会考吗？」有个实验让学生理解一段社会学研究材料的主要含义。研究者告诉一组学生他们要接受考试，而告诉另一组学生他们不会被打分。接受考试的学生对材料大意的理解更糟糕。一周后考察他们能背出多少内容，被打分的一组记住的知识点也更少（Grolnick 和 Ryan，1987 年）。

最近几十年里，关于打分各方面影响的研究进展较慢，但现有研究都证实了之前的发现。比如，分数导向的环境中作弊现象较严重（Anderman 和 Murdock，2007 年）；即使是对于优秀学生，分数（无论是否附带评语）都会引发恐惧感（Pulfrey 等，2011 年）；在医学学校中不公布分数（而选择通过/不通过的模式）收效甚佳，而弊处不明显（White 和 Fantone，2010 年）。更重要的是，没有任何最近的研究得出与之前「三大结果」相悖的结论，所以这些结论仍然成立。

为什么打分存在本质问题

有位学徒问大师，他要修炼多少年才能悟道。「十年」，大师说。但学生接着问，如果自己非常努力呢？「二十年」，大师说。学生很诧异，并接着问如果他非常非常努力，比静修处所有学生都努力，那需要多少年。「那样的话要三十年」，大师说。他解释道：「如果你拿一只眼睛拿来关注你离达成目标有多近，那么你只剩一只眼睛专注于任务了。」

为了理解为何研究者得出了这些关于分数的结论，我们需要将目光从教育评估技术转向更广泛的心理学和教学领域，这样我们便能看出打分背后有一系列错误的假设。

动机：尽管在接受几年传统学校教育之后，很多学生可以认为是分数驱动的，但动机的本质非常重要。外在动机，比如取得高分的渴望，不仅与内在动机非常不同，更会破坏内在动机，破坏为学习而学习的渴望（Kohn，1999a）。很多评估方面的专家认为只有一种动机——而他们推荐的做法只是粉饰雕琢后的奖惩系统，这种系统会让学生追逐分数，而减少对学习本身的兴趣。如果对我们来说，培养学习的渴望是首要目标的话，那么打分这种做法存在本质问题。

成就：有两位教育心理学家指出，「对评估的过度重视会阻碍学生对卓越的追求」（Maehe 和 Midgley，1996，第七页）。这一令人不安的结论，即使不考虑评估本身的质量仍然成立，但尤其适用于在使用分数系统进行评估时。这两人的调查，以及很多其他研究者，如 Carol Dweck，Carole Ames，Ruth Butler， John Nicholis（Kohn 199b），都支持这一结论。简而言之：越引导学生重视他们的表现要有多好，他们就对自己实际上正在做什么越不上心。

因此，评估必须谨慎且节制，以免学生过于顾虑表现（他们在某事上的表现有多好，或更糟糕地，他们相比其他人的表现）而不再关注学习本身。即便是用意良好的老师，也可能会让他的一屋子学生过于关注自己的阅读技巧，而忽略故事本身。评估咨询师担心的是分数可能没有真实地反映学生的表现；教育心理学家担心的是分数让学生过于关注他们的表现。

量化：有人可能会问我，测量学生学习质量（或者老师教学的质量）难道不重要吗？对此，我会请他们重新思考他们选择的动词。「评估」教与学的质量当然有价值，但「衡量」教与学，用数字来表示质量，往往是并不必要，甚至是不可能的。的确「可量化的结果可能是学习最不重要的结果」（McNeil，1986，p. xviii）——这一结论，对于当今沾染公司习性，对数据高度执迷的「学校改革」，是令人耳目一新的反击。

用具体的度量来讨论教室中的活动，乃至儿童脑中的思考是否在前进或后退，不仅是过度简化，无法抓住现实特征的做法，更是充满破坏性的，因为这一度量会破坏现实中的活动。如果我们过于关注可以用数字描述的东西，比如作文中有多少语法错误，或者孩子记住了多少种数学算法，学生的思考能力会被大幅破坏。这正是我们试图把学习框进四个或五个（鬼知道有多少个）百分制标准的结果。

课标：Howard Gardner（1991 年，254 页）写道，「纵使我们有最优质的评估手段，如果相配套的课标质量无法匹配，那么评估手段也毫无作用。」评估领域的一些人对评估和课标的相关性很坦率，他们会帮助你根据目标和课标调整评估手段。结果是老师们变得很擅长衡量学生是否掌握一组特定的知识和技能，这些知识和技能的价值究竟可不可靠，从来没有人对此产生疑问。这就像 Elliot Eisner （2001 年，370 页）所说的，「如果某项知识不值得教，那么它也不值得好好地教。」我们也可以再加上一句，「不值得好好评估」。

比如说，如果用作品集替代分数，而非根据作品集产出分数，那么这会是更有建设性的做法。作品集提供了一种方法，深思熟虑地收集各种大量有意义的学习例子，帮助学生们复习。但如果「教学时时刻刻都按照工作表来，以致所有作品集都一个模样，那还有什么用？」（Neill 等人，1995 年，第四页）。相反，有时候更深思熟虑的教学方式——比如通过研讨会教学写作——和某些令人沮丧的标准化评估手段之间，存在十分大的鸿沟（Wilson，2006 年）。

改良打分：徒劳无功？

「我一直在提倡基于标准的打分方法，这也是非常重要的运动，但只有在一些优秀的教育者教导我之后，我才意识到如果我希望我的评估是基于真实反馈的，那么我应该直接放弃打分这种做法。」

——新泽西中学教师 Json Bedell（2010 年）

「面向学习的评估」（以及「形成性评估」）等概念相关的内容令我非常不安：其中推荐的做法过于矫揉造作而机械化；数据收集的必要性凌驾于儿童自己的地位之上，也凌驾于帮助他们对自己所做的事情产生热情之上。尽管如此，如果不过分频繁和张扬，面向学习的评估还是有可能的。然而如果是「面向学习的打分」，用 1960 年代的口号来说，就是像是为了和平而轰炸。对学生和其努力打分并排名本质上会适得其反。

如果我是对的——更为重要地，如果我之前提到的所有研究被认真对待——那么去除打分是促进深度思考，提升思考动力的必要不充分条件。我们有必要在这个观点上多思考片刻，因为各方势力都在试图兜售提升打分技术的方案，而没有真正处理打分本身的问题。

把打分中的数字或字母换成标签（「超越期望」「符合期望」之类）是不够的。如果你把学生分成了四类或五类，你仍然在给他们打分。指标通常是包含数字和标签的，这只是我们要对此抱有怀疑的原因之一。（Wilson，2006 年；Kohn，2006 年）。
提前把对学生的期望告诉他们是不够的。「如果把学校当成考试，而非是思维丛林中的一次探险」，而老师「提前列明学生为了取得高分要完成的事」，那么老师可能觉得这是比较公平的做法。「[然而]这样的教育在更广泛的意义上是不公平的，因为这种教育让学生擅长通过其他人设置的考试，而没有增强他们与同伴合作时设置自我目标的能力。」（Nicholls 和 Hazzard，1993 年，77 页）。
更高效地发布分数，比如说发在网上，是不够的。已故的 Gerald Bracey 曾评论道，「有很多飞速发展的技术，能让我们在纳秒之间完成很多事，但这些事我们本就不应该做。」（引用自 Mathews，2006 年）。实际上，在网上发布分数是巨大的退步，因为这种做法让分数更加显眼，增强了分数对学习的破坏性影响。
附加叙述性报告是不够的。「如果分数和评论一同发布，评论是为了证实分数而存在的。」（Wilson 2009 年，60 页）。但如果「只有评论，接受者会阅读评论。」高中英语教师 Jim Drier 说到。此外，根据研究，即便附加了报告，分数对创造力的破坏性并没有减少（甚至可能更多）。只有没有分数的情况下，叙述才会有用。
使用「基于标准的」打分是不够的。这一词语有很多暗示，比如更一致的打分，或使用了更精细的公式来决定分数；分数含义更具体；或者给更多任务或技能打分。最好的情况下，这些方案没有解决打分的本质问题；最坏的情况下，它们加剧了这一本质问题。除了数据越多越好这一简单化前提，我们发现与昔日行为主义者共享的爱好，即学习可以也应该被分解成一个个组分来分别评估。过于频繁的获取数据，助长了以学习为代价的对表现不成比例的关注，而这正是研究者发现的非常有害的情况。

「基于标准」一词，有时候仅仅指的是打分是根据一系列目标制定的。这时候我们的首要反应则应该是思考这些目标的价值（以及制定这些目标时学生的参与程度）。如果分数是依据国家的标准制定的，那么我们就很有必要担忧了，因为这些标准往往过于具体，与年龄不相称，从定义上来说是标准化的（Kohn，2001 年）。根据我的经验，对于遥不可及的官方制定的一系列目标，或者用这些目标作为他们学生思想的评估手段，最好的老师是有所顾虑的。

最后，「基于标准」一词有时候跟基准考试（criterion-based testing）一词所指类似。基准考试指的是避免根据曲线来给学生打分。（尽管有些老师不会明面上按曲线给分，但他们认为分数应该是接近正态分布的，只有一小部分学生能拿到 A。但这一分布并不是自然的，也并不是老师「严谨」的表现。这是失败的符号——教学的失败，考试的失败，对学生智力施加影响的失败[Milton, Pollio & Eison，1986 年]）。相比故意让高分非常稀少，让学生互相竞争的系统，基准考试无疑是一大进步。但我们虽然去除了洋葱最外面一层皮（竞争），但我们要暴露出内在的危害：外在动机，数字打分，以学习为代价的成就。

如果我们的初衷是做更频繁的考试，获取更多数据，或者提升打分的一致性，那么我们会选用相应的方案。然而，如果我们的初衷并不是打分，而是为了让学生深刻理解知识，或者是从文字和数字中获得乐趣，或者是做自己学习的主人，那么我们的做法可能会大不一样。我们会认为打分系统是一台冒烟呲油，轰隆作响的巨大机器，时刻需要修复和新零件。我们要做的是拔掉电源线。

去除分数，或至少淡化分数

「不管你喜不喜欢，打分已成定局」这种话，任何有责任感的教育家，都不会将其作为不作为的借口。约定俗成的做法是否对学生最有利，这是我们关心的问题。如果不符合学生的利益，我们必须要努力消除这种做法，与此同时也要努力减轻其影响。

给出叙述式评估或开展教师与家长的会议，以此替换数字或字母分数，也就是用书面或谈话形式给出的学生进展的定性总结，这种做法并不是乌托邦式的幻想。很多公立私立的小学中学，乃至高中，都已经采取这种做法并取得了成功。（Kohn，1999c）。重要的不仅是明白为何有学校采取这种做法，而且要调查为什么他们摒弃了分数，他们怎么做到的（提示：这一过程可能是渐进式的），以及他们取得了什么好处。

对于这样重大的方针转向，或者说任何重大转向，自然会有人反对，然而只要教师向学生和家长展示相关研究，解答他们的疑虑，并邀请他们一同构建其他的评估方式，摒弃分数的做法不仅是现实的，而且是相对于现状的巨大改善。有时候只有终结了打分，我们才能意识到打分的危害有多大。

我知道你们在担心什么，但我可以肯定地说，这些去分数化高中的毕业生，是能被大型公立大学和高门槛的私立大学接收的——相比平均分（GPA），这些高中提供的叙事性评估报告，以及对培养方案的详细描述（配合推荐信，论文，采访等内容）为大学申请者描绘了更加全面的画像。此外，这些学校指出，相比传统学校为分数焦头烂额的学生，他们的学生在学习上更有动力，也更擅长、更适合大学生活。

无论如何，申请大学并不是小学和中学摒弃分数的阻碍，因为大学并不关心学生在高中之前的所作所为。对低龄段儿童施加分数的鼓吹者，由此会使用我称之为 BGUTI 的论点：「最好早点适应（Better Get Used To It）」（Kohn，2005 年）。他们的观点是，我们应该尽早把这些不愉快而又不必要的事加在孩子身上，以便让他们适应之后这些会加在他们身上的事。这一辩解太过荒谬，但教育政策的制定中仍有其一席之地。

即便管理者还没准备好放弃传统成绩单，教师也可以两步走来「无害化分数」，让他们教的学生学得更好。首先，停止在作业上写字母或数字分数，而只提供定性的反馈。每学期发成绩单已经很差劲了，然而研究者发现，如果每天都对学生在校的行为打分，伤害会更大（对于学习兴趣，对挑战的意愿，以及思考质量）。只要把分数换成真实的评估，老师就能避免不少伤害。不仅如此，就跟我们之前所说的一样，没有数字分数后，任何反馈都会更加有用。

第二，尽管老师可能需要上交最终分数，但并没有人要求分数必须只由老师给出。所以，老师可以让学生一同参与评价，或是互相商讨（老师有最终决定权），或是让学生给自己打分。如果有人觉得这种做法有风险，这可能是他们意识到这会让教室的环境更加民主，让老师必须构建合适的教学方法和培养方案，使得学生真心参与其中，而非让老师胁迫他们按安排行事。实际上，对这一提议的负面看法（「这不现实！」）恰好说明了分数更多是控制学生的手段，而非报告学生表现的必要方法，或者有任何建设性。

我最近和几位停止给学生打分的初高中老师谈了谈。其中，Jeff Robbins 已经在新泽西教授八年级科学 15 年，他坦白：「还是打分更容易点」，因为打分比提供有意义的评估快多了。但这一效率背后是巨大的代价。他注意到孩子们压力很大，而且倾向于避免智力上的挑战。他们会选择更容易的作业以保证他们得 A 。

一开始 Robbins 宣布，学生可以重新提交所有项目或考试，以获得更高的分数。可惜的是，这种做法并没有解决根本问题，他最终意识到，他必须完全停止打分。现在，他为他的所有学生（125 名）撰写评论，「围绕他们的表现，和他们需要改善的地方」，并在他的记分册上写下简短的笔记。每学期末，他会花一周的时间找每位学生谈话：「因为在教育系统的原始设计下，孩子无法得到这种反馈」——他会问孩子学了什么，如何学到的。「只有在谈话末尾，他会问什么样的分数最能反映孩子的学习，而他们会一同得出结论。」就像我这些年来交流过的很多老师一样，Robbins 说他几乎总是接纳学生的打分提议，因为他们基本上和他打的分是一样的。

Jim Drier 是伊利诺州 Mundelein 高中的英语老师，他教了 90 名学生，其能力分布从「挂科边缘到大学预修水平」。他很高兴地发现，给学生的作业写简短的评论「并不会花太长时间」——这是「对他们努力的反馈，以及对他们如何改进的一些建议」。但他从不「对学生的作业打分。分数驱使孩子做的事，对于教育者而言是非常心痛的。」：与教师争辩，跟家长争斗，考试作业作弊，为考试死记硬背，再忘得一干二净。「这不是我成为教师的初衷」。

没有了分数后，「我觉得我和学生的关系改善了很多」，Drier 说。「他们的写作水平提升得很快，知识也记得更牢了。很多学生告诉我，他们对学校的态度也改变了。」他本以为家长会有所抵触，但他说三年后只有一个家长反对停止打分，而他在给那位家长寄信写明缘由后，家长的态度也有所缓和。现在有两名他的同事也加入了摒弃分数的行列。

Drier 根据学生书面提交的自我评估给出最终分数，而这一评估则基于学生对他们作品集中的作品的评价。他与四分之三的学生每学期简单见面两次，以评估他们的表现，此外如果必要的话（虽然不常发生），他会和他们讨论他们自己提供的分数是否合理。有人问过他，没有字母和数字的记分册他该怎么办，Drier 则说：「如果我跟学生共处了 18 周，我会很清楚他们的写作和推理能力。」

对于这些放弃打分的老师以及其他老师来说，真实评估的一大关键要素，是让学生有机会设计评估机制，并思考其意义——无论是每个学生自己，还是整个班集体。注意这与另一种常见的自我评估方式有所不同，在那种方式里，学生只是根据老师设定的（或者法律要求的）目标衡量自己的进度，而他们必须依据打分指标，为自己的学习进展给出粗略的数字分数。

从这些老师的交流中可以找出不少共通之处，当然也有存在差异的做法。来自加拿大阿尔伯塔省红鹿城的教育家 Joe Bower （无日期）收集了一些例子。比如说，有一些老师会衡量学生的表现（当然是定性的），但其他人认为只提供反馈是更有建设性的做法，也就是只提供信息。对后者而言，「分数的另一种方案是描述」，「描述的起点应该是白纸一张，而不是用一种引导和同质化描述的形式」（Marshall 1968 年，131, 143 页）。

老师也提供了同事和管理层乃至学生自己对摒弃打分的回应。John Spencer （2010 年）是一名阿里桑那州的中学老师，他坦白道：「很多优秀学生一开始非常愤怒。他们认为摒弃打分是不公平的。他们认为上学是工作，而同学是竞争者……随着时间推移，他们的反应有所变化，他们平静下来了。他们分数上的压力消失了，因此他们也学得更多了。」

根据研究，学生对分数的关注倾向，并不是学生内在的偏好或是什么学习风格的反映；这只是学生终年被牵着为分数劳碌的反映。在一项研究中（Butler，1992 年），研究者鼓励一些学生去思考他们在一项创意性任务上表现如何，而只要另一些人发挥自己的想象力。之后，每个学生被带到一个房间里，里面是其他人根据相同指示绘制的作品，此外也有让他们算出「创意分」的一些指示。当然，那些被指示要思考自己表现的孩子，现在想要知道的是他们相比同龄人干得怎么样。那么能够沉浸于任务之中的孩子，则对其他人到底做了什么更感兴趣。

分数没办法让孩子为现实世界做好准备——除非有人喜欢学习和思考质量无足轻重的世界。分数也并不是学校教育的必要组分，正如体罚和长时间听写一样。尽管如此，在这样一个定量比定性更重要，符合（他人的）标准比探索想法更重要，任何「严谨」的事物会自动获得价值的时代，为孩子做正确的事是需要勇气的。

参考文献

Anderman, E.M., & Murdock, T.B., eds. (2007). Psychology of academic cheating. Burlington, MA: Elsevier Academic Press.

Bedell, J. (2010, July). Blog post.

Bower, J. (2010, March 28). Blog post.

Bower, J. (n.d.). Blog post. [Grading moratorium list]

Butler, R. (1988). Enhancing and undermining intrinsic motivation: The effects of task-involving and ego-involving evaluation on interest and performance. British Journal of Educational Psychology, 58,1-14.

Crooks, A.D. (1933). Marks and marking systems: A digest. Journal of Educational Research, 27(4), 259-72.

De Zouche, D. (1945). “The wound is mortal”: Marks, honors, unsound activities. The Clearing House, 19(6), 339-44.

Eisner, E.W. (2001, Jan.). What does it mean to say a school is doing well? Phi Delta Kappan, pp. 367-72.

Gardner, H. (1991). The unschooled mind: How children think and how schools should teach. New York: Basic Books.

Grolnick, W.S., & Ryan, R.M. (1987). Autonomy in children’s learning: An experimental and individual difference investigation. Journal of Personality and Social Psychology, 52, 890-98.

Kirschenbaum, H., Simon, S.B., & Napier, R.W. (1971). Wad-ja-get?: The grading game in American education. New York: Hart.

Kohn, A. (1999a). Punished by rewards: The trouble with gold stars, incentive plans, A’s, praise, and other bribes. Rev. ed. Boston: Houghton Mifflin.

Kohn, A. (1999b). The schools our children deserve: Moving beyond traditional classrooms and “tougher standards.” Boston: Houghton Mifflin.

Kohn, A. (1999c, March). From degrading to de-grading. High School Magazine, pp. 38-43.

Kohn, A. (2001, Sept. 26). Beware of the standards, not just the tests. Education Week, pp. 52, 38.

Kohn, A. (2005, Sept. 7). Getting hit on the head lessons. Education Week, pp. 52, 46-47.

Kohn, A. (2006, March). The trouble with rubrics. Language Arts, pp. 12-15.

Linder, I.H. (1940, July). Is there a substitute for teachers’ grades? School Board Journal, pp. 25, 26, 79.

Maehr, M.L., & Midgley, C. (1996). Transforming school cultures. Boulder, CO: Westview.

Marshall, M.S. (1968). Teaching without grades. Corvallis, OR: Oregon State University Press.

Matthews, J. (2006, Nov. 14). Just whose idea was all this testing? Washington Post.

McNeil, L. M. (1986). Contradictions of control: School structure and school knowledge. New York: Routledge & Kegan Paul.

Milton, O., Pollio, H. R., & Eison, J. A. (1986). Making sense of college grades. San Francisco: Jossey-Bass.

Neill, M., Bursh, P., Schaeffer, B., Thall, C., Yohe, M., & Zappardino, P. (1995). Implementing performance assessments: A guide to classroom, school, and system reform. Cambridge, MA: FairTest.

Nicholls, J. G., & Hazzard, S. P. (1993). Education as adventure: Lessons from the second grade. New York: Teachers College Press.

Olson, K. (2006, Nov. 8). The wounds of schooling. Education Week, pp. 28-29.

Pulfrey, C., Buch, C., & Butera, F. (2011). Why grades engender performance-avoidance goals: The mediating role of autonomous motivation. Journal of Educational Psychology, 103, 683-700.

Spencer, J. (2010, July). Blog post.

White, C.B., & Fantone, J.C. (2010). Pass-fail grading: Laying the foundation for self-regulated learning. Advances in Health Science Education, 15, 469-77.

Wilson, M. (2006). Rethinking rubrics in writing assessment. Portsmouth, NH: Heinemann.

Wilson, M. (2009, Nov). Responsive writing assessment. Educational Leadership, pp. 58-62.

声明

Thoughts Memo 汉化组译制
感谢主要译者 Geert、Shom，校对 Jarrett Ye
原文：The Case Against Grades (##) - Alfie Kohn
发表于 2011 年 11 月
作者：Alfie Kohn

创作声明：内容包含教育建议，国外经验仅供参考。

专栏：Thoughts Memo的文章

← 返回目录