← 返回目录


Bloom 的「两个标准差」问题:系统比较精熟学习法、一对一辅导和直接教学法的有效性

学校≠教育≠技能;文凭溢价=80%信号传递+20%人力资本

81 👍 / 14 💬

Collison 提出的问题之一是:

Bloom 提出的「两个标准差」现象是否真实存在?如果存在,我们应该如何应对?

教育心理学家 Benjamin Bloom 研究发现,基于精熟学习法的一对一辅导,可以使学生成绩提高两个标准差(!)。这一结果得到了后续研究的重现。在提出「两个标准差问题」的论文中,Bloom 抛出这样的问题:大规模一对一辅导不实际,怎么能在更可行的条件下实现这样的结果?

与此相关的是,一项大规模元分析表明,采用精熟学习法的直接教学法效果非常显著(Cohen d 值大于 0.5 )。「然而,尽管有大量研究证据支持其有效性,直接教学法却未能在教育实践中得到广泛接受或实施。」

要回答这个问题,我们首先需要明确直接教学法(Direct Instruction)和精熟学习法(Mastery Learning)这两个概念的具体含义。

1 本文研究范围

本文旨在全面探讨 Bloom 提出的「两个标准差问题」,并会深入分析精熟学习法和一对一辅导等教育方法,同时对基于软件的辅导系统进行综述。文章还将探讨教育研究、间隔重复以及刻意练习等主题,这些内容与本文的核心议题密切相关,通读本文后便可明了。

需要特别说明的是,本文主要聚焦于学生的考试成绩,而非教育的其他潜在益处。我不会深入探讨如何让学生维持学习动力、提升幸福感、培养创造力或成为更优秀的公民。虽然长期成功指标(如未来的收入水平)也是值得研究的方向,但遗憾的是,笔者未能找到相关的研究数据。

在讨论效应量时,请注意,除非特别说明,文中提到的效应量,是特定干预手段与学校通行教育方法的对比结果。

1.1 定义

1.1.1 两个标准差问题

几十年前,教育心理学家 Benjamin Bloom 研究发现,与传统课堂教学相比,一对一辅导能使学生的学习成绩提高两个标准差,这在教育领域代表着极其显著[1]的效应。然而,由于一对一辅导成本高昂,难以推广,Bloom 开始思考:是否有一种办法可以逼近这种效果,同时可以在较大规模的课堂中推行?对这种方法的追寻,就是他提出的「两个标准差问题」。在众多探索中,精熟学习法似乎很有前景。

[1] 作为参考,男女身高分布的差异约为 d=1.5。在智商方面,2 个标准差相当于智商 100 和 130 之间的差距。

1.1.2 直接教学法

根据上文提到的元分析研究,直接教学法是由教育家 Siegfried Engelmann 在 20 世纪 60 年代创立的一种教学方法。这种方法基于一个核心假设:只要满足两个条件,任何学生都能掌握任何给定的学习内容。这两个条件是:

(a) 学生已经掌握了必要的前置知识和技能;(b) 教学指导清晰明确,不存在歧义。

乍看之下,这个描述可能显得有些抽象笼统。幸运的是,美国国家直接教学法研究所提供了更为详尽的信息。

相比其他方法,直接教学法(DI)具有四个核心特点,能够保证学生能学得更快速,更高效:

精准分层,因材施教:在 DI 项目开始时,每位学生都要接受全面评估,以确定他们已掌握的技能和需要提升的领域。根据评估结果,学生会被分配到与其他需要学习相同技能的同学一起的学习小组。这种分组是基于学生的实际能力水平而非年级进行的,确保每个学生都能接受最适合自己的教学内容。

循序渐进,巩固掌握:DI 项目的课程结构经过精心设计,旨在确保学生能够真正掌握所学内容。新知识的引入是循序渐进的,每节课仅包含 10% 的新内容,给予学生充分的时间去理解和应用这些新技能,然后再学习下一组新技能。课程的其余 90% 内容则用于复习和应用已学技能,帮助学生达到熟练掌握的程度。在教学过程中,技能和概念先被单独讲授,然后再与其他技能整合,用于更复杂、更高层次的应用中。教学的每个细节都经过精心设计,以最大限度地减少学生对所学内容的误解,同时最大化教学的强化效果。

个性化教学,灵活调整:DI 的一个突出优势在于,它能够根据每个学生的学习进度进行灵活调整。如果学生在某个技能上需要更多练习,教师可以在项目框架内提供额外的指导,确保学生真正掌握该技能。相反,如果学生很快掌握了新技能并准备好学习更高水平的内容,他们可以被调整到更高级的学习小组,以便继续拓展他们的技能范围。

实践检验,持续优化:DI 项目在编写和修订方面采用了独特而严谨的方法。所有 DI 项目在正式发布之前,都会与真实学生进行实地测试,并根据测试结果进行多次修订和完善。这意味着学生所接受的教学项目已经过实践的严格检验,其有效性得到了充分证实。

直接教学法(Direct Instruction)是一种高度结构化的教学模式,甚至对教师在课堂上的用词都有严格规定

值得注意的是,首字母大写的 Direct Instruction 与小写的 direct instruction 是不同的概念。目前有多种教学方法的名称中包含「直接教学」,例如「明确直接教学法」(Explicit Direct Instruction)。除非特别说明,本文讨论的都是 Direct Instruction。这两种方法都属于以教师为中心的教学模式,即视教师为向学生传授知识的主体,而非仅仅在学生自主探索知识的过程中提供辅助。如前所述,Direct Instruction 由国家直接教学研究所监管,而 direct instruction 则没有专门的监管机构。

1.1.3 精熟学习法

精熟学习法(Mastery Learning,ML)与直接教学法(Direct Instruction)是不同的概念,但 ML 是直接教学法的一个组成部分。ML 也是 Bloom 最初研究的教学方法之一,因此我们在本评论中也会对 ML 进行探讨。两者的一个关键区别在于,ML不要求使用脚本化的课程,而直接教学法则将其作为必要条件。

精熟学习法的核心原则其实很简单:学生必须完全娴熟掌握当前的学习内容,才能进入下一个阶段。每完成一个学习单元后,通常是每月或每周,都会对学生进行知识测试。未能通过测试的学生将参加补习课程,并再次参加测试,直到考试通过。这种方法可以采用集体形式,如 Bloom 最初提出的「为精熟而学习」(Learning for Mastery, LFM)模式;也可以采用个人形式,如 Keller 的「个性化教学系统」(Personalized System of Instruction, PSI),让每个学生按照自己的节奏学习进步。

1.2 摘要

1.3 效应量

评估效应量的实际意义通常并非易事。以下是一种被广泛采用的方法:

效应量d 值
微小0.01
0.20
中等0.50
较大0.80
很大1.20
巨大2.0

然而,我们应该根据特定研究领域的特点来调整这些描述性术语。就教育领域而言,Hugues & Matthew(2019)的研究表明,一年的学校教育(从 5 年级到 6 年级)对阅读能力的平均效应量为 d=0.26,而 141 项大规模教育干预随机对照试验的平均效应量仅为 0.06。鉴于此,我将采用 Kraft(2018)提出的修订量表:

效应量 (E.S.)d 值
较小<0.05
中等0.05-0.2
较大0.2-0.5
很大0.5-1
极大1-1.5
巨大>1.5

基于这一量表,以下是主要研究结果的概述,以及我所能找到的最具说服力的支持性研究。同时,为便于比较,我也会列出 Bloom 的相关发现:

教学方法总体效应量对弱势群体的效应量Bloom 效应量主要参考文献
一对一辅导*很大-巨大VanLehn (2011)
(高质量)教育软件辅导*很大--VanLehn (2011),Kulik & Fletcher (2016)
精熟学习法**中等较大极大Kulik et al. (1990),Slavin (1987)
直接教学法**中等较大-Borman et al. (2003),Stockard et al. (2018)

* 如果导师特别优秀或教育软件质量特别高,教学效果可以达到巨大水平。

** 在传授特定领域的知识或小学阶段的基本技能时,精熟学习法(ML)和直接教学法(DI)对普通学生有较大效果,对弱势学生更是能带来极大效果。

2 直接教学法的实证依据

我在文章开头引用的元分析包含了一个文献综述,该综述指出所有先前的文献、系统性回顾和元分析均显示直接教学法具有强烈而积极的效果。这种研究结果的「高度一致性」相当罕见,甚至令人生疑。在教育研究领域,很少有方法能获得如此普遍的认可和毫无争议的好评。

借用一句网络流行语来说,直接教学法和精熟学习法就是教育的王。你可能不太认同这种方法,但就提高考试成绩而言,这确实是不容争辩的事实。

20 世纪 60 年代末,直接教学法(DI)被纳入「跟进计划」(Project Follow Through)。这是一项由美国政府资助的大规模教育研究项目,旨在长期跟踪并比较 20 多种教育干预方案在贫困社区的实施效果。全国各地的社区可以自主选择在当地学校推行的项目,其中 DI 被 19 个不同地区采用,这些地区在人口构成和地理特征上具有广泛的代表性。独立的评估机构采用多种对照组和分析方法,全面收集并评估了项目成效。最终结果令人瞩目:在所有评估指标上,唯有 DI 取得了显著的积极成效(Adams, 1996; Barbash, 2012; Bereiter & Kurland, 1996; Engelmann 2007; Engelmann, Becker, Carnine, & Gersten, 1988; Kennedy, 1978)。DI 的研发团队原本希望这一卓越成果能推动该教学法在教育界的广泛应用。然而,受到各种政治因素的影响,这一重要发现似乎只为少数学者和决策者所知(Grossen, 1996; Watkins, 1996)。

「跟进计划」中评估的部分干预方案包括(这些我此前都未曾听说):直接教学法、家长教育、行为分析法、西南实验室方案、银街方案、响应式教育、TEEM、认知课程和开放式教育。

研究表明,这些新型教育方法中的大多数实际上比传统学校教学产生了明显更差的效果。这一发现支持了一个重要观点:至少在「跟进计划」项目评估的指标上,教育方法的选择确实至关重要。特别值得注意的是,表现最差的开放式教育恰恰是一些追求创新的教师可能会认为很酷的方法:

这种方法着重培养孩子对自身学习的责任感。阅读和写作不是直接教授的,而是通过激发交流欲望来学习。这种模式的特点是灵活的课程安排、由儿童主导的选择,以及强调深度个人参与。

在这项元分析中发现的效应量约为 0.5,在社会科学研究领域,这被认为是相当显著的结果。

这项研究还分析了不同研究结果之间的变异性。由于研究方法的差异,可能会因为质量较差的研究过多而导致效果被夸大。然而,即使在控制了所有可能影响结果的因素后,这种效应仍然存在,至少研究者是这么声称的。而且这些控制变量几乎没有减弱这种效应:这似乎是一个非常稳健的现象,无论如何分析数据都会显现出来。

就元分析而言,这个结果看起来相当不错,甚至可能好得令人生疑。这让我不禁想起了 Daryl Bem 那项如今臭名昭著的元分析研究,该研究探讨了某些人是否具有预知未来的能力。事实上,如果基础文献本身质量堪忧,那么建立在其之上的元分析不可避免地会得出有偏差的结论。

2.1 对直接教学法的批评

鉴于先前的研究结果好得令人生疑,我特意搜索了一些针对直接教学法(DI)的批评。

其中一个广泛存在的批评,或者说是一个警告:大量关于 DI 的文献是由与国家直接教学研究所(National Institute for Direct Instruction,NIDI)有关联的人员撰写的,包括本文开头提到的那项元分析。然而,值得注意的是,该元分析本身并未发现 NIDI 赞助的研究与其他独立研究之间存在显著差异。

一位教育学教授的观点值得我们关注。他承认直接教学法(DI)确实能够实现其预期目标,但同时他也提出了一个值得深思的问题:采用这种教学方法是否会导致学习环境缺乏创造力、快乐和自发性?不过,需要指出的是,该教授并未提供支持这一论点的具体证据,而且我们先前提到的元分析研究也没有涉及这些方面的测试。

教育研究者 Alfie Kohn 在他的一篇文章中对直接教学法(DI)提出了批评,他的论述从「跟进计划」的研究开始。Kohn 还指出了一个值得关注的问题:根据他引用的一些案例,尽管 DI 技术能够帮助学生很好地掌握教学材料,但可能会限制学生的深度理解能力和知识迁移能力。具体而言,这些接受 DI 教学的学生可能无法对所学知识进行更深入的理解,或将其灵活地应用到其他情境中。

Eppley 和 Dudley-Marling (2018) 的研究指出,直接教学法(DI)的相关文献存在明显不足。他们审视了 2002 年至 2013 年间发表的研究成果,得出结论认为这些文献质量普遍较低。他们声称,DI 基本上没有效果,只在极少数情况下显示出微弱的作用。然而,值得注意的是,他们似乎并未对这一结论进行量化分析,也没有采用元分析的方法。更值得关注的是,他们忽视了先前那些确实发现 DI 具有积极效果的系统性综述和元分析研究。

有效教育策略资料中心(What Works Clearinghouse,WWC)对 7 项直接教学(DI)的研究进行了审查,但其中只有一项研究被认为质量足够高,可以纳入他们的证据总结。基于这唯一一项研究,他们得出结论认为 DI 没有效果。然而,需要特别指出的是,这项研究是一项随机对照试验,其研究对象是 164 名学前水平的学生(平均年龄约 5 岁),这些学生都有学习障碍,且智商非常低(平均智商 76)。

不出所料,NIDI 专门开辟了一个网页来回应上述 WWC 的结论。然而,考虑到 WWC 审查的研究数量有限,而且他们采纳的那项研究样本极其特殊,我决定不再局限于 WWC 的结论,而是转向研究更多其他的相关文献。这样可以获得更全面、更具代表性的研究结果。

值得一提的是,上述元分析的作者之一曾与他人合作发表了一篇论文(Stockton & Wood, (2016))。在这篇论文中,他们对一个广泛接受的观点提出了质疑,即在评估证据质量时应优先考虑随机对照试验。

反对直接教学法的阵营也不乏一些经不起推敲的论点

2.2 直接教学法元分析的质量

在这项元分析中,表 1 呈现了效应量数据,平均值约为 0.5,且围绕这个值的置信区间较窄。然而,当我们转向表 3,审视研究设计对效应量的影响时,发现采用随机试验的研究对结果有显著的负面影响,同样,根据初始分数或智商进行调整也会产生负面影响。有趣的是,样本量本身对结果的影响并不明显。

让我们尝试聚焦那些最高质量的研究,看看能得出什么结论。虽然他们提到有一个列出所有研究的附录,但遗憾的是我无法获取这些信息。

研究样本量研究重点效应量
Stockard et al. (2018)328 项研究本文讨论的元分析(作为参考)约 0.5
Flynn et al. (2012)64 名受试者6-12 岁寄养儿童。采用一对一辅导。随机对照试验。使用 (d)irect (i)nstruction。阅读:0.29,拼写:-0.08,基础数学:0.46
Cobern et al. (2010)180 名受试者8 年级学生,比较直接教学法(DI)和「探究式教学」(inquiry-based teaching,IBL)。随机对照试验。使用 (d)irect (i)nstruction。科学:0.12(相较于 IBL,差异不显著)
Harper (2012)91 名受试者6-13 岁寄养儿童,教育弱势群体。采用小组(4 人)辅导。随机对照试验。使用 (d)irect (i)nstruction。阅读:0.4,拼写:0.25,基础数学:0.34
Borman et al. (2003)48 项研究针对教育弱势儿童的元分析0.15~0.25(在评估的 29 种学习模式中排名前三)[2]
Stockard (2015)19 项研究回顾 Borman 评论后发表的 NIDI 研究。包含非随机对照试验。-1.1~1.13,平均值 0.35
Slavin (2011)1 项随机对照试验,3 项匹配研究多种方法的最佳证据综合随机对照试验为 0.25,匹配研究最高达 1.18。所有研究对象均为弱势学生,1.18 效应量的研究对象为智力障碍学生。随机对照试验来自一篇未发表的博士论文。
[2] 值得注意的是,Slavin 本人提出的 Success for All 方法在评估中也表现出色,位居前列。

我抽样研究了一些案例,但并非刻意挑选:一个规律浮现出来——绝大多数直接教学法(DI)研究都是以弱势学生为对象进行的。事实上,正如我们稍后在讨论精熟学习法时将看到的,教育方法对那些技能水平较低的孩子往往会产生更为显著的影响。Stockard 的元分析中引用了一项 1999 年的综述,该综述聚焦于普通教育而非弱势学生群体。然而,除了 DI 创始人 Adams 和 Engelmann 在 1996 年的著作外,该综述并未引用其他具体论文。这项综述发现 DI 的平均效应量高达 0.87,在普通教育和特殊教育中差异不大,而对成年人的效果更为显著(超过 1 个标准差)。

然而,考虑到这一效应值几乎是后来元分析结果的两倍,不禁让人对相关文献的质量产生质疑。纵观现有文献,DI 对低技能儿童确实似乎有一定影响,但这种影响可能不超过 0.4 个标准差。至于对普通儿童的影响,我们缺乏充分的研究依据。这或许是 DI 未能在普通教育领域得到广泛推广的原因之一。

3 支持精熟学习法的实证依据

可汗学院是最广为人知的大规模实施精熟学习法理念的案例。目前,一项针对该学习平台的随机对照试验正在进行中,初步结果显示这种学习方法并未产生显著影响。

Robert Slavin 主持的「最佳证据百科全书」网站致力于收集教育领域中有效方法的证据。该网站对多种数学教学方法进行综述,结果显示这些方法在中学和高中阶段未表现出明显效果,而在小学阶段仅有有限的证据表明可能存在较大效果。(他们只纳入了五项研究,效应量范围从 -0.18 到 1.08)。

考虑到先前的讨论,这一结果可能让人感到意外。然而,一个合理的解释是,这些研究并未采用完全一致的方法。就直接教学法(DI)而言,有专门的机构明确规定了其定义和具体实施方法。相比之下,精熟学习法则缺乏明确的界定标准,难以清晰区分哪些做法属于这一范畴,哪些则不然。

精熟学习法的元分析研究可追溯至 1983 年。该领域最后一项研究由 Kulik 等人于 1990 年完成,他们发现精熟学习法对学习能力较弱的学生效果显著(效应量 d=0.61),对学习能力较强的学生也有中等程度的效果(效应量 d=0.4)。值得注意的是,在他们的研究样本中,这两组学生之间的效果差异并不具有统计显著性。该元分析涵盖了为期数周至数月不等的教育项目,包括 K-12 教育和高等教育,涉及各类学科和不同程度的精熟要求(有些精熟学习方案要求学生达到完美水平,而其他则允许学生在测试中达到 80% 即可进入下一学习单元)。与 Bloom 的研究结果一致,要求更高的精熟学习法通常能够产生更好的效果。其中,最显著的效果差异似乎出现在精熟程度为 81-90 分和 91-100 分这两组研究之间。换言之,将精熟要求从 70% 提高到 80% 并不会带来太大改变,但将其提高到 90% 或 100%(即完美精熟)则能产生显著效果。需要特别关注的是,研究结果会因学生的测试方式而呈现出显著差异,这一点我们将在后续章节中详细探讨。当仅考虑标准化测试(即非教师或研究者自行设计的测试)时,效应量非常小(仅为 0.08)。相比之下,使用研究者或教师自制测试的效应量则更为可观,达到了 0.5。若仅考虑 Bloom 设计的精熟学习项目(即「为精熟而学习」,LFM),效应量更是高达 0.59。

Cook 等人(2013)对 82 项研究进行了元分析,探讨精熟学习法在医学教育中的应用效果。研究结果显示,这种学习方法在提升学习者技能方面效果显著(效应量达 1.29),在改善患者预后方面也取得了较好成效(效应量为 0.73)。然而,由于各项研究结果存在较大差异,研究者提醒我们需要结合具体情况来解读这些发现。如果这些结果确实可靠,无疑将为医疗保健领域带来重大利好!

在评估精熟学习法效果的主流研究中,Guskey(2015)的综合评估也对这种学习方法持积极态度。大多数系统性综述和元分析都支持精熟学习法的有效性,但 Slavin(1987)的研究是个例外。他选取了一部分他认为质量较高的文献进行分析,结果发现精熟学习法几乎没有效果。尽管如此,后续研究继续证实了精熟学习法的积极作用。Guskey 建议读者参考[3] Kulik 等人(1990)的文章,以了解为何许多学者质疑 Slavin 综述的可靠性。在此,有必要详细阐述 Slavin 的批评观点及其他研究者的回应,我将在下一部分进行探讨。在此之前,我会先完成对其他元分析的回顾。

[3] 有趣的是,在教育研究领域似乎存在一种所谓的 Slavin-Kulik 之争,涉及多个研究主题

Summaedu.org 网站汇集了多项关于精熟学习法的元分析研究。有趣的是,Kulik 早期进行的一项元分析(1983)显示精熟学习法的效应量很小(0.05),这与 Slavin 在 1987 年论文中得出的结论相近。这项早期研究针对 6 至 12 年级学生,而研究者认为对大学生而言,精熟学习法的效果仍然显著。然而,1990 年和 1987 年的元分析所涵盖的文献并不完全一致,即便是针对 K-12 教育阶段的部分也有所不同(需要注意,1990 年的元分析旨在覆盖所有教育阶段)。1987 年的论文致力于研究各种精熟学习法的实施方式,而 1990 年的研究则聚焦于两种特定模式(个性化教学系统和为精熟而学习)。更令人费解的是,Kulik 还有另一项元分析(1987)再次表明,精熟学习法对大学之前的教育同样有效。这真是让人摸不着头脑!

那么,1983 年的那篇论文到底怎么回事?

研究样本量研究对象效应量涉及的教学系统
Bangert-Drowns, Kulik & Kulik (1983)51 项中学教育0.05IPI、PLAN、PSI
Kulik, Kulik & Bangert-Drowns (1990)108 项涵盖所有教育阶段,但主要集中在大学0.52PSI、LFM

乍看之下,人们可能会认为这两项研究结果的显著差异,是因为大学阶段的教育效果明显优于其他阶段,而 1990 年的研究并未对不同教育阶段的数据进行细分。然而,事实并非如此。1990 年研究中关于大学以下教育阶段的效应量也与 0.5 左右的整体数值基本一致。这里的关键点,也是 Summaedu.org 网站在分析时所忽略的是,1983 年元分析中涉及的研究并不全然聚焦于精熟学习法,而是包含了更广泛的「个性化教学系统」。

我们的元分析最终纳入了 51 项符合全部入选标准的研究。其中,首要标准是实验班级必须采用个性化教学系统。我们将个性化系统定义为具备以下特征:课程内容被划分为章节大小的单元、课堂时间主要用于学生的个人学习,以及重视形成性评估。在大多数采用此类系统的班级中,学生可以按照自己的节奏学习课程内容,并且只有证明自己已经掌握了当前单元才能进入下一单元。不过,我们并不认为这些是界定个性化教学的绝对必要条件。我们对个性化系统的界定标准,与 Hartley 在 1978 年研究「个人学习包」时采用的标准相近。

所以就这?不完全是。因为该论文还根据是否要求学生达到精熟水平这一标准,对研究进行了进一步分类。结果显示,在采用精熟学习法的 26 项研究中,其效应量仅为 0.05。这一发现不但没有解答我们的疑惑,反而让问题变得更加扑朔迷离。

答案可以在 Kulik & Kulik(1989)的研究中找到。他们的研究同时指出,Bloom 的为精熟而学习(LFM)确实达到了预期的 0.5 个标准差的效果,而 1983 年论文中提到的个人学习包仅有 0.1 的效果。这种差异是什么原因造成的呢?最合理的解释是, IPI 和 PLAN 的运作方式与 PSI 和 LFM 存在显著差异,而且在元分析中,IPI/PLAN 的效果掩盖了 PSI 和 LFM 的效果。事实上,如果我们仔细查看元分析中的个别研究,尤其是那些效果为负的研究,就会发现它们似乎并非采用 LFM/PSI 方法。那么,是什么让 IPI 如此与众不同呢?表面上看,它与精熟学习法的定义非常相似:

个别处方教学(Individually Prescribed Instruction, IPI)由匹兹堡大学开发,基于「诊断-处方」的教学循环。教师通过安置测试将每个学生分配到特定的阅读、数学或科学单元。随后,学生使用适当的材料独立学习。教师评估学生是否已经掌握了知识,必要时会布置额外的作业。

然而,IPI 与 LFM/PSI 的一个关键区别在于:当学生无法取得进步时,IPI 会让学生重复学习相同的材料,而 LFM/PSI 则会为初次未能掌握的学生提供新的学习材料。

关于 IPI,我几乎找不到相关研究。不过,初步来看,精熟学习法似乎只有在补救性学习活动的质量足够高时才能真正发挥作用。

3.1 Slavin 的批评

Slavin 的批评并非采用元分析法,而是使用他称之为「最佳证据综合法」的方法。当研究文献中充斥着大量质量不佳的论文时,研究者必须首先进行筛选工作,剔除那些不够格纳入元分析的研究。这正是 Slavin 所采取的做法。

在探讨精熟学习法的本质时,Slavin 指出,这种方法之所以可能有效,是因为学生有更长的时间接触教学材料。然而,这对学习较慢的学生造成了一个两难困境:是应该以较浅的深度学习更多内容,还是应该深入掌握较少的内容?毕竟,教学时间是有限的。

Slavin 在审视两项控制教学时间的研究时发现,如果以「单位时间的学习效果」为衡量标准,精熟学习法的表现远逊于常规教学方法(效应量 d=-1)。这一结果表明,尽管精熟学习法可能在整体上效果更好,但其效率可能低于常规学习方法。以 Bloom 本人的研究为例,为补救性学习所分配的额外时间累计相当于每周增加一天的学习时间。因此,Slavin 强调,在研究中应该控制学习时间这一变量,因为真正起作用的可能仅仅是接触学习材料的时间,而非精熟学习法本身的任何特殊之处。然而,并非所有研究都考虑到了这一点。值得注意的是,许多精熟学习法的支持者仍然坚持,即便是在单位教学时间内,精熟学习法的效果也更为显著。

评估精熟学习法(ML)的教育效果时,一个值得关注的问题是研究人员可能会设计出偏向 ML 学生学习内容的测试,而这些测试与对照组的学习内容匹配度较低,从而导致评估结果产生偏差。例如,Anderson、Scott 和 Hutlock 在 1976 年的研究中考察了 1-6 年级学生的数学知识效应量。研究发现,教学期结束时的效应量为 0.64,三个月后降至 0.49。然而,当两组学生参加一项非研究者设计的外部数学测试时,效应量却变得微乎其微。类似地,Taylor 在 1973 年的研究中比较了学生在代数「基本必要技能」和「进阶技能」方面的表现差异。结果显示,使用精熟学习法的学生在基本技能上表现更佳,但在进阶技能上却不如对照组。值得注意的是,这项研究严格来说并未完全采用精熟学习法(每学期仅进行一次测试和纠正性反馈,而精熟学习法通常要求至少每月一次的更频繁评估)。尽管如此,在探讨「深入学习少量基础知识」与「广泛学习更多高级知识但掌握程度较浅」之间的权衡时,引用这项研究仍具有一定的参考价值。

接下来,Slavin 详细阐述了他用于筛选有效研究的标准。首先,他会排除那些仅仅比较第一年某个班级的成绩,与第二年新生班级采用精熟学习法后成绩的研究。原因是这些并非同一批学生,而且其他因素的变化也可能影响结果。其次,他会剔除未对控制组和实验组的初始能力差异进行调整的研究。第三,他会排除持续时间不足 4 周的研究。第四,他会剔除控制组和实验组各少于两个的研究。这样做是为了避免个别教师或班级可能带来的影响(需要注意的是,这些研究大多不是随机对照试验)。

在审视实际证据时,Slavin 考察了几种关于精熟学习法的主张。

在控制时间投入的情况下,精熟学习法效果更好。而且学生即使对那些未在定期评估中明确测试的概念也能掌握得更好。

然而,经过严格筛选,只有 7 项研究符合 Slavin 的质量标准(其中大多数是随机试验)。这些研究发现,中位效应量接近于 0,最大效应量仅为 0.25,而 Slavin 指出即便是这项研究也存在问题。这些研究的样本规模从最小的 6 个课堂到最大的 4 所完整学校不等,涵盖了 1 至 9 年级的数学和阅读课程。研究持续时间从 5 周到 1 年不等。值得注意的是,这些结果是基于「在相同教学时间下」这一前提的。

在控制时间投入的情况下,精熟学习法效果更好。学生准备得更好,但这种优势仅限于定期评估中明确测试的概念。

九项被认为具有充分说服力的研究显示,中位效应量为 0.255(范围在 0.18 到 0.27 之间),但这些研究在设计方法上存在异质性。一项在智利进行的大规模研究虽然被排除在外,但其效应量接近中位数。该研究还发现,对于学习成绩较差的学生,效应更为显著(0.58),而对学习成绩较好的学生则几乎没有影响。Slavin 之所以排除这项研究,是因为采用精熟学习法的班级平均社会经济地位和智商较高,且研究未对此进行调整。在那些测量知识保留率的研究中(最后一次考试后的几周或几个月),大多数结果表明实验组和对照组之间并无显著差异。

在引用的一项由 Bloom 在以色列的一位学生完成的研究中(Mevarech, 1986),对于家庭教育背景较低的学生(以父母未接受高中教育为标准),精熟学习法的效果接近传说中的「两个标准差」(效应量为 1.78);而对于父母接受过大学教育的学生,尽管也有显著进步,但效果相对较小(效应量为 0.66)。Slavin 随后分析了导致这一结果的可能原因,他提出了两个假设:首先,虽然学生是随机分配的,但教师并非如此,这可能导致某些教师表现特别出色,而其他教师表现欠佳。其次,可能是因为教师在运用精熟学习法时,过分聚焦于考试中可能出现的具体概念,而非传授更为广泛的知识。

如果不控制时间投入,精熟学习法效果更好。

有四项研究符合这一标准,它们显示精熟学习法的效应量接近于零,针对长期记忆保持的研究结果也是如此。当然,也有少数研究发现了较大的效应量,Slavin 对此进行了讨论。

Slavin 的结论是,

基于小组的精熟学习法在实践应用中的最佳评估证据显示,这种方法在研究者自制的、与教学目标密切相关的成绩测试中表现出中等程度的积极效果,但在标准化成绩测试中几乎没有效果。这一发现支持了一种「弱论断」:精熟学习法能够有效地引导师生关注特定的教学目标。然而,它并不支持「强论断」:即在相同时间内,与传统教学相比,精熟学习法在全面评估学习内容和掌握程度的测试中更为有效。值得注意的是,就连这种「聚焦课程」的论断也面临质疑,主要原因有二:首先,我们无法确定对照组教师是否也在追求与精熟学习组相同的教学目标;其次,精熟学习法在知识保持测试中未能显示出显著效果。

这些结论与早期研究者和元分析专家的观点存在明显分歧。本文回顾的 17 项研究的平均效应量不仅远低于 Bloom(1984a, 1984b)、Guskey 和 Gates(1985)、Lysakowski 和 Walberg(1982)或 Walberg(1984)所声称的约 1.0,而且没有任何一项研究达到这个水平。在这 17 项研究中,仅有 2 项(出自同一作者)的平均效应量超过了 Kulik 等人(1986)对大学入学前掌握测试研究所估计的 0.52 平均值。那么,如何解释这种巨大的差异呢?

首先,Slavin 剔除了他认为质量欠佳的研究,仅保留了先前元分析中约四分之一的研究。其次,他还纳入了未发表的研究,认为这些研究受到发表偏见的影响较小。此外,Slavin 特别对学生的初始能力分数进行了校正,这是之前的元分析所忽略的。

随后,Slavin 探讨了为何精熟学习法尽管在理论上很有吸引力,但实际效果可能并不显著。

可能的原因之一是教师未经过充分培训,或者用于补救性教学的材料质量不佳。事实上,他指出一些研究在解决这两个问题后,经过一年的教学确实观察到了积极效果;Mevarech(在与 Slavin 的私人交流中)也强调,这些教材的质量至关重要。另一种可能是,这些额外的补救性课程需要更长的时间才能产生效果:

关于学生使用个性化学习材料的学习进度研究普遍发现,最慢的学生比最快的学生需要多出 200% 到 600% 的时间才能完成同等数量的学习内容(Arlin & Westbury, 1976; Carroll, 1963; Suppes, 1964)。这远远超过了采用精熟学习法的学校可能为补救性教学提供的时间(Arlin, 1982)。

还有一种可能是,反馈应该每天提供,而不是仅通过每周测试提供。

关于精熟学习有效的原因,Slavin 对提出了新的见解。他认为,精熟学习法在某些情况下之所以有效,关键并非在于要求学生达到精熟水平或提供补救活动,而是在于对学生进行测试,并就其知识缺口提供反馈,然后继续下一个教学单元。Slavin 引用了一项对比两种教学模式(教学-评估-纠正和教学-评估)的研究。结果显示,这两组学生的表现均优于测试频率较低的对照组,但两组之间并无显著差异。这种现象被称为测试效应

关于 Bloom 提出的「两个标准差问题」,Slavin 对其理论框架本身提出了质疑:

「2 标准差挑战」(或「1 标准差声明」)若脱离具体背景,可能会产生误导,并可能对教育研究造成潜在危害,这种影响不仅存在于精熟学习法领域,也存在于其他教育研究领域。这是因为它可能导致研究人员低估那些更实际的成果,其范围可能在个体标准差的 20% 到 50%,但是他们更加真实,容易复刻和推广。例如,如果一项教育干预措施能够每年稳定地产生 0.33 的效应量,假设将其应用于低收入阶层的学校,就有可能在 3 年内消除低收入阶层和中产阶级儿童之间典型的学业差距——这无疑是一项重大成就。然而,Bloom 等人宣称的巨大效果,可能会导致那些仅能达到 0.33 效应量的研究人员质疑自己方法的价值。

这种观点确实有其道理:我之所以选择评估精熟学习法而非其他主题,正是因为 Bloom 声称它能带来显著效果!

3.2 对 Slavin 的回应

Bloom 本人(1987)在回应中强调,在他的为精熟而学习(LFM)系统中,真正有效的精熟学习法必须包括学生之间的互帮互助,共同完成纠正性活动。然而,在 Slavin 的首次声明研究中,只有一项研究符合 Bloom 的这一定义。关于实验者自制测试和标准化测试的对比,Bloom 更倾向于前者,因为这类测试能够准确涵盖教学的具体目标。在回应的结尾,Bloom 以充满激情的语气表示:

当几乎所有儿童都有可能达到高水平学习时,剥夺他们成功学习的机会无异于对人类的犯罪。

Slavin(1987)在回顾上述批评和其他相关评论时,首先指出双方只在少数几点上达成共识。他们一致认为:LFM 对标准化测试成绩没有影响;在至少持续 4 周的研究中,精熟学习法的效果远低于 1 个标准差(不过 Slavin 倾向于采用更为严格的标准);此外,精熟学习法确实需要额外的教学时间才能发挥效果(Bloom 明确指出这是该方法奏效的必要条件)。

争议的焦点在于标准化测试是否能够有效评估学习成果。这些测试的内容范围通常超出了精熟学习小组的实际教学内容。而且,由于采用精熟学习法的教师并不了解具体的测试内容,他们难以针对性地进行「过拟合」式的教学。

在收到上述批评后,Slavin (1989)发表了一篇回应文章。据我所知,这篇文章并未引发进一步的学术讨论。Slavin 在文中回顾了其他学者(如 Kuliks、Guskey、Bloom 等)对他先前评论的看法。值得注意的是,Guskey 甚至暗示 Slavin 是在蓄意诋毁精熟学习法。然而,Slavin 表示他对这种教学方法并无异议,更强调他自己创立的「全员成功」(Success for All)教育方法也是建立在精熟学习法的理念基础之上的。Slavin 在分析中采用的标准——关注较长期(超过 1 个月)的研究结果——在我看来是合理的。事实上,导致学前教育认知收益研究失去说服力的,正是这种随时间推移而出现的效果消退现象。

最后,Slavin(1990)发表的《再次重新审视精熟学习法》一文中,对此前提到的 Kulik-Kulik-Bangert-Drowns 的回应做出了回复。值得注意的是,即便将更新的研究纳入考虑范围,如果我们采用 Slavin 的方法学标准来评估这些较新的研究,Kulik 等人的元分析得出的结论将与 Slavin 的发现保持一致。

然而,评估精熟学习法有效性的核心问题实际上是一个价值观的问题。研究发现,在研究者设计的测试中,精熟学习法确实产生了积极效果。这可以理解为,该方法能够帮助教师更好地聚焦于特定的教学目标。因此,那些认同这一价值的教育工作者有充分的理由采用基于小组的精熟学习法。尽管如此,关于精熟学习法能够全面提升中小学生学习成绩的说法,目前仍缺乏令人信服的证据支持。

Kulik、Kulik 和 Bangert-Drowns (1990) 对我此前提及的 Slavin 的研究作出了简要回应。他们指出 Slavin 的研究存在几个局限性。首先,Slavin 未能考虑精熟学习法的其他系统,他主要研究了基于小组的研究(LFM),而忽视了基于个人的研究(PSI)。其次,Slavin 的研究重点放在了大学以下的教育阶段,然而大多数 LFM 研究实际上是在大学阶段进行的。这些作者认为,如果仅限于 Slavin 所回顾的文献范围,他们与 Slavin 的观点并无实质性分歧。然而,他们批评 Slavin 的论文中竟然包含了一些没有精熟学习组的研究(!),这一点令人不解。为佐证他们的观点,作者引用了 Dunkelberger & Heikkinen (1984) 以及 Fuchs, Tindal & Fuchs (1985) 的研究。随后,这些作者分析了 11 项他们与 Slavin 都认为质量可靠的研究。研究结果显示,在考官自制的测试中,精熟学习法的效应量介于 0.36 到 0.45 之间;而在标准化测试中,效应量为 0.09。这一发现似乎与 Slavin 的结论有相当程度的一致性。

这些作者也坦诚承认:

然而,现有的研究数量不足,使我们难以对 LFM 效应量的估计充满信心。因此,我们期待看到更多关于 LFM 效果的研究,特别是它在标准化测试方面的影响。

在更多研究开展之前,研究人员应当牢记当前的研究结果:使用 LFM 学生在针对本地课程设计的测试中明显优于其他学生,而在涵盖多个学校系统和年级水平目标的标准化测试中,他们仅略微领先。目前没有证据表明 LFM 对任何类型的学生学习有负面影响。

最后,教师和研究人员应该跳出 Slavin 关注的狭小研究范围,从更全面的角度来了解精熟学习法。他们可以在更广泛的精熟学习法文献中找到更稳定可靠的效应量估计。此外,他们还可以了解精熟学习法对情感和行为的影响;精熟教学在不同条件下效果的强弱;班级中哪些学生最受精熟方法转变的影响等等。我们认为,LFM 对大学以下的考试的影响只是整个画面中的一小部分。

如今,在回顾这些内容并阅读了相关辩论后,Guskey 在 2015 年的评论中对 Slavin 的评论所做出的批评似乎极为不公平:

然而,对这项评论进行深入审视后发现,其研究采用了有效性存疑的技术(Hiebert, 1987),选择标准缺乏一致性(Kulik et al., 1990b),结果报告存在偏见(Bloom, 1987; Walberg, 1988),而且所得出的结论也缺乏充分的证据支持(Guskey, 1987, 1988)。更为关键的是,随后发表的三项更为全面且方法学更为严谨的综述(Guskey and Pigott, 1988; Kulik et al., 1990a; Miles, 2010)不仅证实了精熟学习法对广泛学生学习成果的持续积极影响,其中一项(即 Kulik et al., 1990b)更是清晰地揭示了这份早期报告的失真。

如果你想继续阅读更多有关这篇文献的历史以及早期元分析的弱点的信息,请阅读 Evans (2018) 的第 2 部分。

3.3 样本量

Kulik 元分析中的样本量是多少?论文本身没有说。但 Guskey & Pigott (1988) 对基于小组的精熟学习法的研究确实提供了样本量。大多数研究的样本都在 100 人以下;但最大的研究(每组约 200 名和约 400 名学生)仍然发现很大(最大为 0.5 和 1)影响。(其中很大一部分是我上面讨论过的智利 Cabezon 研究)。作者注意到相关文献质量低下,结论不一。

研究结果差异的另一个潜在原因可能是对教学干预方法界定不够精确,或者在实施过程中未能严格遵循原有设计。

学界对精熟学习法的本质存在诸多争议。调查数据显示,打着「精熟学习法」旗号的教育项目差异悬殊(Jones, Rowman, & Burns, 1986)。如果缺乏教学模式、学生反馈与纠错活动特点,以及学习评估具体方法等详细信息,就很难判断某项教学干预是否真正体现了 Bloom (1968) 的理念。许多研究也未能充分描述非精熟学习法对照组的具体情况。这些研究中涉及的项目和教学方法五花八门,无疑是导致研究结果不一的重要原因。

值得一提的是,这一领域的文献中有相当大比例是博士论文和会议论文。这本身并不是问题,但确实是个有趣的现象;我从未见过这样的文献构成!

3.4 最新研究

上述元分析主要关注较早的研究,我们不妨看看一些最新的研究成果,看看这些效应是否依然存在。

Jerrim 等人 (2015) 对在伦敦的 7 年级学生进行了一项数学精熟教学计划的研究,样本量超过 5000 名学生。该研究采用了随机对照试验(RCT)的方法,但结果显示没有发现显著效果(效应量 d=.06)。然而,需要指出的是,这项试验所检验的内容与早期的相关研究并不完全相同:

值得特别注意的是,数学精熟项目与此前研究的一些精熟学习法有着显著区别。例如,先前研究中许多效果显著的项目都有一个共同特征:学生在完成每个知识模块后必须参加测试,并达到约 80% 的高分要求。未达标的学生需要接受额外指导,而达标者则参与旨在深化对同一主题理解的拓展活动。然而,数学精熟项目采用了不同的方法。该项目的开发者致力于为所有学生提供「在整个学习过程中通过丰富活动加深理解的机会」。

在数学精熟项目中,班级在初次学习每个概念或程序时会投入比常规更多的时间,但即使有些学生尚未完全掌握,也不会显著推迟新主题的开始。相反,该项目的目标是让大多数学生在规定时间内深入理解核心概念,同时为有落后风险的学生提供针对性的辅导。

Vignoles 等人 (2015) 在同一研究中针对一年级/幼儿园学生的调查也得出了类似的结论。

Kalia (2005) 在印度进行了一项规模相对较小的研究,每组仅包含 30 名学生(总计 90 名),比较了基础教学、精熟学习法和其他学习方法的效果。研究报告了 1.64 的效应量。然而,我认为这项研究的可靠性值得商榷。

Miles (2010) 在其博士论文中报告了 d=0.53 的效应量,但同样样本量偏小(对照组 43 名学生,实验组 36 名学生)。遗憾的是,我无法获取该研究的原始资料进行详细审查。

4 支持一对一辅导(包括软件辅导)的实证研究

在探讨了精熟学习法之后,让我们将注意力转向一对一辅导。毕竟,在 Bloom 的研究中,这种方法取得了最佳效果。

需要特别指出的是,Bloom 的「两个标准差」论文中接受辅导的学生不仅仅是单纯接受辅导,而是通过辅导来帮助他们实现精熟学习法。更值得注意的是,根据 VanLehn (2011) 的研究,对学生的要求标准也存在差异:接受辅导的学生被要求达到更高的标准。VanLehn 的研究更全面地比较了两种计算机辅导系统和人工辅导相对于完全没有辅导情况下的相对效果。

有人可能会这样解释一对一辅导的有效性:辅导老师能够准确评估学生的能力水平,洞察他们的薄弱环节,并且总体上能够构建一个关于学生学习方式的模型,从而更有针对性地指导他们的学习。然而,VanLehn 对这一解释持怀疑态度[4]:

尽管人类导师通常能辨识出学生尚未掌握的正确知识点,但他们往往难以洞察学生的误解、错误信念和技能缺陷(M. T. H. Chi, Siler, & Jeong, 2004; Jeong, Siler, Chi, 1997; Putnam, 1987)。更值得关注的是,导师极少提出能有效诊断学生具体误解的问题(McArthur, Stasz, & Zmuidzinas, 1990; Putnam, 1987))。

当人类导师获得学生知识掌握程度的信息时,他们的教学行为会相应调整,可能会提高教学效果(Wittwer, Nuckles, Landmann, & Renkl, 2010)。然而,即便向导师提供了学生误解、技能缺陷和错误信念的详细诊断信息,他们的教学行为和效果也并未显著改善(Sleeman, Kelly, Martinak, Ward, & Moore, 1989)。

Siler (2004) 的研究进一步揭示,长期辅导同一名学生的导师,尽管有机会深入了解学生的优势、劣势和学习偏好,其教学效果并不优于那些频繁更换学生、难以深入了解每个学生的导师。简言之,人类导师似乎既难以自行识别学生的误解、技能缺陷和错误信念,也难以有效利用已提供的这类评估信息。

[4] 需要指出的是,尽管研究文献普遍认为导师的效果不如预期,但这并不排除存在「超级导师」的可能性。这些优秀的导师可能为学生带来显著进步,只是这种效果在现有研究中未被充分捕捉和量化。

那么,这就是一对一辅导能达到的最佳水平吗?显然不是。

VanLehn 考察了影响一对一辅导效果的多种可能因素。他探讨了导师是否运用了复杂的教学技巧,是否为每个学生量身定制任务,是否能用丰富的领域知识来补充解释,或者导师是否起到了激励作用。然而,他发现这些因素通常并不存在,即使存在,也不会对所测量的预期学习成果产生显著影响。

VanLehn 认为,以下三点可能合理解释了一对一辅导的效果:

  1. 导师针对学生的错误给予反馈。他们会要求学生解释自己的思路,并指出学生错误的假设或概念。

  2. 导师通过提出相关问题来引导学生的推理过程。VanLehn 举了一个简单的例子:当学生回答「在真空中,高尔夫球和羽毛哪个掉得更快」这个问题时,学生给出了正确答案,但理由不够充分(仅仅是因为看过相关视频)。老师接受了答案,但继续追问原因,最终引导学生得出更合理的解释。与被动的反馈不同,这种方法更具主动性和预见性。

  3. 导师调节学生的行为频率,鼓励他们在学习过程中更加积极主动,增加互动。这种假设认为,这类活动能够促进更好的学习效果。例如,面对一个只是被动听讲的学生,导师可能会鼓励他做笔记,深入阅读讨论主题的相关资料,或在不理解时主动提问。

VanLehn 随后分析了几个(小样本)研究案例(涉及向医学生教授心血管生理学和基础物理学等课程)。研究比较了三组学生:未接受辅导、接受软件辅导,以及接受人类导师辅导的学生。研究结果显示,辅导确实能够显著提高学习效果。然而,出人意料的是,人类导师的辅导并未表现出比软件辅导更为优越的效果。

随后,VanLehn 对更广泛的相关文献进行了深入审视。研究发现,辅导的平均效果似乎[5]达到了 d=0.79。尽管这个数值不完全等同于 2 个标准差的提升,但仍然代表了一个极其显著的效果。值得注意的是,高质量的软件辅导系统也能达到类似的效果。VanLehn 指出,高质量软件的关键在于能够提供非常细致且具体的反馈。然而,他也发现这种效果存在一个上限:当反馈的细致程度达到某个临界点后,继续增加解释的精细度并不能进一步提升学习效果。

[5] 然而,研究表明,对于来自低社会经济地位(SES)家庭的学生,这些教育方法的效果似乎较为有限(Dietrichson et al., 2017

VanLehn 意识到,他的研究结果与 Bloom 先前的发现存在一定差异,因此他深入探讨了可能导致这种差异的原因。首先,他考虑了辅导者的专业知识是否能够带来额外一个标准差的提升。答案是否定的,相关研究并未发现辅导者的专业知识能产生实质性的效果。随后,VanLehn 仔细分析了先前那两项发现「两个标准差」提升的研究,试图理解其中的原因。有趣的是,这些研究中的辅导者并不具备特别高超的技能。值得注意的是,正如本节开始时提到的,这些研究中接受辅导的学生是采用了特别严格的精熟学习法进行学习的。

他分析的另一项研究虽然后来被重复验证,但发现其效应量较小(d=0.52)。在相关文献中,最大的效应量为 0.82。值得注意的是,这些研究大多采用小样本,因此结果的高度变异性是可以预见的。他还指出,这些研究可能无法全面代表所有导师的情况。很可能存在一些优秀的导师未被纳入这些研究的评估范围。此外,从更宏观的角度来看,VanLehn 推测人工辅导未能显示出比高质量的软件辅助辅导更好的原因在于,普通导师往往缺乏有意识地练习和提升自身技能的习惯,也很少能从学生那里获得长期的反馈。

Bloom 报告的 d=2.0 效应量,似乎主要源于对受辅导者设定了更高的精熟标准。具体而言,受辅导者必须在精熟掌握测试中达到 90% 的得分才能进入下一个单元学习,而采用精熟学习法的课堂学生则需要在同样的测试中达到 80% 的得分,普通课堂对照组的学生虽然也参加测试,但无论得分如何都会继续学习下一单元。因此,Bloom (1984) 的文章实际上正如他本人所期望的那样,更多地展示了精熟学习法的强大效果,而非人工辅导的有效性。

近期的研究(Ma et al., 2014)进一步证实了这一总体结论:智能辅导系统的效果与人工辅导旗鼓相当。实际上,智能辅导系统的效果可能略显逊色,其效应量较小(g=0.4)[6],而且这些研究似乎不存在发表偏倚。聚焦计算机科学这一特定领域,Nesbit et al. (2014) 发现,与传统课堂教学相比,软件辅导展现出显著效果(d=0.67)。值得一提的是,他们还发现,高质量的软件辅导系统相较于最基础的计算机辅助教学,效果更为突出(d=0.89)。在这种分类体系中,Coursera 可被视为一种非常基础的系统。其他针对大学生群体的元分析研究(Steenbergen-Hu & Cooper, 2014)发现,人工辅导的效果确实优于智能辅导系统,这与 VanLehn 的结论相悖。然而,当按软件质量细分(他们将其划分为基于子步骤和基于步骤的辅导)时,研究结果又与 VanLehn 的发现不谋而合。

[6] 在小样本情况下,Hedges g 值通常低于 Cohen's d 值,但在其他方面,这两种效应量指标基本相似。

Kulik & Fletcher (2017) 开展的另一项元分析主要聚焦于 6 年级及以上的学生群体。(Fletcher, 2018) 的研究进一步证实,即使对于年龄较大的学生和较为复杂的学科,采用软件辅导系统仍能带来显著的学习效果提升。值得注意的是,在高等教育领域,软件辅导的效果比在中小学教育中更为显著(效应量分别为 0.75 和 0.44)。Fletcher 还强调,对于大学以下教育中常见的相对简单的学习场景,像直接教学法(DI)这样的「练习与实践」系统就能发挥很好的作用,而且成本较低。

迄今为止,效果最为显著的案例当属 DARPA(美国国防高级研究计划局)的数字导师项目。该项目旨在培训美国海军的信息系统技术人员。研究比较了为期 16 周的基于软件的课程和 35 周的传统课堂课程。在 Kulik 的元分析中报告的两次评估结果令人瞩目:效应量高达 1.97 到 3.18。更加令人惊叹的是,接受软件培训的学生在表现上甚至超越了他们的指导者!

4.1 DARPA 的研究

本节内容主要基于 Fletcher & Morrison (2012)Fletcher & Morrison (2014)

2010 年,DARPA 资助的海军数字导师(Digital Tutor,DT)系统进行了两次试验。第一次试验在 4 月进行,为期 4 周;第二次在 11 月进行,为期 8 周。整个试验过程由独立的第三方机构——国防分析研究所(IDA)全程监督。这项研究采用了随机对照试验(RCT)设计。研究人员还使用武装部队资格测试(AFQT)测量了对照组和实验组参与者的智商水平,以确保两组之间基本相当(也确实如此)。

DARPA 的研究成果令人振奋。其效应量之大、验证方式之多样,似乎已经实现了 Bloom「两个标准差」的教育理想!更值得关注的是,与传统的精熟学习法相比,采用数字导师(DT)系统的学生仅用不到一半的时间就取得了这一成就。诚然,有人可能会质疑,知识测试和实践考试中的出色表现或许源于部分试题由 DT 系统开发者提供。然而,口试并非如此,而且所有测试都经过了外部专家的审核,被认定为公平合理。因此,尽管测试内容与 DT 教学内容的高度契合可能在某种程度上影响了结果,但我们仍有充分理由相信这项技术带来了实质性的进步。

有观点认为,鉴于样本量较小,我们不应过分重视这项研究。但我认为,我们有充分理由认真对待这些结果。首先,从统计学角度来看,如果预期效应量为 1,要达到 80% 的统计检验力,每组只需约 17 名受试者,这与 DARPA 的样本规模相当。其次,研究并非仅依赖单一测试,而是通过多项测试一致地展示了显著效果。再者,研究共进行了三次试验(2009 年的初步测试和 2010 年的两次完整试验),所有结果都得到了如实报告。最后,每次试验都包含大量问题,仅知识测试就超过百题。虽然在单个问题上可能存在偶然因素,但在如此全面的评估中,这种可能性微乎其微。

基于前期研究结果,研究人员进行了进一步的测试。他们比较了三组人员的表现:参加 16 周数字化辅导(DT)课程的学生、参加 35 周常规课程的学生,以及一组平均拥有 9 年经验的专业技术人员。尽管样本量较小,但结果仍然显著:在实践考试中,DT 课程的学生明显优于专业技术人员(效应量 d=0.85),也大幅超过了学习时间是他们两倍的常规课程学生(效应量 d=1.13)。口试结果也呈现出相似程度的优势。

总的来说,这些发现为基于软件的辅导方法的潜力提供了有力证据;值得注意的是,研究不仅评估了学生的理论知识,还通过多种方式测试了他们将知识付诸实践的能力。

4.2 开发高质量的辅导软件是一项挑战

在上述研究中,一个普遍的主题是比较高级和简单的计算机辅导系统。事实上,开发优质的辅导软件是一项艰巨的任务。若要全面探讨辅导软件的相关问题,恐怕需要撰写一篇专门的长篇综述[7]。

[7] 关于这个问题,可以参考 Slate Star Codex 博客上的这篇文章[1]。在文中搜索「Why is it so hard to make effective teaching software」(为什么开发有效的教学软件如此困难)这一部分。

在一篇综述文章(Alkhatlan & Kalita, 2018)中,从设计角度深入探讨了智能辅导系统(ITS)的特征。该文指出,最优秀的人类导师的表现仍然优于最先进的软件系统,这一结论并不令人意外。这为 VanLehn 先前的研究评述增添了新的层面:尽管普通水平的人类导师可能与顶尖软件系统的平均表现不相上下,但最出色的导师却能够实现软件无法企及的教学效果。这种情况不难理解,因为一位卓越的导师完全可以为学生安排使用软件辅导系统,同时辅以其他富有成效的教学活动。

Andy Matuschak 在私人通讯中指出,开发高质量教育软件面临的主要挑战在于:开发者不仅需要具备出色的创造性问题解决能力,还要拥有相关领域的专业知识,才能将知识和解释有效地转化为优秀的软件产品。许多教育软件是由博士生开发的,但往往在完成后就被搁置一旁。即便是由 DARPA 开发的辅导系统,似乎也由于某些原因尚未投入实际应用。

5 看看其他领域

在完成了对本文核心主题的回顾之后,我们有必要看看其他相关领域,这些领域背后的证据似乎更好,看看我们应该期待什么。毕竟,如果我们知道没有其他教育干预措施的效应量超过 0.1,那么我们考虑的干预措施就不太可能那么特别。实际上,本节试图将我已经讨论过的内容置于上下文中。

5.1 教育研究的整体可靠性

对教育研究领域的整体状况有所了解,能让我们对采用大规模随机对照试验(RCT)来检验某些方法可能产生的结果形成初步预期。假设我们对精熟学习法一无所知,根据 Hugues & Matthew (2019) 的研究发现,我们应该预期它只会产生极其微小的正面效果。他们的研究表明,大多数大规模教育 RCT 往往缺乏信息(uninformative)。

那么,这里所说的缺乏信息究竟是什么意思呢?作者将一项研究定义为「缺乏信息」,是指「研究结果既无法证明相关干预措施有效,也无法证明其无效。因此,一项 RCT 是否具有信息,取决于其效应量大小以及对该效应量估计的精确程度。」

他们审查了 190 项他们认为质量上乘的 RCT,这些试验都是在 2018 年 6 月之前进行的,研究对象为 K-12 学生,并采用了某种定量的学业指标(如考试成绩)。研究发现,平均效应量为 0.06,且具有高度异质性。即便进行了子分析,也未能发现平均效果明显更强的情况;而且置信区间普遍较大。面对诸如 0.06 +/- 0.3 这样的效应量,我们该如何理解和解读呢?

研究者们发现,对各种教学方法进行综合分析得出的效应量,小于单独研究中的发现。针对这一结果,作者提出了几种可能的解释:首先,现有文献可能不可靠;其次,所采用的干预措施可能本身就缺乏实际效果;再者,干预措施的设计可能存在不足,无法有效检测潜在的真实效果。具体而言,在实际教育环境中应用的教学方法可能不如实验室条件下测试的方法那样有效。与大多数研究一样,作者们认为有必要进行更深入的研究,以揭示这一现象背后的原因。

在本研究中,作者提到了我先前讨论过的 Jerrim 等人(2015)的论文。该论文与本文献综述的研究重点最为相关,而其他提及的文献似乎既不涉及直接教学法,也不涉及精熟学习法。

那么,根据这项大规模随机对照试验综述,哪些干预措施被证明是有效的呢?我将在下文列出最具成效的干预措施,包括它们的效应量、证据质量评估以及贝叶斯因子。[8]

[8] 在统计推断中,贝叶斯因子是一个重要指标。当贝叶斯因子大于 10 时,被视为反对零假设的强有力证据。而当贝叶斯因子超过 100 时,则被认为是决定性证据。

这些项目都针对学业风险学生,与直接教学法研究类似。如果我们从表面上看,其效应量也与直接教学法研究发现的结果相近。

Cheung & Slavin (2016) 研究了影响研究效应量的因素。他们发现,最主要的两个影响因素是样本规模和用于评估学生表现的测试类型:

5.2 通过刻意练习改进的可能性

刻意练习——即长期系统性地「适当」练习某项技能——是另一个与此密切相关的研究领域。深入探讨刻意练习的理论和实践,可以帮助我们更准确地评估一对一辅导和精熟学习法可能带来的效果,从而为这些教育方法设定合理的期望值。

最新的一项元分析研究(Macnamara et al., 2014)探讨了刻意练习在多个领域的影响。研究显示,在游戏、音乐或体育等领域,练习与表现提升存在一定程度的关联,可以解释 18% 到 26% 的表现差异。然而,在教育领域,这一数字仅为 4%。另一项专门针对体育领域的元分析(Macnamara et al., 2016)得出了类似的结论。值得注意的是,在职业运动员群体中,累积的刻意练习仅能解释 1% 的表现差异。这可能是由于刻意练习存在递减的边际效益,而在精英运动员层面,遗传因素成为了决定性的区别因素。毕竟,如果每个人都在努力训练,一天中可用于训练的时间是有限的。研究还发现,运动员开始训练的年龄与其表现水平并无显著相关性。对于内部节奏型运动(如飞镖)和外部节奏型运动(如排球),刻意练习对前者的效果似乎更为显著(可以解释 41% 的表现差异)。这一结果符合逻辑,因为内部节奏型运动的随机性较小,但元分析在统计学上并未达到显著水平(p=0.08)。

在本次元分析中,Güllich (2014) 对曲棍球运动员的研究揭示了一个引人深思的现象:奥运会金牌得主的累积刻意练习时间平均为 3,556 小时(标准差 1,134 小时),而那些仅在国内顶级联赛打球但未在国际赛场上取得突破的运动员,其练习时间平均为 4,118 小时(标准差 807 小时)。令人惊讶的是,这两组运动员在练习时间上的差异并不显著。同样,Johnson, Tenenbaum 和 Edmonds (2006) 针对游泳运动员的研究也得出了类似的结论。他们发现,成就卓著的游泳运动员平均练习时间为 7,129 小时(标准差 2,604 小时),而尚未达到相似成就水平的游泳运动员的平均练习时间为 7,819 小时(标准差 2,209 小时)。这两组游泳运动员在累积的刻意练习时间上同样不存在显著差异。

那国际象棋呢?国际象棋大师的卓越表现是源于刻苦练习,还是得益于与生俱来的棋艺天赋?至少从智力这一因素来看,答案并不那么简单明了。Burgoyne et al., 2016 对业余和熟练棋手(ELO 等级分在 1311 到 2607 之间)进行的元分析显示,智力与棋艺的相关系数不超过 0.35。这意味着智力因素仅能解释棋艺水平差异的约 6%。更值得注意的是,如果我们将研究范围缩小到职业棋手,这一相关性会进一步降低到 0.14。然而,这并不意味着剩下的 94% 完全由练习决定。事实上,如果我们从更宏观的角度考虑遗传因素,情况会更加复杂。Vinkhuyzen et al., 2009 的研究表明,国际象棋技能的遗传度可能高达 48%。

刻意练习究竟能产生多大的影响呢?Burgoyne & Nye, 2019 的研究中,对一群中高水平的国际象棋选手(ELO 分在 1150 到 2650 之间)进行了分析。结果表明,刻意练习可以解释 34% 的技能差异。然而,这并不意味着刻意练习对初学者就不重要了。恰恰相反,对新手而言,练习几乎就是一切。虽然更高的智力或更好的记忆力可能让棋手更善于评估局面,但正是通过练习,棋手才能够掌握进行这种评估的基本能力。只有当一个人跨越了初学者阶段,先天才能的影响才会逐渐显现。

Ericsson (2016) 提出了不同的见解。他坚信刻意练习极为重要,但他批评 Macnamara 等人对刻意练习的定义过于宽泛。在 Ericsson 看来,只有一种非常特殊的练习才能被称为真正的刻意练习:那就是在教练或老师的指导下精心设计和实施的练习。

Ericsson 提出了一个典型案例来支持他的观点:对国家级和国际级运动员进行一对一指导。他指出,运动员与教练相处的时间与其表现呈现高度相关性(相关系数超过 0.8)。值得注意的是,Ericsson 得出这一结论的研究并未被纳入 Macnamara 等人的元分析中。在评估指标的选择上,两者也存在分歧:Macnamara 等人接受主观评估作为有效指标,而 Ericsson 则坚持应当仅使用客观指标。Ericsson 甚至声称,目前尚未发现任何可以解释个体表现差异的基因。然而,这一说法显然是不成立的,尤其是在涉及高智力要求的任务中。即便我们尚未能确定具体的基因,但运动表现的遗传率并非可以忽略不计这一事实,强烈暗示了成就很可能具有遗传基础,尽管目前我们还无法识别出具体的基因。

Macnamara 等人在 2016 年的回应中指出了 Ericsson 论点的两个问题:首先,Ericsson 自己在研究刻意练习时也采用了非客观的评估方法;其次,Ericsson 在实际研究中使用的刻意练习定义,并不如他现在所主张的那样狭窄。尽管存在这些分歧,Macnamara 等人仍然按照评估方法的类型进行了详细分析。结果显示,虽然客观评估方法确实表明刻意练习的效果更为显著,但其解释力仍然有限,仅能解释总体表现差异的不到 25%。

最后,Moreau, Macnamara & Hambrick (2018) 对认知表现提升领域的文献进行了更为全面的审视,涉及毅力、成长心态、大脑训练、刻意练习和双语能力等方面。他们的研究发现,除了刻意练习外,没有证据表明这些方法能够以任何形式提高认知表现。虽然刻意练习在某些情况下确实能够提升个人表现,但它并不足以解释为什么「在专业水平上」,个体之间会存在如此显著的差异

5.3 通过间隔重复改进的可能性

如果前面的讨论让人感到有些悲观,似乎在暗示练习并不重要,那么关于间隔重复的研究却得出了截然相反的结论。根据 Gwern 的研究综述[9],与集中学习(也称为死记硬背)相比,间隔学习的效应量为 d=0.42(或略低于这个值),这一发现在多个领域都得到了证实。需要注意的是,这里的效应量并非比较间隔重复与完全不学习的情况。如果我们要求一个人在一周内记忆一组新的、难以记住的事实,而让另一个人利用间隔重复在一年内持续巩固这些知识。到了年底,效应量将会十分显著,因为第一个人可能已经将所学内容忘得一干二净,而第二个人却能始终保持鲜活的记忆。

[9] 尽管我在本文中没有深入讨论间隔重复系统(SRS),但对此感兴趣的读者可以参考 Gwern 网站上的这篇详细文章[2]。另外,我还收到了一篇与此主题相关的研究论文,也可供参考。

6 精熟学习法为何有效?一些实验想法

假设有一种被称为「不可思议的学习方法」(The Incredible Learning Method,简称 TILM)的方法,据说能将学习表现提高 d=0.5。这自然会引发人们对 TILM 具体内容的好奇。假设 TILM 包括每天进行间隔重复和做俯卧撑。

那么,我们是否应该简单地建议孩子们为了提高学习效果而做俯卧撑呢?还是我们应该深入研究,找出究竟是什么因素使 TILM 如此有效?

在这种研究方法中,我们需要将 TILM 分解为各个组成部分,分别进行实验,或者部分组合测试,观察各种组合产生的效果。随后,我们可以进一步研究每个子组成部分在不同样本群体中的表现,或者尝试从神经科学的角度为这些效果提供解释。

对于间隔重复来说,答案可能是这一根本概念:存在遗忘曲线。这反过来也许可以用大脑的某些基本工作机制来解释。

那么,是否可以认为精熟学习法实际上就是间隔重复呢?

另一种解释是,真正起作用的可能只是学习时间增加了:假设接触概念的次数与学习效果成正比(尽管最终可能会达到一个瓶颈)。那么,学生反复学习同一材料自然会提高学习表现。如果确实如此,当我们控制指导时间这一变量时,精熟学习法可能就不会显示出独特的效果。正如 Slavin 所言:

从极端角度来看,精熟学习法理论的核心主张几乎是不言自明的。如果我们设定一套合理的学习目标,并要求每个学生都达到高水平,不论花费多长时间,那么几乎可以确定所有学生最终都能达到这个标准。

还有一种可能是,真正起作用的是测试本身。要知道,精熟学习法包含学习-测试-反馈-纠正这一完整循环。Slavin 的研究发现,仅仅进行学习-测试-反馈的循环就能取得几乎相同的效果。更有趣的是,我们还知道单纯的学习-测试模式也是有效的!这就是所谓的测试效应[3]

另一种可能性是,充分掌握第 N 课的内容确实能够帮助学生更好地吸收后续课程的知识。如果是这样,我们可以通过以下方式来验证这一假设:首先,对一组学生采用精熟学习法教授第一课,对另一组学生则采用传统教学方法;随后,用相同的传统方法教授两组学生第二课。如果精熟学习法确实有效,那么最初接受精熟学习法教学的那组学生在学习第二课时应该表现更出色。在我看来,这种方法才能真正验证「精熟」效果的存在。

7 结论

Bloom 指出,精熟学习法的效应量约为 1(即一个标准差),而一对一辅导的效应量则高达 2。这基本上是一个异常值案例。

尽管如此,Bloom 的研究仍然具有重要发现:一对一辅导和精熟学习法确实在一定程度上得到了实验数据的支持。令人欣喜的是,精心设计的软件系统似乎能够完全替代传统教学中的授课环节,不仅能够取得更好的效果,甚至可以达到与一对一辅导相当的水平。然而,设计这样的系统是一项极具挑战性的任务,而且教师在激发学生学习动机方面的作用可能不那么容易仅依靠软件来复制。

总的来说,这些教育方法对不同年龄段的学生和各个学科都有效,这无疑是个好消息。然而,一对一辅导、精熟学习法或直接教学法的实际效果并不如 Bloom 论文中描述的那么显著。尽管如此,不可否认的是,一对一辅导确实能带来显著效果,设计精良的教育软件也同样有效。DARPA 的案例研究更是展示了软件辅导的巨大潜力,其效果甚至超越了 Bloom 论文中的预期。

同样值得注意的是,其他教育方法同样显示出较大的效应量,因此我们不应过分偏重直接教学法或精熟学习法。这些方法的核心原则——如教学内容的明确性、持续评估、及时反馈和针对性补救——无疑是合理的,尤其对弱势儿童似乎更为有效,值得在这一群体中尝试。对于天才儿童或普遍聪明的个体,这些原则仍然适用,但其效果如何还有待深入研究。本文并未详细探讨这一问题,也未发现多少针对天才儿童的相关研究。

如果我们的目标是通过改善教育来提高整体社会技能水平,那么情况就有所不同。在这方面,直接教学法的研究证据就不那么令人信服了。其效果似乎较为微弱,可能最多只能提高四分之一个标准差。相比之下,精熟学习法在普通学生群体中表现更为出色,对大学生也同样适用。

关于各种因素对教学效果的影响,研究表明直接教学法和精熟学习法的效果会随时间逐渐减弱,但并不会完全消失。学习能力较弱的学生往往比高能力学生从中获益更多,而且效果的大小在很大程度上取决于测试的内容。精熟学习法似乎是通过针对特定测试进行过度训练而发挥作用的,这些技能未必能广泛应用于其他场景,这一点值得我们重视。与直接教学法类似,如果教学目标是让学生掌握几个核心概念,特别是对于有学习障碍的儿童来说,这种方法可能很合适。然而,这些方法是否适用于普通学生仍不确定。对于来自高社会经济地位家庭的孩子,这些方法可能难以带来显著益处。

纵观教育研究的历史,我们会发现其中充斥着许多几十年前进行的小规模、质量不高的研究,而近期的相关研究相对较少。这可能是因为研究者们正把注意力转向其他教学方法的探索。尽管如此,大多数大规模随机对照试验(RCTs)往往只显示出微小的效果,这一事实应该促使我们在面对新的教育方法时保持谨慎和怀疑的态度。

8 结语:你应该学什么?

我此前讨论了各种学习方法,但学习内容的选择同样至关重要。那么,我们究竟应该学什么呢?Bryan Caplan 在其著作《反对学校教育的依据》[10]中提出了一个引人深思的观点:技能的可迁移性实际上很低。我们往往只会精通经常练习的技能,而迅速遗忘其他不常用的知识。这个观点影响了我在研究精熟学习法相关文献时的先验认知,因此当我在 Slavin 部分中提到的那些测试出现问题时,我并不感到特别意外。

[10] 关于这本书,我曾写过一篇简短的书评[4]

Caplan 的观点确实有其道理,这为我们改进教学方法开辟了一条新路径:假设我们将教学重点集中在最可能对学生未来有用的基础知识上,比如阅读、写作和数学。通过减少其他学科的教学时间,我们可以帮助学习困难的学生更好地掌握这些核心技能,同时也为其他学生提供更多自主学习的机会,让他们可以探索自己感兴趣的领域。我甚至建议可以让学生提前回家学习,不过这可能会引发争议。有人可能会指出,学校还承担着在父母工作时照看孩子的隐性功能,相当于一种面向大龄儿童的「托管所」。但如果父母允许孩子自由活动,且城市环境足够安全,这种顾虑就不再成为问题。这绝对值得探索。

假设直接教学法能够有效传授基础知识,那么我们是否也应该用同样的方法来教授历史和英国文学呢?某种教学方法可行,并不意味着我们就应该采用它:评估一种教育干预措施的有效性,还需要考虑我们的价值判断标准。如果我们从课程中删除历史课,让孩子们有更多时间自由玩耍,这样做会产生怎样的效果呢?

9 问题

  1. 为什么这些行之有效的教育方法没有得到更广泛的应用?我能理解一对一辅导成本高昂,但开发高质量的辅导软件只需一次性投入。特别是对于大规模的公共教育系统而言,筹集资金应该并非难事。精熟学习法的实施成本看似也不高。关于直接教学法,可以参考 McCullen & Madelaine (2014) 的研究作为切入点。

  2. 撇开具体教学方法不谈,教师的整体重要性如何?Slate Star Codex 认为[5]教师的重要性不大。事实上,最新研究表明,在大学环境中,学生的教学效果几乎可以与教授相媲美(Feld et al., 2019

  3. 按能力对学生进行分组(即分班教学或能力分组)的效果如何?这个问题同样可以参考 Slate Star Codex 的分析[1]

  4. [已删除]

  5. 我们需要深入探讨辅导软件的具体细节。

  6. 大学以下的教育通常需要十余年时间。有可能将这个过程压缩到一年内完成吗?

  7. 成人教育又该如何开展?当前市场上存在各种针对特定技能(如语言学习)需求的教育项目。这些项目主要采用哪些方法?效果如何?

  8. 我们还需要深入研究一对一辅导的具体细节。

10 更新日志

11 致谢

衷心感谢 Gwern、Andy Matuschak、Jaime Sevilla、Alex Tabarrok、Tyler Cowen、Tom Higgins、@Ed_Realist 和 Stephen Malina 为本文提供的宝贵意见和建议。

引用

在学术工作中,请按以下格式引用本文:

Ricón, José Luis, “On Bloom's two sigma problem: A systematic review of the effectiveness of mastery learning, tutoring, and direct instruction”, Nintil (2019-07-28), available at nintil.com/bloom-sigma/.


Thoughts Memo 汉化组译制
感谢主要译者 claude-3.5-sonnet,校对 Shom、Jarrett Ye
原文:Nintil - On Bloom's two sigma problem: A systematic review of the effectiveness of mastery learning, tutoring, and direct instruction

参考

1. 教育系统是否充分满足优秀学生的需求? ./713402818.html
2. 高效学习的间隔重复——概述 ./420105707.html
3. (2/5) 高效学习的间隔重复——文献综述之测试效应 ./420309917.html
4. 《反对学校教育的依据》读书笔记 ./710759337.html
5. 教师:比你想知道的要多得多 ./720623380.html

专栏:Thoughts Memo的文章


← 返回目录