← 返回目录


「学霸不需要补课,学渣补了也没用,中等天赋不够,补了也提不了分,培训机构纯賺钱」,如何评价这句话?

学校≠教育≠技能;文凭溢价=80%信号传递+20%人力资本

313 👍 / 85 💬

问题描述

听到坐在太阳底下闲聊的老爷爷老奶奶说“学霸不需要补课,学渣补了也没用,中等天赋不够,补了也提不了分。培训机构纯賺钱。”如何评价这句话?分析一下!


这不是天赋决定论吗?诶,老一辈不了解认知科学和教育方法实在太常见了我都懒得吐槽了。

什么样的补课是有效的?不妨考虑一下如果你要给皇太子补课,教得好有重赏,教不好要杀头,你会怎么补?

以下内容摘自 @Thoughts Memo 汉化组的译文《第二十三章 利用认知学习策略需要技术

若为王室授课:如果你的生命取决于教学成果,你会如何教学?

⠀⠀⠀假设你是中世纪时期的一名教育者,在世界上最富有但也最凶狠的国王的王国中工作。国王的孩子在王国的学校就读,但国王对结果感到不满:孩子上学已经超过一年,学会了如何计数,但仍然无法解决任何需要简单运用算术的问题。

⠀⠀⠀一天,国王突然下令,要求你立即前往王座觐见。当你匆忙赶到时,国王命令你在接下来的一个月内只做一件事——教授他的孩子基础算术。这个孩子将每天与你一起学习,而在整整一个月后,国王会对他的孩子进行测试:提出五道题目,每题都要求对两个一位数或两位数进行加、减、乘、除。孩子将有两分钟时间完成每道题,而他在这次考核中的表现将决定你的命运。

⠀⠀⠀作为世上最富有的国王,他已经决定,如果孩子能在五道题中至少答对四题,那么他将赏赐你一笔数额惊人的财富,足以让你余生都能享受如同小国君主般的奢华生活。然而,如果孩子只答对三题或更少,那么你将在第二天被处决。

在这种情况下,你自然会有强大的动力去克服之前提到的所有教学障碍。整个教学体验完全以学生为中心,最大限度地利用各种可能的认知学习策略。

⠀⠀⠀突然间,你意识到你已经完全不在乎为了让这个孩子学会算术而需要付出多少时间、精力和承受多大压力。你的个人感受已经完全被抛在脑后。唯一重要的是这个孩子能否牢记算术知识,能否深入理解各种运算的含义以便在解题情境中正确应用,以及能否快速准确地计算出任何涉及两位数以内数字的算术题目。

⠀⠀⠀为了实现这个目标,你与孩子在一起的每一刻都将全心投入,帮助他独立掌握这些能力。

⠀⠀⠀• 你当然会介绍每项技能并进行简短示范,但你不会在无关事项上浪费时间,因为你的核心目标是让学生能尽可能快地开始实践,亲自解决与每项技能相关的问题。

⠀⠀⠀• 你将为学生解决的每一个问题提供详细反馈,当他们犯错时,耐心引导他们理解正确的解题思路。如果他们表现出色,你会及时引导他们挑战更高难度的问题;但如果他们遇到困难,你会提供充分的练习机会,确保他们完全掌握该技能后再继续新的学习内容。

⠀⠀⠀• 你将每天安排多元化的学习主题,并持续提供先前所学技能的复习题(但不过度复习——只提供「最小有效剂量」,恰好足以唤醒他们对可能正在淡忘主题的记忆)。

⠀⠀⠀• 你还将定期组织各种题型的限时测验,与学生一同分析测验结果,针对他们在测验中的不足之处提供针对性练习,并安排重新测试以确保他们能从错误中真正学习进步。

⠀⠀⠀• 最后,你将通过游戏化的学习方式激励孩子,让他们始终保持全力以赴的学习热情。

你说这样一套补下来,还提不了分吗?

只要智力没有低到连母语都说不清楚,没有阿兹海默症等记忆相关的精神疾病,都是有办法补的,只是这种有效果的补习不是坐在大班里听老师念 PPT,而是做有针对性的训练。


怎么变成评论区质疑我水平了,我建议看这篇文章:

我是如何在本科期间发表顶会论文的?(内含开源代码和数据集)

发现国内知道 Bloom 的两个标准差问题的人太少了,我再补充一下吧。

以下内容摘自 @Thoughts Memo 汉化组的译文《Bloom 的「两个标准差」问题:系统比较精熟学习法、一对一辅导和直接教学法的有效性

4 支持一对一辅导(包括软件辅导)的实证研究

在探讨了精熟学习法之后,让我们将注意力转向一对一辅导。毕竟,在 Bloom 的研究中,这种方法取得了最佳效果。

需要特别指出的是,Bloom 的「两个标准差」论文中接受辅导的学生不仅仅是单纯接受辅导,而是通过辅导来帮助他们实现精熟学习法。更值得注意的是,根据 VanLehn (2011) 的研究,对学生的要求标准也存在差异:接受辅导的学生被要求达到更高的标准。VanLehn 的研究更全面地比较了两种计算机辅导系统和人工辅导相对于完全没有辅导情况下的相对效果。

有人可能会这样解释一对一辅导的有效性:辅导老师能够准确评估学生的能力水平,洞察他们的薄弱环节,并且总体上能够构建一个关于学生学习方式的模型,从而更有针对性地指导他们的学习。然而,VanLehn 对这一解释持怀疑态度[4]:

尽管人类导师通常能辨识出学生尚未掌握的正确知识点,但他们往往难以洞察学生的误解、错误信念和技能缺陷(M. T. H. Chi, Siler, & Jeong, 2004; Jeong, Siler, Chi, 1997; Putnam, 1987)。更值得关注的是,导师极少提出能有效诊断学生具体误解的问题(McArthur, Stasz, & Zmuidzinas, 1990; Putnam, 1987))。

当人类导师获得学生知识掌握程度的信息时,他们的教学行为会相应调整,可能会提高教学效果(Wittwer, Nuckles, Landmann, & Renkl, 2010)。然而,即便向导师提供了学生误解、技能缺陷和错误信念的详细诊断信息,他们的教学行为和效果也并未显著改善(Sleeman, Kelly, Martinak, Ward, & Moore, 1989)。

Siler (2004) 的研究进一步揭示,长期辅导同一名学生的导师,尽管有机会深入了解学生的优势、劣势和学习偏好,其教学效果并不优于那些频繁更换学生、难以深入了解每个学生的导师。简言之,人类导师似乎既难以自行识别学生的误解、技能缺陷和错误信念,也难以有效利用已提供的这类评估信息。

[4] 需要指出的是,尽管研究文献普遍认为导师的效果不如预期,但这并不排除存在「超级导师」的可能性。这些优秀的导师可能为学生带来显著进步,只是这种效果在现有研究中未被充分捕捉和量化。

那么,这就是一对一辅导能达到的最佳水平吗?显然不是。

VanLehn 考察了影响一对一辅导效果的多种可能因素。他探讨了导师是否运用了复杂的教学技巧,是否为每个学生量身定制任务,是否能用丰富的领域知识来补充解释,或者导师是否起到了激励作用。然而,他发现这些因素通常并不存在,即使存在,也不会对所测量的预期学习成果产生显著影响。

VanLehn 认为,以下三点可能合理解释了一对一辅导的效果:

  1. 导师针对学生的错误给予反馈。他们会要求学生解释自己的思路,并指出学生错误的假设或概念。

  2. 导师通过提出相关问题来引导学生的推理过程。VanLehn 举了一个简单的例子:当学生回答「在真空中,高尔夫球和羽毛哪个掉得更快」这个问题时,学生给出了正确答案,但理由不够充分(仅仅是因为看过相关视频)。老师接受了答案,但继续追问原因,最终引导学生得出更合理的解释。与被动的反馈不同,这种方法更具主动性和预见性。

  3. 导师调节学生的行为频率,鼓励他们在学习过程中更加积极主动,增加互动。这种假设认为,这类活动能够促进更好的学习效果。例如,面对一个只是被动听讲的学生,导师可能会鼓励他做笔记,深入阅读讨论主题的相关资料,或在不理解时主动提问。

VanLehn 随后分析了几个(小样本)研究案例(涉及向医学生教授心血管生理学和基础物理学等课程)。研究比较了三组学生:未接受辅导、接受软件辅导,以及接受人类导师辅导的学生。研究结果显示,辅导确实能够显著提高学习效果。然而,出人意料的是,人类导师的辅导并未表现出比软件辅导更为优越的效果。

随后,VanLehn 对更广泛的相关文献进行了深入审视。研究发现,辅导的平均效果似乎[5]达到了 d=0.79。尽管这个数值不完全等同于 2 个标准差的提升,但仍然代表了一个极其显著的效果。值得注意的是,高质量的软件辅导系统也能达到类似的效果。VanLehn 指出,高质量软件的关键在于能够提供非常细致且具体的反馈。然而,他也发现这种效果存在一个上限:当反馈的细致程度达到某个临界点后,继续增加解释的精细度并不能进一步提升学习效果。

[5] 然而,研究表明,对于来自低社会经济地位(SES)家庭的学生,这些教育方法的效果似乎较为有限(Dietrichson et al., 2017

VanLehn 意识到,他的研究结果与 Bloom 先前的发现存在一定差异,因此他深入探讨了可能导致这种差异的原因。首先,他考虑了辅导者的专业知识是否能够带来额外一个标准差的提升。答案是否定的,相关研究并未发现辅导者的专业知识能产生实质性的效果。随后,VanLehn 仔细分析了先前那两项发现「两个标准差」提升的研究,试图理解其中的原因。有趣的是,这些研究中的辅导者并不具备特别高超的技能。值得注意的是,正如本节开始时提到的,这些研究中接受辅导的学生是采用了特别严格的精熟学习法进行学习的。

他分析的另一项研究虽然后来被重复验证,但发现其效应量较小(d=0.52)。在相关文献中,最大的效应量为 0.82。值得注意的是,这些研究大多采用小样本,因此结果的高度变异性是可以预见的。他还指出,这些研究可能无法全面代表所有导师的情况。很可能存在一些优秀的导师未被纳入这些研究的评估范围。此外,从更宏观的角度来看,VanLehn 推测人工辅导未能显示出比高质量的软件辅助辅导更好的原因在于,普通导师往往缺乏有意识地练习和提升自身技能的习惯,也很少能从学生那里获得长期的反馈。

Bloom 报告的 d=2.0 效应量,似乎主要源于对受辅导者设定了更高的精熟标准。具体而言,受辅导者必须在精熟掌握测试中达到 90% 的得分才能进入下一个单元学习,而采用精熟学习法的课堂学生则需要在同样的测试中达到 80% 的得分,普通课堂对照组的学生虽然也参加测试,但无论得分如何都会继续学习下一单元。因此,Bloom (1984) 的文章实际上正如他本人所期望的那样,更多地展示了精熟学习法的强大效果,而非人工辅导的有效性。

近期的研究(Ma et al., 2014)进一步证实了这一总体结论:智能辅导系统的效果与人工辅导旗鼓相当。实际上,智能辅导系统的效果可能略显逊色,其效应量较小(g=0.4)[6],而且这些研究似乎不存在发表偏倚。聚焦计算机科学这一特定领域,Nesbit et al. (2014) 发现,与传统课堂教学相比,软件辅导展现出显著效果(d=0.67)。值得一提的是,他们还发现,高质量的软件辅导系统相较于最基础的计算机辅助教学,效果更为突出(d=0.89)。在这种分类体系中,Coursera 可被视为一种非常基础的系统。其他针对大学生群体的元分析研究(Steenbergen-Hu & Cooper, 2014)发现,人工辅导的效果确实优于智能辅导系统,这与 VanLehn 的结论相悖。然而,当按软件质量细分(他们将其划分为基于子步骤和基于步骤的辅导)时,研究结果又与 VanLehn 的发现不谋而合。

[6] 在小样本情况下,Hedges g 值通常低于 Cohen's d 值,但在其他方面,这两种效应量指标基本相似。

Kulik & Fletcher (2017) 开展的另一项元分析主要聚焦于 6 年级及以上的学生群体。(Fletcher, 2018) 的研究进一步证实,即使对于年龄较大的学生和较为复杂的学科,采用软件辅导系统仍能带来显著的学习效果提升。值得注意的是,在高等教育领域,软件辅导的效果比在中小学教育中更为显著(效应量分别为 0.75 和 0.44)。Fletcher 还强调,对于大学以下教育中常见的相对简单的学习场景,像直接教学法(DI)这样的「练习与实践」系统就能发挥很好的作用,而且成本较低。

迄今为止,效果最为显著的案例当属 DARPA(美国国防高级研究计划局)的数字导师项目。该项目旨在培训美国海军的信息系统技术人员。研究比较了为期 16 周的基于软件的课程和 35 周的传统课堂课程。在 Kulik 的元分析中报告的两次评估结果令人瞩目:效应量高达 1.97 到 3.18。更加令人惊叹的是,接受软件培训的学生在表现上甚至超越了他们的指导者!

4.1 DARPA 的研究

本节内容主要基于 Fletcher & Morrison (2012)Fletcher & Morrison (2014)

2010 年,DARPA 资助的海军数字导师(Digital Tutor,DT)系统进行了两次试验。第一次试验在 4 月进行,为期 4 周;第二次在 11 月进行,为期 8 周。整个试验过程由独立的第三方机构——国防分析研究所(IDA)全程监督。这项研究采用了随机对照试验(RCT)设计。研究人员还使用武装部队资格测试(AFQT)测量了对照组和实验组参与者的智商水平,以确保两组之间基本相当(也确实如此)。

DARPA 的研究成果令人振奋。其效应量之大、验证方式之多样,似乎已经实现了 Bloom「两个标准差」的教育理想!更值得关注的是,与传统的精熟学习法相比,采用数字导师(DT)系统的学生仅用不到一半的时间就取得了这一成就。诚然,有人可能会质疑,知识测试和实践考试中的出色表现或许源于部分试题由 DT 系统开发者提供。然而,口试并非如此,而且所有测试都经过了外部专家的审核,被认定为公平合理。因此,尽管测试内容与 DT 教学内容的高度契合可能在某种程度上影响了结果,但我们仍有充分理由相信这项技术带来了实质性的进步。

有观点认为,鉴于样本量较小,我们不应过分重视这项研究。但我认为,我们有充分理由认真对待这些结果。首先,从统计学角度来看,如果预期效应量为 1,要达到 80% 的统计检验力,每组只需约 17 名受试者,这与 DARPA 的样本规模相当。其次,研究并非仅依赖单一测试,而是通过多项测试一致地展示了显著效果。再者,研究共进行了三次试验(2009 年的初步测试和 2010 年的两次完整试验),所有结果都得到了如实报告。最后,每次试验都包含大量问题,仅知识测试就超过百题。虽然在单个问题上可能存在偶然因素,但在如此全面的评估中,这种可能性微乎其微。

基于前期研究结果,研究人员进行了进一步的测试。他们比较了三组人员的表现:参加 16 周数字化辅导(DT)课程的学生、参加 35 周常规课程的学生,以及一组平均拥有 9 年经验的专业技术人员。尽管样本量较小,但结果仍然显著:在实践考试中,DT 课程的学生明显优于专业技术人员(效应量 d=0.85),也大幅超过了学习时间是他们两倍的常规课程学生(效应量 d=1.13)。口试结果也呈现出相似程度的优势。

总的来说,这些发现为基于软件的辅导方法的潜力提供了有力证据;值得注意的是,研究不仅评估了学生的理论知识,还通过多种方式测试了他们将知识付诸实践的能力。


相关回答

如何理解「以绝大数人努力程度之低,根本没有要到拼天赋的地步」?为什么给学生讲了很多遍她都不会?互联网已经将绝大部分信息差抹除了,知识已经随处可以获得,为何大部分人依旧无法获得大幅突破?


← 返回目录