问题描述
我现在是准高三理科生,这个暑假要开始面临一轮复习,现处学校不是很好,纯文化今年有59人到达本科线。(包含借读生)学校风气大概就是一个班能有十几个同学在听,有些科目老师也处于上课很随意的状态,有些题目也没办法很好的解答。个人成绩处于学校前十名,但是根据全市统考成绩作为比较离今年二本线还差两百分左右,个人现在很想提高。但确实在犹豫是否要一对一,今天咨询补习班半年多的两门课程费用大概要六万以上,想问一下一对一真的有用吗。
在统计上是有用,但效果不一定能过超过高质量的软件辅导。
另外也不排除找到了非常垃圾的老师,造成了反效果这种极端情况。
以下内容节选自 @Thoughts Memo 汉化组的译文《Bloom 的「两个标准差」问题:系统比较精熟学习法、一对一辅导和直接教学法的有效性》
几十年前,教育心理学家 Benjamin Bloom 研究发现,与传统课堂教学相比,一对一辅导能使学生的学习成绩提高两个标准差,这在教育领域代表着极其显著[1]的效应。
[1] 作为参考,男女身高分布的差异约为 d=1.5。在智商方面,2 个标准差相当于智商 100 和 130 之间的差距。
4 支持一对一辅导(包括软件辅导)的实证研究
需要特别指出的是,Bloom 的「两个标准差」论文中接受辅导的学生不仅仅是单纯接受辅导,而是通过辅导来帮助他们实现精熟学习法。更值得注意的是,根据 VanLehn (2011) 的研究,对学生的要求标准也存在差异:接受辅导的学生被要求达到更高的标准。VanLehn 的研究更全面地比较了两种计算机辅导系统和人工辅导相对于完全没有辅导情况下的相对效果。
有人可能会这样解释一对一辅导的有效性:辅导老师能够准确评估学生的能力水平,洞察他们的薄弱环节,并且总体上能够构建一个关于学生学习方式的模型,从而更有针对性地指导他们的学习。然而,VanLehn 对这一解释持怀疑态度[4]:
尽管人类导师通常能辨识出学生尚未掌握的正确知识点,但他们往往难以洞察学生的误解、错误信念和技能缺陷(M. T. H. Chi, Siler, & Jeong, 2004; Jeong, Siler, Chi, 1997; Putnam, 1987)。更值得关注的是,导师极少提出能有效诊断学生具体误解的问题(McArthur, Stasz, & Zmuidzinas, 1990; Putnam, 1987))。
当人类导师获得学生知识掌握程度的信息时,他们的教学行为会相应调整,可能会提高教学效果(Wittwer, Nuckles, Landmann, & Renkl, 2010)。然而,即便向导师提供了学生误解、技能缺陷和错误信念的详细诊断信息,他们的教学行为和效果也并未显著改善(Sleeman, Kelly, Martinak, Ward, & Moore, 1989)。
Siler (2004) 的研究进一步揭示,长期辅导同一名学生的导师,尽管有机会深入了解学生的优势、劣势和学习偏好,其教学效果并不优于那些频繁更换学生、难以深入了解每个学生的导师。简言之,人类导师似乎既难以自行识别学生的误解、技能缺陷和错误信念,也难以有效利用已提供的这类评估信息。
[4] 需要指出的是,尽管研究文献普遍认为导师的效果不如预期,但这并不排除存在「超级导师」的可能性。这些优秀的导师可能为学生带来显著进步,只是这种效果在现有研究中未被充分捕捉和量化。
那么,这就是一对一辅导能达到的最佳水平吗?显然不是。
VanLehn 考察了影响一对一辅导效果的多种可能因素。他探讨了导师是否运用了复杂的教学技巧,是否为每个学生量身定制任务,是否能用丰富的领域知识来补充解释,或者导师是否起到了激励作用。然而,他发现这些因素通常并不存在,即使存在,也不会对所测量的预期学习成果产生显著影响。
VanLehn 认为,以下三点可能合理解释了一对一辅导的效果:
- 导师针对学生的错误给予反馈。他们会要求学生解释自己的思路,并指出学生错误的假设或概念。
- 导师通过提出相关问题来引导学生的推理过程。VanLehn 举了一个简单的例子:当学生回答「在真空中,高尔夫球和羽毛哪个掉得更快」这个问题时,学生给出了正确答案,但理由不够充分(仅仅是因为看过相关视频)。老师接受了答案,但继续追问原因,最终引导学生得出更合理的解释。与被动的反馈不同,这种方法更具主动性和预见性。
- 导师调节学生的行为频率,鼓励他们在学习过程中更加积极主动,增加互动。这种假设认为,这类活动能够促进更好的学习效果。例如,面对一个只是被动听讲的学生,导师可能会鼓励他做笔记,深入阅读讨论主题的相关资料,或在不理解时主动提问。
VanLehn 随后分析了几个(小样本)研究案例(涉及向医学生教授心血管生理学和基础物理学等课程)。研究比较了三组学生:未接受辅导、接受软件辅导,以及接受人类导师辅导的学生。研究结果显示,辅导确实能够显著提高学习效果。然而,出人意料的是,人类导师的辅导并未表现出比软件辅导更为优越的效果。
随后,VanLehn 对更广泛的相关文献进行了深入审视。研究发现,辅导的平均效果似乎[5]只达到了 d=0.79。尽管这个数值不完全等同于 2 个标准差的提升,但仍然代表了一个极其显著的效果。值得注意的是,高质量的软件辅导系统也能达到类似的效果。VanLehn 指出,高质量软件的关键在于能够提供非常细致且具体的反馈。然而,他也发现这种效果存在一个上限:当反馈的细致程度达到某个临界点后,继续增加解释的精细度并不能进一步提升学习效果。
[5] 然而,研究表明,对于来自低社会经济地位(SES)家庭的学生,这些教育方法的效果似乎较为有限(Dietrichson et al., 2017)
VanLehn 意识到,他的研究结果与 Bloom 先前的发现存在一定差异,因此他深入探讨了可能导致这种差异的原因。首先,他考虑了辅导者的专业知识是否能够带来额外一个标准差的提升。答案是否定的,相关研究并未发现辅导者的专业知识能产生实质性的效果。随后,VanLehn 仔细分析了先前那两项发现「两个标准差」提升的研究,试图理解其中的原因。有趣的是,这些研究中的辅导者并不具备特别高超的技能。值得注意的是,正如本节开始时提到的,这些研究中接受辅导的学生是采用了特别严格的精熟学习法进行学习的。
他分析的另一项研究虽然后来被重复验证,但发现其效应量较小(d=0.52)。在相关文献中,最大的效应量为 0.82。值得注意的是,这些研究大多采用小样本,因此结果的高度变异性是可以预见的。他还指出,这些研究可能无法全面代表所有导师的情况。很可能存在一些优秀的导师未被纳入这些研究的评估范围。此外,从更宏观的角度来看,VanLehn 推测人工辅导未能显示出比高质量的软件辅助辅导更好的原因在于,普通导师往往缺乏有意识地练习和提升自身技能的习惯,也很少能从学生那里获得长期的反馈。
Bloom 报告的 d=2.0 效应量,似乎主要源于对受辅导者设定了更高的精熟标准。具体而言,受辅导者必须在精熟掌握测试中达到 90% 的得分才能进入下一个单元学习,而采用精熟学习法的课堂学生则需要在同样的测试中达到 80% 的得分,普通课堂对照组的学生虽然也参加测试,但无论得分如何都会继续学习下一单元。因此,Bloom (1984) 的文章实际上正如他本人所期望的那样,更多地展示了精熟学习法的强大效果,而非人工辅导的有效性。
近期的研究(Ma et al., 2014)进一步证实了这一总体结论:智能辅导系统的效果与人工辅导旗鼓相当。实际上,智能辅导系统的效果可能略显逊色,其效应量较小(g=0.4)[6],而且这些研究似乎不存在发表偏倚。聚焦计算机科学这一特定领域,Nesbit et al. (2014) 发现,与传统课堂教学相比,软件辅导展现出显著效果(d=0.67)。值得一提的是,他们还发现,高质量的软件辅导系统相较于最基础的计算机辅助教学,效果更为突出(d=0.89)。在这种分类体系中,Coursera 可被视为一种非常基础的系统。其他针对大学生群体的元分析研究(Steenbergen-Hu & Cooper, 2014)发现,人工辅导的效果确实优于智能辅导系统,这与 VanLehn 的结论相悖。然而,当按软件质量细分(他们将其划分为基于子步骤和基于步骤的辅导)时,研究结果又与 VanLehn 的发现不谋而合。
[6] 在小样本情况下,Hedges g 值通常低于 Cohen's d 值,但在其他方面,这两种效应量指标基本相似。
Kulik & Fletcher (2017) 开展的另一项元分析主要聚焦于 6 年级及以上的学生群体。(Fletcher, 2018) 的研究进一步证实,即使对于年龄较大的学生和较为复杂的学科,采用软件辅导系统仍能带来显著的学习效果提升。值得注意的是,在高等教育领域,软件辅导的效果比在中小学教育中更为显著(效应量分别为 0.75 和 0.44)。Fletcher 还强调,对于大学以下教育中常见的相对简单的学习场景,像直接教学法(DI)这样的「练习与实践」系统就能发挥很好的作用,而且成本较低。
迄今为止,效果最为显著的案例当属 DARPA(美国国防高级研究计划局)的数字导师项目。该项目旨在培训美国海军的信息系统技术人员。研究比较了为期 16 周的基于软件的课程和 35 周的传统课堂课程。在 Kulik 的元分析中报告的两次评估结果令人瞩目:效应量高达 1.97 到 3.18。更加令人惊叹的是,接受软件培训的学生在表现上甚至超越了他们的指导者!