← 返回目录


教师:比你想知道的要多得多

学校≠教育≠技能;文凭溢价=80%信号传递+20%人力资本

52 👍 / 0 💬

[认识声明:这是一个极其复杂的话题,超出了我的专业领域。即便是毕生致力于此研究的专家们也见解不一。我仅仅进行了浅尝辄止的调查,欢迎指出文中不可避免的谬误。]

一、教师对学生成绩的影响

新闻报道称,仅仅在优秀教师的班级里读上一年(例如一位出色的四年级老师)就能让学生的终身收入增加 8 万美元。然而,行为遗传学研究表明,父母对子女未来收入的(非遗传)影响微乎其微。这怎么可能?四年级老师教你学习分数的短短一年就能如此显著地影响你的前途,而父母二十多年如一日的言传身教却收效甚微?啊?为了揭开这个谜团,我决定深入研究有关教师效力的文献。

首先,让我们探讨一个关键问题:相较于其他因素,教师的影响力究竟有多大?为了回答这个问题,研究人员选取了一个学区的学生样本,分析他们的标准化考试成绩。研究旨在确定学生所在的学校、任课教师以及其他人口统计因素能在多大程度上解释成绩的差异。举个例子,如果同一位教师班级内两名学生的成绩相似度,与来自不同教师班级的两名学生的成绩相似度相当,那么我们就可以推断教师的影响力并不显著。相反,如果我们经常观察到 A 教师班级的学生全部获得 A+,而 B 教师班级的学生普遍只得 D 的情况,这就有力地说明了优秀教师的重要性。

以下是三个研究团队采用这种方法得出的结果(数据来源:参考文献 1参考文献 2参考文献 3):

img

这些研究结果存在细微差异:第一项研究假设排除了所有干扰因素(「未解释的变异 (unexplained variance)」),而后两项研究则将其纳入考虑。但它们都得出了相似的结论:个人因素最为重要,其次是学校和教师因素,后两者的影响力大致相当。研究表明,教师因素能解释 5% 到 20% 的成绩差异。其他研究的结论也大体一致,通常倾向于较低的比例。例如,Goldhaber, Brewer, and Anderson (1999) 的研究发现,教师因素解释了 9% 的成绩差异;Nye, Konstantopoulos, and Hedges (2004) 的研究则显示,在数学成绩中,教师因素解释了 13% 的差异,在阅读成绩中解释了 7% 的差异。美国统计协会对这些研究进行了总结,认为「教师因素解释了考试分数变异的 1% 到 14%」,这一结论似乎是合理的。

简而言之,平均来说,决定学生成绩的主要因素是学生个人的~~能力~~毅力。优秀的学校和教师可能会小幅提升学生的表现,而糟糕的学校和教师则可能会略微拉低学生的成绩,但他们都不能创造奇迹。

(需要注意的是,我们目前讨论的是同一学年的标准化考试成绩。换句话说,我们在探讨四年级历史老师对学生在四年级历史考试中表现的影响。如果有什么情况能够体现教师的影响力,那应该就是这种情况了。)

在教育研究领域,我们经常面临这样一个棘手问题:虽然可以粗略估算各种因素对教育成果的影响程度,但要具体指出这些因素的内容却困难重重。这种情况与基因研究颇为相似——笼统地说「这有 40% 是由遗传决定的」要比找出具体的相关基因容易得多。同理,声称「学校因素占 10%,教师因素占 10%」比明确这些因素的具体内容要简单得多。Goldhaber 的研究尝试深入探讨这个问题,但他们唯一能确定的学校层面变量是:学校里白人学生的比例越高,考试成绩就越好。然而,据我所知,这项研究并未考虑学校或其所在社区的社会经济状况,而这很可能才是白人学生比例所反映的根本因素。理论上,「学校层面效应」应该包括诸如「学校资金充足」或「学校有优秀的校长」等因素。但我担心,这些所谓的学校效应可能不经意间混入了学生个体因素的影响。换言之,如果你就读的学校里大多是富裕的白人学生,那么你自己很可能也是一个富裕的白人学生。尽管研究者试图控制这种影响,但仅凭种族和收入等几个可量化的变量,恐怕难以全面反映社会阶层对居住区选择产生的复杂影响。

在教师层面可观察到的影响因素中,研究发现只有性别造成了显著差异(女教师的表现更为出色)。教师资格认证、教学经验年限、各类证书和学历等因素并未显示出明显影响。这一结论与大多数其他研究的发现一致,例如 Miller, McKenna, and McKenna (1998) 的研究。尽管我们稍后会提到一些研究表明教学经验确实很重要,但几乎没有研究认为资格证书或学历能产生显著作用。

有一个本文未提及的可量化变量似乎能够有力地预测教师的教学成效。虽然我无法直接查阅这些相关研究,但根据美国助理教育部长网站提供的信息:

研究文献中最为可靠的发现是教师的语言和认知能力对学生学习成绩的影响。所有包含了有效的教师语言或认知能力测量指标的研究都发现,这一因素对解释学生成绩变化的贡献度超过了教师的任何其他可测量特征(例如,Greenwald, Hedges, & Lane, 1996; Ferguson & Ladd, 1996; Kain & Singleton, 1996; Ehrenberg & Brewer, 1994)。

到目前为止,这些观点大多清晰明了,不存在争议。教师对学生考试成绩的影响约占 10%,仅凭教师的个人特征很难预测其教学效果,而学校的影响略高一些,但这可能受到其他因素的干扰。要深入探讨这个问题,我们需要一个更精确的方法来识别哪些教师是真正优秀的,这无疑是一个更为复杂的过程。

二、评估教师影响:标准化考试与增值模型

假设你想确定某个学区哪些教师是最优秀的。你认为生活中唯一真正重要的就是标准化考试分数[来源请求],于是你计算每位教师班级的平均考试分数,然后将平均分最高的教师评为年度最佳教师。这种做法会有什么问题呢?

实际上,你很可能只会把奖项颁给负责教授天才班的老师。教师面对的班级学生能力差异很大,我们已经确定,与教师的技能相比,学生的先天能力和毅力对成绩的影响更大。因此,教导弱势学生的教师将处于巨大的…呃…劣势。

让我们换个角度思考这个问题。与其用学生的平均考试分数来评价教师,不如关注学生分数的平均提升幅度。假设一位教师接手了一群一直徘徊在 20 分位左右的学生,经过他的悉心教导,这些学生的成绩提升到了 40 分位。尽管这些学生的成绩仍低于平均水平,但这位教师显然做出了显著贡献。如果我们能够统计出每位教师的学生在一学年里平均提升了多少个百分位,就能更准确地识别出真正优秀的教师。

这一思路,再辅以复杂的统计模型,就构成了 VAM(增值模型,Value-Added Modeling)的基本理念。VAM 作为最新的教育改革热点,也是奥巴马政府教育改革的核心。通过 VAM 识别出优秀教师后,可以给予他们更高的薪酬,以留住这些人才。至于那些表现不佳的教师,VAM 的反对者略带讽刺地将这一计划描述为「通过解雇来提升教育质量」。

「VAM 能准确预测测试分数」这种说法听起来有点像循环论证,因为我们正是用测试分数来确定 VAM 的。然而,我认为这个领域的研究者们采用了更复杂的方法,比如用某一班级的 VAM 来预测下一个班级的学生表现。ChettyRothstein 以及 Rivkin, Hanushek 和 Kane 的研究都得出了一个共同结论:教师 VAM 提高 1 个标准差,大约对应学生测试分数提高 0.1 个标准差。

让我们用人话来解释这个概念。想象一个普通学生,她有一个普通老师。我们预计她的测试成绩会正好处于第 50 百分位。现在,假设她换到了全校最优秀的老师。以我的小学为例,大约有 40 名教师,所以这位最优秀的老师处于第 97.5 百分位,即高于平均水平两个标准差。VAM 高于平均水平两个标准差的教师,其学生的平均得分应该高于平均水平 0.2 个标准差。这意味着,这个学生的成绩将从原来的第 50 百分位提升到第 58 百分位。

让我们再来看看 SAT 考试。虽然它不是 VAM 中涉及的那种标准化考试,但几乎人人都知道它。SAT 的每个分项测试都以 500 分为平均值,110 分为标准差进行标准化。假设有一位接受良好教育的学生,他的 SAT 成绩可能从 500 分提高到 522 分。然而,要进入哈佛大学,SAT 每个分项的平均成绩仍然需要在 740 分左右。因此,这种进步虽然确实存在,但并不足以令人印象深刻。

那么,如果一个学生能够连续多年接受最优秀教师的指导,会产生怎样的效果呢?Sanders 和 Rivers(以及 Jordan, Mendro 和 Weerasinghe)的研究表明,这种影响是显著的,而且会持续累积。他们在田纳西州进行了一项对比研究,比较了连续三年由优秀教师(成绩排名前 20%)和较差教师(成绩排名后 20%)教导的学生。这种情况极为罕见,只有约 1/125 的学生有幸或不幸被纳入研究范围。研究结果显示,连续三年由较差教师教导的学生,平均成绩只达到第 29 百分位;而连续三年由优秀教师教导的学生,平均成绩则高达第 83 百分位。这一结果远远超出了单个教师影响的简单叠加,展现出惊人的效果。从这个角度来看,优秀教师的长期影响确实令人印象深刻,或许真的能够帮助学生达到哈佛的水平。事实上,这项研究有时甚至被引用为「四年连续接受优秀教师指导可以消除黑人和白人学生之间的学习差距」(不过我不确定这种说法是否同时假设了白人学生连续四年接受较差教师的指导)。

一份来自 RAND 公司的教育研究报告对此类研究提出了批评,指出它们采用了「权宜之计的方法(ad hoc methods)」,并警告这些研究可能会陷入重复计算学生成绩的误区。这种情况可以这样理解:我们首先根据学生的优异考试成绩判定某位教师是最优秀的;随后又对「最优秀教师的学生考试成绩优异」这一「发现」感到兴奋。这实际上是一种循环论证。Sanders 和 Rivers 确实采取了一些复杂的方法试图避免这个问题;但 RAND 公司通过模拟发现,这些复杂方法的有效性取决于教师效应与学生效应的实际相对强度。基于这些分析,RAND 公司得出结论:「[Sanders 和 Rivers 的研究]的确为教师或课堂效应的存在和持续性提供了证据,但这种效应的强度可能被有些夸大了」。

Gary Rubinstein 声称他已经成功驳斥了 Sanders 和 Rivers 类型的研究。我对他的研究方法持强烈异议——他似乎认为,只要优质教学与优异考试成绩之间不存在完全的一一对应关系,就可以将这种关联性完全否定。尽管如此,他提供的数据还是具有一定的参考价值。通过粗略观察和分析这些数据可以发现,所谓「连续三年遇到优秀教师」所带来的大部分进步,实际上可能主要源于最后一位优秀教师。因此,这种效果的叠加性可能并不如原先假设的那么显著,Sanders 和 Rivers 的研究或许只是比其他研究者发现了更为明显的教师效应而已。

那么,这些优秀教师带来的学业进步会以怎样的速度逐渐消退呢?

教育收益的衰减速度令人吃惊。Jacob、Lefgren 和 Sims 的研究表明,仅有 25% 的收益能持续到次年,到第三年更是只剩 15%。具体而言,假设你四年级时遇到了一位优秀的老师,他让你的考试成绩提高了 x 分,那么到了五年级,你的成绩将比没有这位老师时高出 0.25x 分。KaneRothstein 的研究也得出了类似的结论。RAND 公司的一份报告指出,一年后的收益持续率为 20%,两年后则降至 10%。Jacob、Lefgren 和 Sims 的另一项研究发现,一年后仅 25% 的收益仍然存在,两年后约为 13%,此后下降速度才会明显放缓。这些研究结果都与 Sanders 和 Rivers 的观点存在较大分歧。

这些研究都无法确定,经过足够长的时间后,教育收益是否会完全消失。Chetty 的计算显示,收益最终会稳定在初始值的 25%。然而,这个数字不仅比其他大多数研究中两年后的结果还要高,而且 Chetty 一向以得出比其他研究者更为惊人和便于解释的结果而著称。对此,我持相当怀疑的态度。我能清楚记得去年发生的许多事,但对二十年前的记忆却寥寥无几。比如,虽然我几乎可以确定六年级时老师曾(出于某种奇怪的原因)教我们班跳排舞,但现在我连一个舞步都回想不起来了。此外,我们还应该回顾 Louis Benezet 在 20 世纪初进行的实验:他将数学教育推迟到初中才开始,结果仅仅一两年后,这些学生就达到了与其他同龄人相当的水平。这似乎暗示了小学数学教师的作用可能并不如我们想象的那么重要。即便是 Chetty 本人似乎也不愿对此多加争辩,他表示自己的研究结果「与现有证据相符,即教育改善会提高当前的分数,但这种效果会在日后逐渐消失」。

总的来说,我认为有相当充分的证据表明,教师 VAM 评分提高一个标准差,能使学生当年的考试成绩提升 0.1 个标准差。不过,这种效果在随后的两年内会衰减 50%-75%。至于连续遇到多个优秀或垃圾教师时这些数据会如何变化,以及两年后效果会衰减到何种程度,我目前还无法确定。

三、增值模型的局限与争议

最初,当我开始寻找关于教师如何影响儿童的证据时,我以为教师团体和教育专家会大力推广所有积极的研究结果。毕竟,还有什么比可靠的统计数据更能证明优秀教师的价值呢?

然而,出人意料的是,这些团体恰恰成为了上述研究最强烈的反对者。这并非因为他们质疑优秀教师的影响力,而是因为要证明这种影响,就必须承认教学质量是可以客观衡量的。这种观点往往会演变成使用 VAM 评估教师表现,进而解雇表现不佳者的提议。他们认为 VAM 存在偏见,可能会对那些被分配到~~智力较低~~毅力较低学生的教师造成不公平的负面影响。

从旁观者的角度来看,学术界的激烈争论总是令人津津有味,而围绕 VAM 展开的这场论战,更是将学术争议推向了前所未有的高度。例如,一个名为「VAMboozled!」的博客就格外引人注目。这个博客不仅有着异常醒目的 logo 设计,还持续不断地发布诸如「Kane 故伎重演:夸大『统计显著性』以左右公共政策」之类的文章。与之相比,历史学家兼研究员 Diane Ravitch 的文风虽然不那么花哨,但言辞同样犀利:

VAM 纯属伪科学。将儿童视为流水线上的产品,把学习简化为标准化考试分数,这种做法也许能让某些计量经济学家兴奋不已,但与儿童、学习和教学的真实世界完全脱节。这种宏大理论或许能为其作者摘得诺贝尔桂冠,但它不仅与真正的教育理念毫不相干,其机械化、简单化的人性观更是有百害而无一利。

不得不说,这番话里的情绪可谓溢于言表。

起初,我对这些批评持怀疑态度。然而,在深入阅读了大量相关网站后,我不得不承认,他们关于 VAM 并非始终是可靠评估标准的观点确实有其道理。

首先,VAM 的效果似乎在很大程度上取决于学生的个体特征。例如,在一个主要由英语非母语学生组成的班级中,教师要获得高 VAM 评分会更加困难。这些学生在标准化测试中表现欠佳是可以理解的,但考虑到 VAM 会控制学生的先前成绩,人们可能会期望他们仍能获得与其他学生相当的 VAM 评分。然而,事实并非如此。此外,许多 VAM 模型还会将学生的种族、性别、社会经济地位等因素纳入考量。我猜这种做法表面上看比完全忽视这些因素要好,但也暴露出模型自身的不确定性——如果仅仅控制先前成绩就足够的话,就不需要再考虑这些额外因素了。然而,研究人员显然认为有必要控制这些变量,这就引发了我经常提出的质疑:我们永远无法完全控制所有的混淆因素。更重要的是,这些因素在某种程度上可能只是遗传因素的有损代理指标,而遗传因素是绝对无法充分控制的。

VAM 估计结果中存在大量噪声,这可能源于前文所述的原因。Goldhaber & Hansen (2013) 表明,一位教师在某一年的 VAM 得分与次年得分的相关性仅约为 0.3。盖茨基金会的一项研究也得出了类似结论,VAM 的可靠性在 0.19 到 0.4 之间浮动,平均约为 0.3。Newton 等人的研究结果略高,在 0.4 到 0.6 之间;而 Bessolo 的研究显示了更广泛的范围,从 0.2 到 0.6 不等。尽管这些数据有所差异,但大体上处于同一水平。Goldhaber 和 Hansen 还尖锐地指出,用于评估学生的标准化考试通常需要 0.8 到 0.9 的相关性才能被认为是有效的(例如,SAT 考试的相关性约为 0.87)。这表明 VAM 虽然有一些稳定的成分,但不能被视为与常规考试评估学生的方式等同的教师「评估」工具。

有人可能会问,即使 VAM 是一个噪声较大的估计方法,难道不能通过多年平均来降低这些噪音吗?我认为这确实是可行的,而且我相信最谨慎的 VAM 支持者也希望采取这种方法。然而,现实情况是,奥巴马总统希望立即改善教育质量,而许多教师并没有积累十年之久的 VAM 评估数据。

此外,一些教师指出,即便采用平均值的方法,如果学生分配存在持续性差异,这种方法也无法有效消除偏差。例如,假设 Andrews 老师总是被分配到最优秀的学生,而 Brown 老师则总是得到成绩最差的学生,那么即使计算十年的平均值,得到的仍然是带有偏差的数据。支持者认为,除了少数特殊情况(如天才班教师或英语作为第二语言的班级教师),这种情况不应该普遍存在。他们建议在评估模型中引入学校固定效应(例如,控制某所学校学生的平均表现),从而只保留教师效应。他们还坚持认为,学校内学生与教师的配对原则上应该是随机的。然而,反对者对此表示质疑,他们引用了 Paufler 和 Amrein-Beardsley 的一项针对校长的调查研究。在这项研究中,所有受访校长都承认他们并非完全随机地分配学生到各个班级。不过,仔细审视这项研究会发现,校长们表示他们正努力实现「超级随机」——即有意识地确保所有班级尽可能保持均衡。即便他们无法完全实现这一目标,剩下的差异应该也微乎其微,不是吗?

这个问题可能没那么简单。Rothstein (2009) 的研究尝试使用学生五年级教师的 VAM 分数来「预测」这些学生在四年级时的考试成绩,结果发现这种方法竟然有效。这要么意味着学校在违反时空规律,要么暗示四年级成绩优秀的学生不知何故得到了最优秀的五年级教师。更令人惊讶的是,Briggs 和 Domingue 不仅重复验证了这些效果,还发现五年级教师对其四年级学生的「影响」与她实际教导这些学生时的影响同等显著。这一发现似乎暗示 VAM 可能完全是偏差。尽管如此,Goldhaber 提出了一个观点,认为从统计学角度来看,这些结果可能并不那么令人沮丧。可惜我没有足够的~~理解能力~~毅力,难以评判这一论点的合理性。

遗传因素可能在解释这些结果中扮演重要角色(感谢 Spotted Toad 关于此主题的精彩文章)。Robert Plomin 进行的一项双胞胎研究采用经典行为遗传学方法分析了 VAM,发现个别学生在某一年级的 VAM 约有 40% 到 50% 可归因于遗传因素。换句话说,你从三年级到四年级的考试成绩变化,很可能更接近你的同卵双胞胎兄弟姐妹的成绩变化,而不是你的异卵双胞胎兄弟姐妹的成绩变化。

乍看之下,这似乎有些矛盾——既然 VAM 已经考虑了学生过去的表现,那么它难道不应该成为一个相当纯粹的教师效能指标吗?然而,Toad 提出了不同的见解。他引用了行为遗传学的十个可重复发现之一:对于年龄较小的孩子,智商更多受到共同环境的影响,而随着年龄增长,基因因素的作用逐渐增强。换句话说,在幼年时期,一个人的聪明程度在很大程度上取决于所处环境的丰富程度;而随着年龄增长,基因的影响变得越来越显著。

让我们考虑这样一种假设情况:你的成长环境可能将你的智商限制在 100,但你的基因潜力却能让你达到 120 的智商。假设(这里我们做了一些简化)你 5 岁时的智商是 100,15 岁时达到 120,并且这十年间智商呈现线性增长。这意味着你的智商每年可能会提高 2 点。现在,让我们再设想另一个孩子,她的成长环境有利于形成 130 的智商,但基因因素却将她的智商潜力限制在 90。5 岁时她的智商是 130,到 15 岁时降至 90,也就是说她的智商每年会下降 4 点。进一步假设,你们在标准化测试中的表现完全由智商决定。在这种情况下,你在五年级时的测试成绩会比前一年提高 2 分,这会让你的老师看起来教学能力出色。她可能会在 VAM 中获得高分,继而得到加薪和晋升的机会。相比之下,你的朋友在五年级的测试成绩会比前一年下降 4 分,这会让她的老师看起来教学能力不足,可能会被要求参加补救性培训。

这一批评恰好印证了 Rothstein 测试的观点。由于你每年都在稳步提高 2 分,Rothstein 教授可以根据你五年级的 2 分增长,准确预测出你在四年级时也增长了 2 分。同样,他也可以根据你朋友五年级的 4 分下降,准确预测她在四年级时也下降了 4 分。

这个解释简洁明了,但我有一个疑虑:它没有很好地解释衰减效应。假设一位五年级教师对四年级学生的「时间弯曲」效应与她对五年级学生的「无时间弯曲」效应完全相同,那么为什么当这些学生升入六年级后,她的影响力就只剩下五年级时的 25%?到了七年级,为什么影响会进一步减弱?这种解释显然存在重大漏洞。

如果我们能够将所有这些研究结果归纳为以下结论,那该多好:教师几乎没有持续性影响,而 Plomin 发现的遗传因素和 Rothstein 指出的因素恰好对应了 Chetty 等人识别出的 15-25%「永久」收益(这与我对排舞课的记忆缺失形成鲜明对比)。然而,这样做就会完全否定 Briggs 和 Domingue 的发现,即 Rothstein 效应可以解释 100% 已识别的 VAM 结果。

在我阅读的这个领域最优秀的论文中,我反复看到一个观点:与其争论「VAM 存在偏差!」还是「VAM 很棒!」,研究者们或许应该达成共识,承认 VAM 确实存在偏差,就像其他所有评估方法一样。接下来,我们应该致力于准确测量这种偏差的程度,并利用这个数据来决定 VAM 适合或不适合哪些用途。遗憾的是,我还没有看到有人以我能理解的方式开展这样的研究。

总的来说,我们有诸多理由对 VAM 持谨慎态度。然而,这些理由之间也存在一些矛盾之处,而且我们也不应该对 VAM 完全持否定态度。尽管 VAM 确实存在偏见,但在纷繁复杂的数据中可能仍然隐藏着一些有价值的信息,尤其是当我们对多年的数据进行平均分析时。

四、教师影响与学生收入

让我们重新审视那项声称优秀的四年级教师能为学生带来 89,000 美元收益的研究。这项研究出自 Chetty、Friedman 和 Rockoff 之手(分为第 1 部分第 2 部分)。你可能对 Chetty 这个名字并不陌生,他经常发表一些令人瞠目结舌的研究成果。

彭博社报道称,「真正杰出的」教师可以使学生的收入增加 80,000 美元,但我认为这主要是一种推测。我在论文中看到的具体数据是,相比平均水平高出一个标准差的四年级教师可以使学生的终身收入增加 39,000 美元。我们还是以这个更为可靠的数据为准。

这项研究结果乍听之下令人印象深刻,但让我们仔细推敲一下:假设一个普通人的职业生涯长达 40 年,这意味着一位优秀的老师每年能为学生的收入增加约 1000 美元。然而,需要指出的是,研究本身并未得出这一结论。实际上,研究发现这些杰出的教师能为学生每年增加约 300 美元的收入。但研究对象多为 20 多岁的年轻人,普遍收入不高。研究者由此推测,如果优秀教师能为刚踏入职场的员工增加 300 美元的年收入,那么对于拥有一定工作经验的员工,这个数字可能会攀升至 1000 美元。作者运用了大量统计数据来支撑这一假设,但我并不具备评判其合理性的专业能力。不过,这些具体数字真的那么关键吗?真正令人惊讶的是,四年级的一位优秀老师竟然能对学生未来的收入产生任何可测量的影响。一旦接受了这一前提,无论是 300 美元、1000 美元还是 50 万美元,似乎都不那么难以置信了。

还有一点值得我们关注。大多数研究都表明,教师对学生考试成绩的影响会随时间迅速减弱。Chetty 的研究似乎显示有高达 25% 的影响会长期存在,但他本人似乎并不热衷于为这一观点辩护,也承认考试成绩的提升可能只是暂时的。然而,有趣的是,Chetty 同时指出,优秀教师对学生未来收入的影响却似乎完全没有衰减。他和他的合著者在论文中写道:

我们得出教师具有长期影响的结论可能令人意外,因为有研究表明,教师对学生考试成绩的影响在随后几年会迅速「衰减」(Rothstein 2010,Carrell and West 2010,Jacob,Lefgren,and Sims 2010)。尽管我们的数据也证实了这种快速衰减现象,但我们发现教师对学生未来收入的影响,与根据收入和同期考试分数增长之间的横截面相关性预测的结果相符。

研究者后来将这种现象描述为「衰减和再现的模式」,但这种说法有些误导。实际上,VAM 在考试分数上从未再现,它只在收入数据中显示出来。

这些发现都颇具争议,而第三部分似乎为我们提供了一个简单的解释。VAM 中可能存在一个年复一年稳定的偏差成分,它实际上反映的是学生的素质,甚至可能是天赋能力,而非单纯的教师质量。很容易就可以认为,正是这个成分导致了 Chetty 所发现的 28 岁时的收入增长;四年级时天赋较高的学生在二十多岁时可能仍保持这种优势。

Chetty 意识到了这一论点,并试图反驳它。为此,他进行了一项准实验,他认为这验证并确认了他最初的观点:当新教师进入学校时,会发生什么变化?

我们最担忧的问题是学生选择教师时可能存在的偏见。为了消除这种影响,研究者采用了一种新方法:将一所学校的整个年级作为研究单位(例如,一所学校的所有五年级教师会被视为一个整体)。基于这种方法,Chetty 观察了当老教师退休、新教师加入时整个年级的变化情况。他特别关注了教师从其他学校转入的案例。这些转入的教师在原学校已有一个 VAM 评分,这个评分可能高于或低于他们新学校的平均水平。如果 VAM 评分确实能反映教学质量,那么当一位高分教师转入时,该年级的平均 VAM 评分应该相应提高;反之,如果转入的是低分教师,平均分则应下降。Chetty 分析了所有转校教师的数据,结果证实了这一假设。更加引人注目的是,他用这些转校数据估算的 VAM 与常规数据得出的数字完全一致(预示学生未来年收入增加 1000 美元)。这个发现令人惊叹,甚至可能显得过于完美。真的吗?完全一样的数字?难道常规数据中完全没有偏差?我印象中有大量证据表明,大部分研究结果其实都存在偏差,这似乎有些矛盾。

Rothstein 成功地使用另一个学区的数据复现了 Chetty 的研究结果。不仅如此,他还对 Chetty 的准实验研究采用了与分析常规 VAM 相同的方法,并得到了类似的结果。具体来说,当一位优秀的五年级新教师调入某校后,该校的整体表现提升程度可以在一定程度上预测这位教师的学生在四年级时的成绩。这种预测虽然不是完全准确,但确实存在一定的相关性。令人困惑的是,教师调动似乎产生了与其他 VAM 评估相同的、看似违反时间逻辑的效应。对于这一现象,Rothstein 主要从 Chetty 的样本选择角度进行了解释。他认为 Chetty 错误地排除了某些班级和教师,尽管这一论点我并未完全理解。Rothstein 还提供了另一个可能导致这种现象的例子:假设一个社区正在经历中产化进程。随着原有教师退休,新调入的教师很可能是被不断改善的社区环境吸引而来的更优秀的专业人士。同时,学校的学生群体在基因和社会经济背景上可能也变得更具优势。因此,我们会观察到更优秀的调入教师与学生的高成绩之间存在相关性,但这并不意味着前者直接导致了后者的出现。

在此之后,Rothstein 和 Chetty 之间展开了一场愈发深入复杂的学术辩论,其中涉及的技术细节已经超出了我的理解范围。Chetty 与其同事 Friedman 和 Rockoff 合著了一份长达 52 页的《回应 Rothstein》报告。他们在报告中指出,即便在一个理论上不应存在因果关系的公平实验中,Rothstein 的研究方法也会得出回溯性因果效应的结论。据 538 网站的一篇相关报道,一些学术造诣颇高的专家(尽管他们本就支持 VAMs,可能存在一定偏见)认为 Chetty 的回应很有说服力,就连 Rothstein 本人也承认这种论证「可能」成立。538 网站明确表示,在这轮交锋中 Chetty 占据了上风。然而,Rothstein 随后发表了一份新的研究报告作为回应,重新验证了他的研究结果。他声称这份新报告不仅回应了 Chetty 的质疑,而且仍然发现了表明存在偏见的回溯性因果效应。据我所知,Chetty 至今尚未对此作出回应,也没有其他专家就这份新报告的正确性给出权威意见。

我通常会倾向于这样说:这里有一些非常奇特的结果,看起来难以成立,我们想要为它们找个合理的解释。现在有一位德高望重的伯克利大学经济学教授声称他已经解释清楚了,太好了,让我们把整件事都抛诸脑后吧。然而,还有一个实验,我无法轻易将其忽视。

五、幼儿园教师的长期影响

STAR 项目(全称为「学生与教师成就比」)是 80 年代和 90 年代开展的一项重大教育实验,旨在研究较小的班级规模是否能提高学生的学习成绩。这个问题本身就错综复杂,但关键在于,为了进行这项实验,研究人员在 79 所不同的学校里,将幼儿园学生随机分配到各个班级中。考虑到最近几项研究可能存在偏差的一个主要原因是学生可能被非随机地分配给教师,这些田纳西州的学校提供了一个难得的机会,使我们能够获得比其他任何地方都要可靠得多的数据。

Chetty、Friedman、Higer、Saez、Schanzenbach 和 Yagan 对 STAR 项目的数据进行了深入分析。他们尝试通过教师经验、资格证书及其他特征来预测学生未来的收入,但这种方法的有效性仍存在争议。Bryan Caplan 在他的分析文章中(12)对此研究提出了诸多质疑。尽管 Caplan 对该研究的多个方面持怀疑态度,但有一点他并未提及,而这恰恰是我认为最具说服力的部分——这种方法与 VAM 颇为相似。

得益于随机分配的实验设计,Chetty 等人无需采用完整的 VAM 方法。他们评估幼儿园教师质量的指标似乎仅仅是该教师所有学生标准化考试成绩的平均值(且慢,现在连幼儿园学生也要参加标准化考试了吗?看来确实如此)。在用教师质量预测特定学生的未来成就时,为了确保公平性,他们会采用除了该学生以外的所有其他学生考试成绩的平均值作为指标。

研究发现,同班同学的平均考试成绩与学校内其他随机分班学生的平均成绩相比,能够预测一个学生的考试成绩。具体来说,「入学年级的班级整体水平每提高一个百分点,预计会使学生个人的考试成绩提升 0.68 个百分点,这证实了同一班级内学生的考试成绩高度相关。」然而,这种影响到四年级时会逐渐减弱至几乎可以忽略不计,表明优秀教师对学生考试成绩的积极影响是短暂的,会迅速消退。但是,被分到整体水平较高班级的学生,在 25-27 岁时的平均收入会有显著提升!研究者声称,班级水平每提高一个百分点,学生未来的收入就会增加 0.4%,而且这种关系是线性的。举个例子,在他们的数据集中,最优秀的幼儿园教师使她的班级平均表现达到第 70 百分位,这些学生在成年后的平均收入约为 17000 美元(注意,这些数据来自田纳西州的年轻初级职员),而那些由普通水平幼儿园教师教导的同龄人平均收入仅为 15500 美元左右。换言之,仅仅是幼儿园老师这一个因素,完全不考虑他们一生中遇到的其他老师,就使他们的平均收入增加了 10%。面对如此惊人的研究结果,不禁让人质疑:Chetty 及其研究团队,你们真的认为这个结论可信吗?真的?

尽管这项研究的结论令人难以置信,但却很难找出其中的漏洞。即便是持反对意见的 Caplan 也不得不承认,「这是一篇极其出色的论文」,「作者极为谨慎」,并将其评价为「有史以来最杰出的实证研究论文之一」。由于采用了随机实验设计,我们无法对其应用大多数常用的反对 VAM 的论据。坦白说,我也不知道该如何评判。我真的无法确定。

好吧,我有一个虽然可能性很小,但值得考虑的假设。Chetty 等人在评估教师质量时,是基于整个班级学生的表现,并在预测每个学生结果时将其排除在外。这种方法只有在学生不影响同学考试成绩的情况下才是客观的。然而,现实可能并非如此简单,某些学生可能确实会影响其他同学的成绩。如果一个学生存在行为问题,可能会影响整个班级的学习氛围和成绩。Carrell 的研究发现,「在小学 25 人的班级中,接触到一个捣乱的同学会导致 26 岁时的收入降低 3% 到 4%」。诚然,这本身就是一个令人难以置信的研究结果。但如果我们接受这个同样难以置信的第二项研究,它可能为我们提供了一种质疑第一项研究的新视角。假设班上有一个问题学生,经常捣乱并干扰课堂秩序。这不仅会降低其他同学的考试成绩,还会使得教师看似能力不足。这个学生长大后可能仍然问题重重,行为不端,难以获得好的工作。如果这是导致班级间表现差异的重要因素,那么所谓的「教师质量」可能实际上反映的是班上行为问题学生的比例,而教师质量对未来收入的影响可能只是反映了行为不端的学生往往成为低收入成年人这一事实。虽然我不确定这种效应的影响程度如何,但它可能是一种可能性。

然而,如果我们无法证实这一观点,我们就不得不接受一个令人困惑的结论:优秀的幼儿园教师能够显著提高学生未来的年收入,增幅可达数千美元。这种现象该如何解释呢?

值得注意的是,所有研究都一致表明,测试分数的提升效果远不能持续几乎那么长时间。因此,我们不能简单地认为幼儿园教师为学生奠定了有价值的知识基础,供他们日后继续发展。同样,我们也不能假设幼儿园教师仅仅通过激发兴趣或丰富经历来提高学生的智商或培养他们对学习的热爱。这种长期影响必定源自某些与考试成绩和可量化智力能力无关的因素。

Chetty 等研究者提出的解释是,教师还在传授「非认知技能」。虽然我无法完全理解他们所使用的复杂回归分析方法,但他们的研究结果显示:幼儿园班级质量提高一个百分点,虽然对八年级标准化考试成绩的影响微乎其微(仅提高 0.05 个百分点,不具统计学意义),但对八年级学生的非认知能力评分却有显著影响(提高 0.15 个百分点,具有统计学意义)。这里的「非认知能力评分」是通过让八年级教师评估学生的行为表现来获得的,例如回答「这个学生是否经常打扰他人?」之类的问题。研究进一步表明,这些非认知能力的持续性比标准化考试成绩更能准确预测未来的收入增长。研究者尝试将这些非认知效应分为四个类别:「努力程度」、「主动性」、「参与度」和「对学校教育的重视程度」,但结果显示这四个方面的影响大致相当,没有特别突出的单一因素。

这一发现与我此前提出的「行为问题」理论高度吻合,该理论探讨了幼儿园班级对学生未来收入的影响。值得注意的是,学生所在幼儿园班级的「质量」可能主要取决于班上存在行为问题的学生数量,而非其他因素。有趣的是,这一「质量」指标与学生未来的考试成绩并无明显关联,但却与日后出现的行为问题密切相关。这一观察结果也呼应了 Plomin 的研究发现:早期的考试成绩主要受环境影响,而后期的考试成绩则更多地由基因决定。由此可见,尽管幼儿园阶段的不良学习环境可能会产生重大影响,但这种影响在学生日后的学习生涯中可能会逐渐减弱。

这一发现与其他一些研究结果不谋而合。众所周知,学前教育带来的考试成绩提升往往会在几年后消失殆尽。然而,一些大规模的学前教育研究,如 Perry 学前教育计划发现,尽管这类项目可能不会提高智商,但却可能产生其他影响。不过,情况并非如此简单。有趣的是,Perry 计划确实提高了参与者日后的标准化考试成绩,只是没有提高智商分数。更让人困惑的是,其他研究则发现,接受过学前教育的儿童反而会表现出更多行为问题。这让我联想到我最近引用的一些初步研究。这些研究表明,过早的入学年龄似乎会导致类似注意力缺陷多动障碍(ADHD)的不良行为模式,并对日后的生活产生负面影响。我倾向于将这种现象归因于在儿童大脑仍在发育的阶段过早地给予过度挑战。如果我想说得更尖锐一些(而我确实想这么做!),我甚至可以说,所有的幼儿园教育都是一种神经学上的创伤,因为它迫使学生过度使用尚未成熟的大脑来专注于枯燥的事物,从而破坏了他们未来的人生前景。不过,优秀的教师可以通过让课堂更有趣来减轻这种负面影响。

然而,即便这是事实,我们仍然要回到我最初提出的问题:有力证据表明,除去基因因素,父母对子女人生结果的影响相对有限。那么,我们现在却在说,一位仅仅教导一年的幼儿园老师反而能产生如此重大影响?更令人不解的是,这种影响并非来自幼儿园教师的专长领域(即学科教学),而是在行为问题方面——这恰恰是父母有着无数接触机会和巨大影响力的领域?

坦白说,我仍然难以完全接受这些研究结果,但我也没有足够有力的证据去彻底否定它们。不得不承认,参与这场讨论的各方都表现出色,数据质量很高,而且成功避开了许多常见的研究陷阱。尽管如此,这些还不足以让我完全信服。

六、总结

总的来说,教师质量大约能解释当年考试成绩差异的 10%。一位优秀程度高出 1 个标准差的教师,可能会使学生的考试成绩每年提高 0.1 个标准差。这种影响随时间迅速减弱,可能在四五年后就完全消失,尽管也可能存在一些微小的长期效应。我们难以排除其他因素的影响,比如学生的自然分组或遗传潜力,这些可能作为人为因素影响研究结果。大多数人都认为,这类评分既包含有效信息,也掺杂了大量干扰因素。有趣的是,尽管教师对考试成绩的影响很快就会消退,但研究表明,他们对学生 20 或 25 年后的收入有显著影响。这种影响之大,以至于幼儿园教师的质量可以预测学生成年后收入相差数千美元。这个看似难以置信的发现已在准实验甚至真实实验中得到重复验证,难以否定。由于这种影响并非通过标准化考试成绩体现,最可能的解释是它涉及行为等非认知因素。对于这个发现,我持保留态度,认为它是否真实存在的可能性各占一半。这主要基于我对该领域研究的低先验预期,而非研究本身的缺陷。我对这个领域了解不深,因此对我所说的任何内容都持谨慎态度。

延伸阅读资料:Institute of Education Science summary, Edward Haertel’s summary, TTI report, Adler’s critique of Chetty, American Statistical Society’s critique of Chetty/VAM, Chetty’s response, Ballou’s critique of Chetty


Thoughts Memo 汉化组译制
感谢主要译者 claude-3.5-sonnet,校对 JarrettYe
原文:Teachers: Much More Than You Wanted To Know | Slate Star Codex
发表于 2016 年 5 月 19 日
作者:SCOTT ALEXANDER

专栏:Thoughts Memo的文章


← 返回目录