幼儿园：比你想知道的要多得多

一、研究综述与质疑

我此前发表的一篇关于幼儿园的文章^[1]引发了不少反对声音。看来，我们有必要对此进行更加深入细致的探讨。

简要回顾：高质量的随机对照试验已经证明，幼儿园并不能持续提高学生的考试成绩。尽管有时考试分数会略有提升，但这种效果通常在接受一两年常规学校教育后就会消失。然而，早期针对一些密集型「全方位（wrap-around）」幼儿园项目（如 Perry 幼儿园计划和 Abecedarians 项目）进行的随机对照试验发现，这些项目的毕业生在成年后确实取得了显著更好的成果。这些成果包括更高的学校毕业率、更高的大学入学率、更低的犯罪率以及更好的就业机会。不过，这些研究是在 20 世纪 60 年代进行的，当时的研究方法还不够规范，随机化和后续跟踪都相对随意。此外，这些研究的样本量较小，且所研究的项目比后来取代它们的大规模推广版本更加密集。现代大规模推广的幼儿园项目，如 Head Start，迫切希望能够继承这些早期项目的声誉，并宣称取得类似的成果。然而，目前针对 Head Start 唯一的高质量随机对照试验——HSIS 研究——仍处于初期阶段。该研究已经证实，Head Start 带来的考试成绩提升确实会逐渐消退。但是，研究时间还不够长，无法得知该项目是否会对学生的未来生活产生长期影响。我们可能需要再等约十年才能看到这些结果。在此之前，我们只能基于一些准实验研究进行推测。

在众多相关研究中，Deming 2009 年的研究最令我赞赏。Deming 分析了全国青年纵向调查的数据，这是一项被广泛应用于社会科学研究的全国性大型调查。他特别关注了参加 Head Start 项目的儿童。考虑到 Head Start 项目主要针对贫困家庭，这些儿童大多来自弱势群体，因此直接将他们与普通儿童进行比较显然是不公平的。Deming 没有采用简单的「收入控制」方法，因为他深知这种方法的局限性。相反，他采用了一种独特而巧妙的研究方法：找出那些参加了 Head Start 项目但有兄弟姐妹未参加的儿童，将这些未参加项目的兄弟姐妹作为 Head Start 参与者的匹配对照组。

这种研究方法虽然确保了对照组与实验组来自相同的社会经济背景，但研究者也承认这种做法引发了新的问题。我们不禁要问：为什么父母会选择让一个孩子参加 Head Start 项目，而不让另一个参加呢？可能是因为其中一个孩子学习能力较差，父母认为他需要幼儿园提供的额外帮助。如果是这样，Head Start 的参与者可能普遍不如对照组聪明，这就会导致我们低估 Head Start 项目的效果。也可能是因为其中一个孩子特别聪明，父母希望通过教育来充分开发他的潜力。在这种情况下，Head Start 的参与者可能普遍比对照组更聪明，从而夸大了项目的效果。另一种可能是，父母偏爱某个孩子，因此在各方面都给予更多支持。如果这意味着这些孩子在其他方面也获得了更多优势，那么同样会夸大 Head Start 的效果。还有一种可能是，父母将更偏爱的孩子送到高档私立幼儿园，而不太受宠的孩子则被安排到面向弱势群体的政府项目 Head Start。还可能是父母最初经济条件不佳，将孩子送入 Head Start，但后来经济状况改善，便将下一个孩子送入高档私立幼儿园。这种情况下，后者不仅享受了更好的幼儿园，还因家庭新获得的财富在其他方面受益。显然，这里存在诸多潜在的问题。

Deming 竭尽全力地试图证明 Head Start 项目对参与者并无实质性影响。为此，他开展了一项全面的对比研究，比较了参加 Head Start 项目的儿童与其未参加项目的兄弟姐妹，涉及三十个不同的前置变量。这些变量涵盖面广泛，包括幼儿园阶段的家庭收入、标准化测试成绩、各种健康指标、母亲在孩子幼儿园阶段的工作时长，以及是否接受母乳喂养等。然而，在这三十个变量中，Deming 仅在出生体重一项上发现了显著差异：参加 Head Start 项目的儿童出现极低出生体重的可能性更小。这一发现颇具意义，因为出生体重被普遍认为是预测儿童整体健康状况和未来生活成就的重要指标。但是：

鉴于近期大量文献探讨了出生体重与个人后续发展之间的关联，这对本研究的有效性构成了严峻挑战。然而，我们有充分理由相信，出生体重的差异并不会导致严重的偏差。首先，这种差异似乎主要源于低出生体重儿童比例的不均衡，而非 Head Start 项目参与者的整体出生体重分布向右偏移。例如，当我们将占样本不到 10% 的低出生体重儿童排除在外时，出生体重就不再存在显著差异。

其次，在本研究样本中，出生顺序与出生体重之间存在显著的交互作用。出生体重的平均差异主要来自第三胎、第四胎或更晚出生的孩子。相比于未参加幼儿园的兄姐，那些出生较晚且随后参加 Head Start 项目的孩子，出生体重偏低的可能性要小得多。当我将分析范围限定在仅有兄弟姐妹对的家庭时，出生体重的差异大幅缩小且不再具有统计显著性，而主要研究结果仍然保持稳健。最后，我在剔除低出生体重儿童后，重新估算了第五节中的所有模型，结果显示主要发现依然保持不变。

尽管如此，为了评估可能存在的正向偏差的程度，我参考了 Black, Devereux 和 Salvanes (2007) 对出生体重影响长期结果的估计，进行了一次修正计算。他们的研究发现，出生体重增加 10% 会使双胞胎的高中毕业率提高 0.9 个百分点，兄弟姐妹间则提高 0.4 个百分点。假设这种简化关系在本研究中同样适用，一个粗略的修正表明，Head Start 项目对高中毕业率的影响（以及由此推及的其他结果）可能存在 0.2 到 0.4 个百分点的上偏，约占总效应的 2-5%。

Deming 设立了实验组和对照组后，开展了一项研究，旨在比较参与「Head Start」计划的儿童与对照组儿童的表现。测试结果呈现出一些复杂的模式，这些模式在不同子群体间存在差异。黑人儿童（占样本的主体；「Head Start」计划主要面向弱势群体，有时特别关注黑人）表现出典型模式：在幼儿园和一年级时，测试分数略高，但这种优势在几年后逐渐消失。白人儿童的测试分数则始终没有显示任何提高。某些子群体，如男孩和高智商母亲的孩子，测试分数的提高似乎持续存在。然而，这些子群体间的显著性差异本身并不具有统计学意义，可能只是随机现象。合理的推测是，作为样本主体的黑人儿童的结果才是真实的，其他结果可能只是统计噪音。这与对整个样本的非子群体分析结果一致，研究似乎也采用了这种解释方式。

Head Start 项目在非测试指标上的成效尤为显著。参与该项目的学生比对照组学生高中毕业的概率高出约 8%。这种积极影响在黑人、男孩和母亲智商较低的孩子中特别明显，而在白人、女孩和母亲智商较高的孩子中则不太显著。考虑到前三类群体本身面临较高的辍学风险，这种差异可能只是反映了所谓的「地板效应」。此外，参与 Head Start 项目的学生被诊断为学习障碍的可能性更低（值得注意的是，学习障碍的诊断标准本身存在问题，往往会不公平地影响学业表现欠佳的学生），他们留级的可能性也略低。研究结果表明，对于那些原本就容易出现不良结果的群体，项目的效果更为显著，这与预期相符。然而，该项目对减少犯罪行为似乎没有明显影响。令人疑惑的是，尽管数据集应该包含相关信息，研究者并未分析项目对参与者收入的影响。

研究者将这些结果综合成一个「年轻成年人结果」指数，发现 Head Start 项目使这一指数提高了 0.23 个标准差。虽然这个数字小于常被认为效果微不足道的抗抑郁药 0.3 个标准差的影响，但在社会科学领域，这已经是相当可观的进步。Deming 对这一结果做出了乐观的解读，认为它「缩小了家庭收入中位数和底部四分之一之间差距的三分之一」，「弥补了 75% 的黑人-白人差距」，并且「以 60% 的成本达到了 Perry 幼儿园项目 80% 的效果」。

最后，为了确保研究结果的可靠性，他进行了一系列稳健性检验，以验证结论不会过度依赖于分析中的任何特定因素。我不会在此详细介绍这些检验，但有兴趣的读者可以在手稿的第 127 页找到相关内容。值得称赞的是，他主动进行了这样的检验。这一点尤其难能可贵，因为我平常阅读的社会心理学家们的论文中，他们对待稳健性检验的态度，就如同吸血鬼对待大蒜一般。

Deming 的研究与 Garces Thomas & Currie (2002) 的论文在研究方法上高度相似，只是采用了不同的数据集。GTC 的研究更早且更为知名，在相关领域的讨论中常被引用。我之所以更关注 Deming 的研究，是因为我认为他的分析更为严谨，且对研究方法的阐述更为详尽。仔细研读 GTC 的研究，可以发现他们并未在整体样本中发现显著效果。在分组分析中，他们发现 Head Start 项目提高了白人完成高中学业并进入大学的可能性，同时降低了黑人参与犯罪的概率。这种差异似乎可以用地板效应来解释：黑人与刑事司法系统接触的几率本就远高于白人，再加上样本中黑人数量多于白人，因此这一效果只在黑人群体中表现得显著也不足为奇。然而，仔细审视研究结果，我发现白人群体中也存在几乎同等强度的正面效应（即参与 Head Start 项目的白人犯罪率上升，幅度与参与项目的黑人犯罪率下降相当）。只是由于白人样本较少，这一效应未达到统计显著性。此外，无论如何解读，有关高中教育的结果都难以自圆其说。GTC 在论文中多次提到「统计显著性」，表明他们确实考虑了这一因素。但他们并未给出具体的显著性水平，这让人感觉他们的结果并不十分令人信服。更值得注意的是，他们的研究结果与 Deming 的发现存在较大差异。Deming 的研究表明，所有种族都更可能从高中教育中受益，且没有任何种族的犯罪率下降。此外，GTC 在证明兄弟姐妹之间不存在差异方面的工作也远不如 Deming 充分。虽然 Deming 的研究被认为是对 GTC 的确认或复制，但实际上，这种说法仅仅是因为两项研究都对 Head Start 项目给予了积极评价。事实上，他们的研究结果模式大相径庭，而且 GTC 的结果在某种程度上显得缺乏说服力。

值得一提的是，在十年前，本文提到的两位作者 Currie 和 Thomas 就进行了一项类似的研究。他们同样使用了全国青年纵向调查数据，这让我不禁好奇他们的分析方法与 Deming 的研究有何区别（可能是因为时间更早，可用数据较少？）。他们最初采用了一个「调整混淆因素」的模型，但效果并不理想。随后，他们转而使用了一个比较兄弟姐妹的模型，结果发现参加 Head Start 项目的孩子通常比未就读幼儿园的兄弟姐妹年龄稍大，且往往出生于经济条件较差的母亲（这两个现象本质上可能是同一结果的不同表现，因为母亲随着年龄增长，经济状况通常会有所改善）。这些参加项目的孩子在标准化测试中的表现也往往更为出色。然而，研究中并未明确说明测试的具体时间，因此我无法判断这是否意味着分组本身就存在偏差，还是说项目干预确实提高了测试分数。研究发现，Head Start 项目并未增加参与者的收入，可能会在某种程度上提高白人而非黑人的测试分数，降低白人而非黑人的留级率，并改善黑人而非白人的健康状况。研究者还探讨了 Head Start 对母亲的影响，因为该项目的全面服务中包括家长培训。研究仅发现对白人母亲的智商分数有轻微影响，此外还有一个「Head Start 显著提高白人母亲首次生育时为青少年的概率」的结果，但研究者认为这可能只是抽样误差。与后来的研究类似，这项研究也没有给出 p 值，而我也懒得算这些值。不过，从给出的信息来看，这些结果的统计显著性可能并不令人信服。

最后，布鲁金斯学会的一个研究团队也对 Deming 的工作进行了复制和拓展。他们采用了与 Deming 和 GTC 论文相同的全国青年纵向调查数据集，但纳入了更多年份的数据进行更新分析。与 Deming 的发现一致，他们确认参加 Head Start 项目的儿童与未上学前班的兄弟姐妹在「大量」潜在混杂因素上并无显著差异。作为布鲁金斯学会的研究，他们以更为清晰直观的方式呈现了研究结果：

布鲁金斯的复制研究（图中标记为 THP）发现的效果大小介于 GTC 和 Perry 幼儿园之间。具体而言，他们发现 Head Start 项目对西班牙裔学生的高中毕业率产生了积极且显著的影响，但对黑人和白人学生则无显著影响。这一发现呈现出与之前研究不同的种族差异模式。由于他们的样本中黑人和西班牙裔学生比例较高，且黑人学生的结果接近显著水平，因此整体样本的结果是显著的。研究显示，Head Start 项目使高中毕业率提高了约 6%，略低于 Deming 声称的 8%。然而，从这张图表上很难理解 Deming 如何得出他的 8% 效果达到 Perry 幼儿园 80% 的结论。此外，研究还发现 Head Start 项目在大学入学率、自尊心和「积极育儿」等方面也产生了类似的积极影响。他们的结论是：

这些研究结果与 Deming (2009) 的发现高度一致。值得注意的是，Deming 当时只能基于有限的群体数据来计算高中毕业率。

Deming、GTC、CT 和 Brookings 这四项研究尽管使用了不同的数据集，但本质上都在探讨同一个问题。从宏观角度看，它们的结论听起来大同小异——「某些族裔群体的高中毕业率等指标有所改善」。然而，深入细节就会发现，这些研究在具体哪些指标得到改善，以及哪些族裔群体受益等问题上难以达成一致。这种分歧的严重程度值得我们深思。这些研究的结果普遍徘徊在统计显著性的临界点附近，时而略高，时而略低，这一方面解释了研究之间的矛盾，另一方面本身也引发了质疑（Deming 的研究是个例外，其中多项结果在 0.01 显著性水平上成立）。尽管如此，大多数研究确实发现了总体向好的趋势，得出的结论也基本合理。总的来说，我认为 Deming 的研究表现较为出色，Brookings 的重复研究因细节不足难以评判，而各种 GTC 论文则对整体结论影响不大。

二、断点回归研究

我打算单独讨论 Ludwig 和 Miller的研究，因为它采用了一种不同的——也更为有趣的——研究设计。

1965 年，美国政府启动了一项新措施，旨在为全国 300 个最贫困县实施「Head Start」项目。由于该计划并未惠及排名第 301 位及之后的县，这就在第 300 位和第 301 位之间形成了一个自然的断点。这种情况为开展断点回归实验提供了典型案例，因此研究者 Ludwig 和 Miller 决定深入调查，探究从第 301 位最贫困县到第 300 位是否存在儿童发展成果的显著跃升。

他们首先关注健康方面的结果，发现了令人瞩目的进展。数据显示，「Head Start」项目使某些易预防的儿童疾病的发生率降低了 33% 到 50%。例如，在实施该项目的县中，儿童贫血症状况明显改善。这一结果并不令人意外，因为「Head Start」项目的一个重要内容就是进行贫血筛查并为儿童补充铁质，这对多数贫血症都有治疗效果。值得注意的是，1965 年美国最贫困的 300 个县主要集中在深南部地区，以黑人人口为主，各方面条件之恶劣远超一般想象——可以说接近第三世界的贫困水平。在这样的地方实施健康筛查和干预措施，自然会降低那些原本可预防的疾病的发生率。Ludwig 和 Miller 的研究证实了这一点。尽管这个结果令人鼓舞，但并不特别出人意料，而且可能与我们此处讨论的其他内容关联不大。

然而，研究人员还发现了一个关于高中毕业率的显著现象，他们称之为约 5% 的「正向断点」。具体而言，在美国最贫困的前 300 个县，儿童完成高中学业的几率比排名第 301 位及以后的县高出约 5 个百分点。这相当于平均多接受了半年的学校教育。值得注意的是，这种断点现象在「Head Start」（一项针对低收入家庭儿童的早期教育计划）实施之前并不存在，而且在那些因年龄原因无法参与该计划的儿童中也未观察到。这一现象恰好在 Head Start 计划启动时出现，且仅限于参与该计划的儿童群体。这是一个极具意义的研究发现。

遗憾的是，研究结果并不如预期理想。研究者坦诚地指出，他们的发现仅仅达到了统计学上可检测的临界值（p<0.05）。为了增加结果的可靠性，他们使用另一个数据源进行了交叉验证，结果显示了相同的趋势，但统计显著性更低（p<0.1）。研究者承认：「我们关于 Head Start 项目对教育程度产生积极影响的证据更多是推测性的，而且受限于我们可用的两个数据源都不够理想这一事实。」尽管这项研究采用了最为严谨的设计，确实发现了一些效应，但这些效应基本上等同于对着图表仔细观察后得出「这条线似乎比另一条稍微高一点」的结论。他们进行的统计分析，本质上也不过是用数学方法来表达这种微弱的差异，说服力同样有限。如需更全面、更具批评性的分析，可以参考这个 subreddit 上的相关讨论。

值得关注的是 Carneiro 和 Ginja 进行的另一项断点回归研究。他们分析了 Head Start 项目可用性对参与者的影响，试图证明那些刚好符合参加条件的人比那些刚好不符合条件的人表现更好。这种研究方法既巧妙又具有说服力。研究结果显示，参加 Head Start 的人在某些方面确实受益：他们较少出现肥胖问题，患抑郁症的可能性也较低。对于非黑人群体（不包括黑人），参与犯罪的可能性降低——这一发现与先前关于 Head Start、犯罪和种族的研究结果恰恰相反。然而，该研究并未发现 Head Start 对提高高中毕业率或大学入学率有显著影响。有趣的是，研究者似乎有意淡化了这一结果，而其他人在引用这项研究时，往往只强调「瞧，Head Start 项目的效果得到了再次证实」这一观点。

三、其他研究

一些零散的其他相关研究：

1980 年，芝加哥启动了名为「儿童父母中心」的幼儿园项目，其目标群体是弱势儿童，这与我们此前讨论的其他项目如出一辙。他们进行了一项研究，研究结果却出人意料地发表在了一份医学杂志上。这项研究的严谨程度似乎不及同类研究。例如，对照组的情况几乎只是一笔带过，仅称其为「匹配的」。尽管如此，得益于异常庞大的样本量和出色的跟踪调查，他们得出了一些引人注目的结论：该项目使儿童在校时间延长了六个月，这与其他多项研究的发现不谋而合；对大学毕业率产生了显著影响（参与项目的儿童大学毕业率为 14%，未参与的为 8%）；效果呈现剂量依赖性；而且「结果稳健」。然而，由于他们在展示研究过程方面表现欠佳，我不得不选择信任他们和发表这项研究的《美国医学会杂志》。这是一本享有盛誉的期刊，我只能寄希望于它不会刊登毫无价值的文章。

Havnes 和 Mogstad 对挪威一项分阶段在各地推行的免费普惠儿童保育计划进行了分析。他们发现，「接受儿童保育的经历提高了完成高中教育和进入大学的可能性，其影响程度与美国黑人-白人教育差距相当」。我不禁略显犬儒地推测，如果挪威有黑人人口，他们从这个项目中获得的利弊可能会呈现出完全不同的模式。然而，由于挪威是一个几乎单一民族的国家，他们得以避开了分群体分析。这与魁北克的情况形成鲜明对比，那里一个类似的儿童保育计划似乎导致了更糟糕的长期结果。深入探讨这些研究结果，虽然证据尚显薄弱和非正式，但支持了这样一个模型：当日托质量优于父母照料时，儿童发展结果会改善；反之，当日托质量低于父母照料时，儿童发展结果会下降。因此，建立高质量日托并主要吸引那些父母无法提供良好照料的儿童的改革将会有益。相反，创建低质量日托并从已经做得很好的家庭吸引儿童的改革则会产生负面影响。更多相关讨论可参见此处。

接下来让我们关注 Chetty 关于学前班（kindergarten）的研究，我在另一篇文章^[2]中曾详细探讨过。他的研究发现颇具启发性：优秀的学前班教师虽然不能持续提高学生的考试成绩，却能持续影响其成年后的收入水平。这一现象与幼儿园效果先消退后显现的论点不谋而合。这项研究采用随机对照设计，具有很强的说服力。然而，将其直接应用于当前的讨论可能不太恰当，原因有三：首先，幼儿园与学前班存在本质区别；其次，拥有一位优秀教师并不等同于接受幼儿园；最后，我们目前讨论的大多数研究并未涉及成年收入这一指标。尽管如此，这项研究至少揭示了一个重要可能性：学校教育对人生后期的发展可能产生意想不到的巨大影响，这种影响可能会先消失，而后又重新显现。

最后，还有一项涵盖 22 项早期儿童教育研究的元分析，结果显示早期儿童教育对高中毕业率的影响效应为 0.24 个标准差，p 值小于 0.001。老实说，也许我应该一开始就提到这项研究。把它留到最后可能显得有些不合常理，因为它的重要性可能超过我之前提到的所有研究的总和。我之所以这样安排，一方面是想让你体会到我在研究接近尾声时发现这一重要文献的沮丧心情，另一方面也是为了让你对这个元分析所包含的研究类型有一个全面的认识。

四、幼儿园项目有 60% 的可能是有效的

那么，面对这些纷繁复杂的研究结果，我们能得出什么结论呢？

我担心第一部分和第二部分的所有研究都被过于简单地总结为「Head Start 项目有效！」，因而被视为相互印证。毕竟，最新的研究和之前的研究似乎都得出了这个结论。然而，实际情况远比这复杂。每项研究实际上都发现 Head Start 对某些特定群体在某些特定方面有微小影响，而且这些受影响的群体和具体影响往往因研究而异。以 GCT 和 Deming 的研究为例。虽然这两项研究通常被认为相互验证，但它们的结果实际上存在矛盾。GCT 的一个主要发现是 Head Start 降低了黑人儿童的犯罪率，但 Deming 却发现 Head Start 对黑人儿童的犯罪率没有影响。这两项研究唯一一致的结论是 Head Start 似乎提高了白人的高中毕业率。然而，Carneiro 和 Ginja 的研究（通常被视为对前两项研究的重复验证）却发现 Head Start 对白人的高中毕业率没有影响。

对这种现象，有一个合理的解释：所有这些研究结果都非常接近统计显著性的临界值，因此这些差异可能仅仅是统计噪音。用图表来展示可能会更直观：

从图中可以清楚地看出，两项研究基本上得到了相同的结果，只是存在少许噪音。但是，由于统计显著性的判断，研究 1 不得不将其结果报告为「对黑人有显著影响，对白人无显著影响」，而研究 2 则必须报告相反的结论。这是否就是导致这些看似矛盾的结果的原因呢？

我整理了一份数据表格，但坦诚地说，我对这个表格的可靠性存有很大疑虑。首先，从本质上讲，我不确定我所进行的这种数据比较是否真的可行。我怀疑这些研究中的数据是否真的具有可比性，它们是否确实反映了表面上看起来的那些含义。其次，我也不能完全确定我记录的信息绝对准确，或者所有数字都被放在了恰当的位置上。尽管如此，我还是决定将这个表格呈现出来；其中红色标记表示该结果在统计学上具有显著性：

这个表格印证了我之前的担忧。每项研究都得出了迥然不同的结论，而且差异之大令人吃惊。举个例子，Carneiro & Ginja 的研究发现，该项目对降低白人犯罪率有显著的积极效果。然而，GCT 的研究却发现 Head Start 反而略微提高了白人犯罪率，尽管这一增加在统计学上并不显著。同时，GCT 的研究表明该计划能显著降低黑人犯罪率，效果很强，但 Carneiro 和 Ginja 的研究却发现这一效果几乎可以忽略不计。

在这些研究中，黑人高中毕业率的结果最为一致，也最具说服力。Deming 的研究，以及 Ludwig 和 Miller 的研究都发现了积极效应。尽管 Carneiro 和 Ginja 的研究没有发现显著效应，但他们得出的效应量与其他研究相近。他们之所以没有得出显著性结果，可能是因为采用了更为严格的标准，这体现在他们对多重比较进行了调整，并检验了多个变量。事实上，他们确实应该采用更严格的标准。我试图为反对这一做法辩护，本质上是在否定他们恰当的研究方法，仅仅因为我想强行得出积极结果。然而，这正是良好的统计实践试图阻止我们做的事情。因此，我应该认识到这种倾向的不妥，避免这样做。

以下是支持接受这项身体研究的最有力论据。首先，这似乎并非源于发表偏差。Ludwig 和 Miller 在一篇论文中指出，由于几乎所有可用于评估「Head Start」项目的数据集都已被分析，因此这里不太可能存在发表偏差。其次，尽管我在前面的图表中没有特别关注性别或智商因素，但大多数研究确实发现，该项目在解决男性和低智商群体常见问题方面更为有效，这表明研究结果通过了合理性检验。更为关键的是，如果一项研究的结果完全是虚假的，那么理应会有数量相当的有益和不利发现（例如，发现「Head Start」项目使某些群体在某些方面的表现变差）。考虑到这些研究每一项都涉及多个方面，并通常得出许多不同的显著结果，因此通过发表偏差完全排除所有不利发现应该是极其困难的。这在某种程度上与积极的元分析结果相符。各项研究要么显示微小的正面效果，要么结果不显著，但当将所有这些研究结合进行元分析时，结果变得高度显著，看起来令人信服且合乎逻辑。这与挪威的一项研究结果高度一致，该研究表明儿童保育对未来生活有显著的积极影响。同样，Chetty 的研究也表明，尽管幼儿园教师的影响似乎会随时间减弱，但在学生未来的生活中仍会产生显著的积极影响。此外，Perry 幼儿园和 Abecedarian 研究也显示，尽管测试分数的影响会逐渐消退，但在未来生活中仍会产生显著的积极影响。我最近甚至了解到一个非常精妙的发展理论，可以解释为什么会出现这种情况，但遗憾的是，限于篇幅，无法在此详述——请期待未来几周的一篇相关书评。

对这项研究的质疑主要在于，研究人员可能采取了一些手段来规避不利结果。元分析的结果或许只是反映了这样一种现象：当大量研究者各自进行一些微小的、难以察觉的数据操纵时，这些看似无伤大雅的行为累积起来就会产生显著的整体效应。这种说法虽然略显尖锐，但最近我看到了一张极具启发性的图表（感谢 Mother Jones 杂志，他们将其誉为「十年来最具价值的图表」和「有史以来最精彩的图表之一」）：

这张图展示了医学界引入预先注册制度（图中垂直线所示）前后的药物试验结果。换言之，这反映了在研究造假变得更加困难之前和之后的情况。在实施预先注册之前，60% 的试验显示所研究的药物是有效的。而在实施之后，这一比例骤降至 10%。这意味着，通过提高作弊难度，阳性结果的比例直接下降了六倍。在早期儿童教育研究领域，操纵数据并非难事；本文迄今为止提到的所有研究都属于未经严格监管的范畴。因此，我们应该对这类研究保持高度警惕，除非它们能经得起最严格的审查——而目前讨论的这些研究显然还达不到这个标准。

《理性的美德》中提到：

倾向于相信的人会问：「证据是否支持我的信念？」而倾向于怀疑的人则会问：「证据是否迫使我相信？」我们要警惕的是，不要只对自己不喜欢的观点设置过高的举证门槛，然后为自己辩解说：「保持怀疑态度是好事。」如果你只关注对自己有利的证据，从收集的数据中挑挑拣拣，那么你搜集的信息越多，反而会知道得越少。如果你有选择地审视某些论点是否存在缺陷，或者对不同论点投入不同程度的审视，那么你发现的每一个缺陷不仅不会让你变得更聪明，反而会让你变得更加愚蠢。

这是众多问题中的一个，现有证据允许我怀疑，但并不迫使我怀疑。目前，我只能依靠直觉和一些模糊的经验法则。我的直觉告诉我，二十年后当所有研究结果都出来时，早期儿童教育项目可能会继续显示出微小的积极效果。然而，我的经验法则却得出相反的结论，认为我不应该信任这种不够严谨的研究。因此，我现在无法做出确定的判断。

我认为我正确地意识到，我之前「幼儿园绝对无效」的观点已经过时，并正面临挑战。然而，我可能过早地宣称我关于「幼儿园无效」的看法是错误的；我本应该说我可能是错的。如果非要我下个结论，我会说有 60% 的可能性幼儿园能够以这些研究所描述的方式产生积极作用，40% 的可能性它是无效的。

我希望，随着研究参与者在 2020 年代某个时候进入高中阶段，对 Head Start 影响研究（HSIS）的进一步跟踪调查能够为这个问题提供更多见解。HSIS 是一项针对 Head Start 早期教育计划开展的、质量异常优秀的随机对照试验。

Thoughts Memo 汉化组译制
感谢主要译者 claude-3.5-sonnet，校对 JarrettYe
原文：Preschool: Much More Than You Wanted To Know | Slate Star Codex
作者：Scott Alexander
发布于 2018 年 11 月 13 日

参考

1. 幼儿园：我错了 ./716573489.html
2. 教师：比你想知道的要多得多 ./720623380.html

专栏：Slate Star Codex

← 返回目录