← 返回目录


再论《重访天才》

学校≠教育≠技能;文凭溢价=80%信号传递+20%人力资本

65 👍 / 17 💬

一项针对高智商小学 HCES 的追踪研究著作得出结论:高智商并不能预测杰出成就。本文指出,这一令人失望的结果,完全可以用统计学现象来解释——由于「均值回归」(源于过早的智商测试)和样本量过小,这些受试儿童长大后并非我们想象中的天才。


《重访天才》记录了一所高智商/资优天才小学——亨特学院小学(Hunter College Elementary School, HCES)的长期追踪研究结果。其最引人注目的发现之一是,该校毕业生普遍获得了较高的教育水平和收入,但在国家乃至世界范围内,却缺乏(如诺贝尔奖得主般的)杰出成就。该书作者认为,这或许反映了该小学存在有害的教育方式,或是证明了智商(IQ)的预测价值有限。
本文认为,这种「成就缺席」现象并非难解之谜,也无需归咎于 HCES。这完全可以用其研究中犯下的两个统计学错误来解释:忽视基础比率(base-rate neglect)和均值回归(regression to the mean)。
首先,该研究对「成功」的期望标准,犯了基础比率谬误。即便 IQ 具有极高的预测价值,也不应期望样本中出现诺贝尔奖得主。因为诺奖得主的出现概率是百万分之一的级别,在一个仅有数百人的小样本中,极大概率根本不会有人获奖。
其次,更严重的是,这种成就的缺乏是内在且不可避免的,其根源在于「均值回归」。幼儿期 IQ 与成年期 IQ 的相关性相对较低,这意味着通过严苛筛选出的样本,在成年后的精英程度远低于研究者的想象。根据幼儿期与成年期 IQ 的相关系数,均值回归效应意味着 HCES 学生的平均 IQ 将从入学(幼儿园)时的 157 分,回归至成年后的大约 133 分(甚至可能更低)。与此形成鲜明对比的是 HCES 的附属高中——亨特高中。该校招生时能获得青少年时期更具预测效度的 IQ 分数,其毕业生的成就水平也因此高得多,这与该群体较小的均值回归程度相符(即便有部分亨特小学毕业生因「祖父条款」直接升学而稀释了生源质量)。这一现象进一步印证了均值回归的关键作用。
这个不可避免的统计学事实,动摇了 HCES 存在的核心理由:我们无法在幼儿园阶段,仅凭一项简单的测试,就准确地筛选出未来将拥有极高智商的成年人。虽然通过在招生中引入额外变量,如父母的 IQ 或高质量的多基因评分,可以缓解这种回归效应,但这些方法或因政治因素而不可行,或有待未来科学的进步。这表明,此类资优小学或许并非一种高效的资源利用方式,其毕业生也不应自动获得稀缺的重点高中名额。

亨特学院小学(Hunter College Elementary School, HCES)是纽约市一所著名的精英小学,自 20 世纪 40 年代以来,专门招收天才儿童。《重访天才:长大后的高智商儿童》是一本篇幅不长(142 页)的著作,由 Subotnik, Kassan, Summers & Wasser 于 1993 年出版。该书报告了 1988 年对 HCES 1948 至 1960 届的 600 名校友中的 210 人(当时他们已届不惑之年)进行的一项长期追踪研究的结果。(另可参阅 Subotnik 等人 1989 年发表的对该调查结果的简要统计报告《中年时期的高智商儿童:对特曼天才遗传学研究普适性的考察》);若想了解天才教育的概况及 HCES 的研究结果,可参见 Subotnik 等人 2011 年的著作《反思天赋与天才教育:基于心理科学的未来发展方向》)。)

亨特小学是纽约市的一所小型小学,自 20 世纪 40 年代起,每年从学前班/幼儿园招收约 50 名学生。这些学生之后通常会升入其附属的亨特学院高中,而该高中又隶属于亨特学院。亨特小学以其基于 IQ 测试的极端严苛的招生标准而闻名,其学生的平均 IQ 高达 150 多分(约为万分之一的水平);这些天才学生接受的是专为他们设计的、内容广泛且丰富的课程。(如果你曾读过曼哈顿的「直升机父母」或「虎妈」们如何训练孩子应付 IQ 测试,只为挤进一所精英幼儿园的故事,那么亨特小学正是他们心目中的目标之一。)因此,人们有理由期望亨特小学的学生们日后会成就非凡,并彰显高智力对人生的巨大影响。由于这些学生都是在幼年时期从纽约市儿童中通过相对系统化的方式筛选出来的,这项长期追踪研究的可靠性,远高于那些通过横断面研究或临时招募心理学家的儿童样本来进行的高智力研究。

1 高智商研究背景

与亨特小学的研究并行,但更为人所知的项目包括:特曼研究(研究对象年幼,IQ 相对较低)、安妮·罗对世界级科学家的研究(研究对象通常四五十岁),以及 SMPYTIP 这两项长期追踪研究(其筛选标准与亨特高中类似,但在初中约 12 岁时使用 SAT 成绩进行测量)。一些相关的出版物包括:

大量研究有力地支持了 IQ 对成年后成就的高度预测能力。我们还可以普遍观察到,纽约市的重点高中(如史岱文森高中)、法国的精英学校(如为巴黎高等师范学院大学校输送人才的路易大帝中学)以及俄罗斯莫斯科大学附属的柯尔莫哥洛夫学校(Chubarikov & Pyryt 1993)都因其校友的杰出成就而享有盛誉。而当我们考察那些在智力上进行高度筛选的高等教育机构,如加州理工学院麻省理工学院时,校友的成就率更是显著提高。

我是在研究「从 SMPY/TIP 的高筛选门槛推断其样本的族裔构成」这一问题时,偶然发现了《重访天才》这本书。当时,查尔斯·默里在其文章《犹太天才》中提到纽约市有一所小学,学生平均 IQ 超过 150,得分最高的 28 人中有 24 人是犹太人。我从未在关于高 IQ 与人生发展的讨论中见过这所学校,于是便订购了一本。(特曼也曾提及犹太裔的超高比例,他指出,即便在他筛选出的高 IQ 儿童的三个等级中,犹太裔儿童在顶级的「A」级里的人数比例仍是基准的 3 倍;特曼将其归因于「巨大的成功压力,导致他[犹太儿童]每单位智力所取得的成就超过任何其他族裔的儿童[1],但这同样可以用测量误差来解释,尤其是考虑到他使用的是早期的儿童 IQ 测试。)

除了想为默里的说法寻找出处(结果发现书中除了总体犹太裔比例外并无提及),我个人认为,虽然为天才设立高中合情合理,但设立这样的小学是否明智,我存有疑虑,并对其最终结果感到好奇。

2 HCES 的研究结果

研究结果总结如下:与「书呆子气、不善社交、心不在焉、情感迟钝、傲慢不友好、孤僻」等刻板印象相反,高 IQ 儿童身心健康,甚至更为健康;他们通常具备良好的社交能力;成年后的成就与声望随智力水平的提高而增加,且在 IQ 130 等水平上未见明显的「天花板效应」;即便在各方面能力都极高,人们最终也倾向于专攻自己最具比较优势的领域;他们的幸福感并未显著更高;男女在成就上存在差异,但这至少部分源于性别相关的偏好差异,尤其是在专业选择和工作生活平衡方面;特定族裔的比例或高或低,其分布与根据该研究的筛选标准和各族裔平均 IQ 用正态分布计算出的预期相符;总的来说,后几届的毕业生比早期的毕业生普遍拥有更高的学历。

那么,《重访天才》具体报告了什么呢?总的来说,该书出人意料地缺乏详细的量化分析。关于收入和教育的报告一带而过;成年后的成就方面,除了泛泛而谈有很多医生、教授、高管等,并未进行任何细节或分类的探讨。书中没有报告研究对象的成年 IQ,也未尝试进行任何统计分析,比如比较入学时、毕业时及成年后受访时的 IQ,或分析某些分测验是否更能预测成年后的成就,或是否存在差异性的均值回归,或在毕业时是否观察到任何均值回归[2],亦未比较辍学/转学的学生与那些从亨特小学毕业并升入亨特高中的学生。问卷基于陈旧的特曼问卷,似乎未能很好地针对当代天才教育或个体差异心理学的前沿问题。作为一所其存在理由(raison d'être)完全建立在高 IQ 基础上的学校,该书对 IQ 的讨论却显得异常粗浅和天真,忽视了最基本的考量,如校正测量误差,或意识到在任何变量上进行严苛筛选都意味着极大的均值回归。(「均值回归」或「测量误差」这两个术语在书中从未出现。)

从这个角度看,这本书相当令人失望,因为高 IQ 的长期追踪数据集本就稀少,而他们却浪费了这次宝贵的机会。Subotnik 等人 1989 年的报告提供了一些额外的细节,并对收集的上百个变量中的少数几个做了更细致的分类,但其处理深度远未达到应有的水平。

该书所做的,是尝试通过拼接大量毕业生关于其在亨特小学的经历及后续人生的引述,来构建一种叙事性的民族志。这对我个人而言颇有趣味,因为我父母曾考虑送我去长岛天才学校,但最终作罢。因此,在某种程度上,阅读这些回忆,就像一窥我未曾踏上的另一条人生路。书中呈现的图景,在许多方面印证了特曼/SMPY/TIP 项目中对天才儿童的描绘:这些孩子健康、善于交际、热爱户外运动(尤其是远足);女孩们普遍不喜欢洋娃娃等刻板的童年玩具(考虑到 SMPY 项目中与睾酮相关的发现,这一点很有趣);阅读,自然是每个人的最爱,尤其是为了研究他们的其他爱好;被贴上「天才」或「神童」的标签给一些人带来了困扰,但显然对大多数人并非如此;学生们对亨特小学怀有极为温馨的回忆,庆幸自己选择了这里而非普通学校,尽管对于如何改进亨特小学,他们的意见分成了有趣的两派(一个好的妥协方案总是让所有人都不满意);同样,老师们也视在此执教为「美差」,因为学生们高度配合、热情高涨、几乎总是举止得体、如海绵般吸收知识,并乐于就二战时期澳大利亚的战略价值等话题展开热烈讨论(换言之,这正是所有准教师梦寐以求的课堂,而非面对一群无聊、瞌睡、教过就忘还爱捣蛋的孩子);许多学生,特别是女性,为了追求工作与生活的平衡,刻意避开了要求最高的职业,并且在学科偏好上表现出常见的性别差异;女性,正如预期的那样(因为她们所处的时代比特曼研究的时代更晚),远比前人更有可能追求高等教育和某种形式的就业;学生们普遍非常成功,但似乎无人取得非凡的成就。

书中还简要比较了 20 世纪 90 年代的亨特小学;情况与 60 年代大同小异,一个有趣的改变是学校为黑人学生设立了种族配额,但 Subotnik 等人声称平均 IQ 并未因此显著下降。确切的下降幅度、黑人学生中移民家庭的比例,以及如今东亚裔学生的比例,都将是很有趣的数据。[3]

总的来说,该书文笔清晰,甚至可以说,技术术语用得太少。字里行间偶见冷笑话(例如,在 Subotnik 等人 1989 年的报告中,对租金管制和长期追踪研究的困难有一段诙谐的评论:「档案中唯一的地址是孩子在校期间父母的地址。幸运的是,考虑到纽约市的住房市场状况,将这些地址与 1988 年的曼哈顿电话簿核对,结果相当有效。」)。

2.1 令人失望的平庸

Subotnik 等人普遍持有一种被称为天才教育的「资源」模型:他们认为,高 IQ 儿童更有可能成长为对世界产生巨大影响的推动者和思想家(这一点确定无疑);通过提供丰富的教育、与智力相当的同伴环境以及加速课程等特殊措施,可以提高杰出人才的产出率(这一点或许成立);并且这种提高所带来的收益,证明了前期投入的合理性(这一点尚不确定)。

在「成功」的标准上,他们要求甚高。Gallagher 在前言中的话代表了全书的基调:

作者们失望地发现,尽管这个样本在传统意义上取得了令人钦佩的成功,拥有相当数量的医生、律师和教授,但其中却未出现能够撼动社会、革新领域的创造性反叛者。

此外:

诺伯特·维纳在其著作《一个前天才的自传》(实际上是《前神童:我的童年与青年》和《我是一个数学家》)中,详细描述了他与专横父亲的不幸家庭生活,以及使他数次进出精神病院的个人问题。然而,正是这位诺伯特·维纳,为世界带来了控制论,彻底改变了我们的社会。假如他拥有一个幸福的家庭,父亲温暖和蔼,又会如何?我们不禁要问,维纳是否还会有那样的驱动力和动机,去做出这独一无二的贡献?同样的问题也可以抛给亨特学院小学的这些毕业生。他们中是否许多人过于满足,太乐于接受自身能力与机遇带来的优渥回报?如果他们内心也有一条「心理的蠕虫」在啃噬——无论是源于低自尊,还是源于向某人或世界证明什么的需要——那股力量是否会驱使他们做出更伟大的努力?如果他们的天赋也像维纳那样,受到更严苛的磨砺,被引导向某个特定才能的发展,又会怎样?这本书提出了许多重要且时而令人不安的问题……作者们就天才学校的办学宗旨提出了一些发人深省的问题。的确,在当代,我们资助为高天赋学生设立的学校或项目,其根本理由何在?如果人们期望这类机构能培养出社会领袖(或如作者所言,「走向卓越」),那么过去的亨特学院小学显然未能实现这一抱负。事实上,这个目标或许超出了任何一所小学的能力范围……[亨特学院]高中致力于培养学生对学术严谨和个人成长的追求,为他们发展专长提供机会,并注重关怀与同情心的培养。这样的理念能孕育出更多的天才吗?研究文献和本次研究都表明,这些条件虽是必要,但并非充分,不足以推动学生做出开创性发现或取得专业上的卓越成就。那么,这是否意味着这类学校不应存在?或者至少,不应由公共财政支持?我将坚决反对这两种观点。

这种对「失败」的评价,也得到了马尔科姆·格拉德威尔等引用《重访天才》的人的呼应。[4]

这与书中第 3-4 页对亨特小学群体的总体描述相符:

亨特样本的平均 IQ 为 157,约比均值高 3.5 个标准差,在 L-M 量表上的分数范围为 122 至 196。
……从 1948 年到 1960 年,亨特学院小学的每个班级约有 50 名学生,因此可能的毕业生总数为 600 人……1948-1960 届 HCES 学生总数的 35%(n = 210)完成并返回了调查问卷。
……宗教归属:亨特群体中约 62% 是犹太裔,尽管他们更多地将自己视为族裔认同上的犹太人,而非宗教实践者。作为一个整体,这个群体并不笃信宗教。
教育成就:超过 80% 的研究参与者至少拥有硕士学位。此外,40% 的女性和 68% 的男性拥有博士(Ph.D)、法学学士(LL.B.)、法律博士(J.D.)或医学博士(M.D.)学位。
职业与收入:HCES 的女性中,只有 2 位将自己的主要身份定义为家庭主妇。53% 是专业人士,在高校或中小学任教、从事写作(记者、作家、编辑)或担任心理学家。同样比例的 HCES 男性也是专业人士,担任律师、医生或大学教师。1988 年,男性的年收入中位数为 $75,000(最高达 $500,000),女性为 $40,000(最高达 $169,000)。即便在同一职业中,男女收入水平也存在统计学上的显著差异。例如,男性大学教师或心理学家的收入中位数为 $50,000,而女性为 $30,000

以常规标准衡量,这是一个极为出色的成就水平。即便在今天,拥有「博士、法学学士、法律博士或医学博士」学位的人也只占人口的一小部分,但在亨特小学的这个群体中,你随便扔块石头,都可能砸到一位教授(占男性的 16%),他可以转身让旁边的人为他处理伤口(18% 是医生),再转身让另一边的人为你提起人身伤害诉讼(20% 是律师)。对于与他们同龄的普通人群体,拥有高等学位的比例基线应低于 7%,而非这里观察到的超过 80%。Subotnik 等人 1989 年的报告在「表 2:获得的最高学位」中提供了更精确的数据:男性中,4% 信息缺失,20% 获学士学位,43% 获硕士学位,40% 获博士/法学学士/法律博士/医学博士学位。收入水平同样高得惊人:1988 年,美国家庭收入中位数约为 $50,000,而亨特毕业生中出现的 $500,000 等高收入,表明他们的收入水平更多地受到个人生活选择和职业偏好的影响,而非能力上的限制。

但这并不符合「伟大成就」的定义。书中未提及任何人获得诺贝尔奖、普利策奖,或享誉全球。因此,从某种意义上说,亨特小学失败了,随之失败的(作者们暗示)是「IQ 是驱动伟大的核心力量」这一观念。于是,Subotnik 等人在书中及其他出版物中花费大量篇幅,探讨究竟缺失了什么。如果 IQ 仅仅是一个必要条件或门槛,但之后仍有极大概率过上平凡生活,那么真正起决定性作用的因素是什么?是对精通的渴望吗?是亨特小学通过淡化竞争和分数,无意中扼杀了一代学生的雄心壮志吗?还是(如另外半数受访学生所认为的)学校的竞争过于激烈,摧垮了学生的精神?亨特小学是否对学生保护过度,让学生对亨特高中和现实世界准备不足,还是不够?是家庭环境决定了这一点,还是课程?广泛的学术课程是否让学生「博而不精」,缺乏通过反复练习获得的基础知识?

2.2 样本量

但考虑到来自罗、SMPY 和 TIP 项目的平行证据,我们是否应该就此断定它失败了?前文提及的「伟大」标准确实极高。人群中究竟有多大比例的人,能真正做到「革新一个领域」?仅仅是深入理解一个领域、抵达研究前沿并做出有意义的贡献,就已是一生的事业,而大多数人甚至不会尝试,而是追求其他目标。在一个 600 人的样本中,仅仅因为无人(至今)获得诺贝尔奖(诺奖的授予正被推迟数十年),就断定亨特小学的实验失败,这合理吗?正如 Gallagher 随后指出的:

……然而,在任何特定时代,这样的人物都寥若晨星。他们中的任何一位恰好毕业于纽约市的某一所小学,其统计概率是微乎其微的。而一个「创造性的反叛者」能否在亨特或任何类似学校的筛选中幸存下来,这本身就是一个耐人寻味、引人深思的未解之谜。

如果我们考察 STEM 领域的诺贝尔奖,美国获奖者的比例大约是每百万人中一位。因此,即便 HCES 的 210 名(或 600 名)学生中有一人获奖,也意味着其获奖概率比普通人高出 >1666 倍。换言之,如果我们真的期望 HCES 校友中出现一名或更多的诺奖得主,那么要仅凭幼儿时期高出的 57 点 IQ 分数就实现这超过 1666 倍的概率提升,我们就必须相信,平均每一点 IQ 的提升,能使获奖概率增加 29 倍!当然,即便我们相信如此巨大的效应,我们仍有很大概率观察到一个 HCES 规模的群体无人获奖。(例如,如果我们期望每 600 人中出现 1 位诺奖得主,即每个学生的获奖概率为 1/600,那么在 n = 600 的样本中,观察到 0 位诺奖得主的概率是很高的:(1 - 1/600)^600 ≈ 0.367。要想将无人获奖的概率降至 5% 以下,我们必须期望每 600 人中出现 ≥3 位诺奖得主。)

这让人想起对特曼研究的常见批评,因为它未能将威廉·肖克利和路易斯·阿尔瓦雷斯纳入研究。前者在 8-9 岁时的已知 IQ 分数比特曼研究的名义门槛低了约 11 分(或比特曼可能录取的特殊情况低 6 分)。一个不足 1500 人的样本,其筛选过程不可避免地存在瑕疵[5],尤其是在开创性的长期研究中,却被期望要囊括来自一个至少是其百倍大的群体(筛选群体名义上超过 168,000 名加州儿童)中的所有诺奖得主,否则就等于推翻了 IQ 的价值。究竟何种筛选方法能够完成此等壮举,批评者从未明说;他们也未曾承认,尽管特曼研究面临种种限制(如使用偏重语言能力的 IQ 测试),能在小学阶段就如此接近地筛选出数十年后有潜力成为诺奖得主的儿童,这本身就令人印象深刻。从纯粹的统计学角度看,考虑到儿童测试分数的不稳定性、均值回归的现象、特曼样本相对较小,以及诺贝尔奖的极端稀有性和偶然性,特曼研究在大多数情况下预计会错过至少一位未来的诺奖得主(Warne 等人 2019)。

因此,我们应该对 HCES 校友的所谓「失败」给予多大权重,尚不明确,因为即便是一个极其乐观的模型,也与经常观察到的「失败」结果相符。

2.3 校友

亨特小学和亨特高中有多少校友能达到全国知名?

如果我们在维基百科上通过查找链接到亨特小学的「知名人物」条目来核实,我们能找到画家玛格丽特·勒弗朗克、语言学家E. 阿德莱德·哈恩、二线演员弗雷德·梅拉梅德,以及最高法院大法官埃琳娜·卡根(不过,虽然她母亲曾在亨特小学任教,但她本人就读的是亨特学院高中——与至少其他 95 位 「知名人物」一样)。我后来得知,《汉密尔顿》的主演林-曼努尔·米兰达和科学家亚当·科恩也曾就读于亨特小学和高中。

在谷歌上反复核查后,这似乎是个公允的统计——没有亿万富翁或诺奖得主突然出现。若以维基百科条目为准,亨特小学似乎能 claim 约 5 位「知名」校友,而亨特高中则有 96 位。(我手工核对了这 96 个维基百科条目,大多数未提及他们曾就读的小学,或是否通过考试进入亨特高中;但少数提及的,都明确指出是通过考试或来自非亨特小学。只有一个条目,即嘻哈组合 Dujeous 的条目,其成员中有一位来自亨特小学:Loren Hammonds/「Mojo the Cinematic」。总的来说,这个比较可能对亨特小学略有不公,但我认为偏差不大。)

这并非因为亨特高中的规模是亨特小学的 32 倍:亨特小学目前每年招收约 50 名学生,而亨特高中每年招收约 175 名新生,外加 50 名从亨特小学直升的学生(总计约 225 人),规模仅为其 4.5 倍——若排除亨特小学的校友(他们显然不包括在那 95+ 位知名人物中),则为 3.5 倍。更引人注目的是,虽然我不认识勒弗朗克、哈恩、梅拉梅德或亚当·科恩,但我确实认识亨特高中校友名单上的几位名人(卡根是其一,还有布鲁斯·施奈尔马克·杰森·多米纳斯,以及一些说唱歌手)。

这意味着亨特高中毕业生获得维基百科「知名度」的可能性,要比亨特小学毕业生高得多——大约高出 8 倍。同样值得注意的是,其他一些精英城市中学也通过了「诺奖检验」:例如,旧金山的洛厄尔高中就拥有 3 位诺贝尔奖得主校友迈克尔逊厄兰格康奈尔);史岱文森高中 4 位(莱德伯格福格尔霍夫曼阿克塞尔)。

这是为什么?

另一种思考方式是,从统计学和心理测量学的角度,考虑到所用的筛选程序和测试,我们理应对亨特小学的学生抱有何种期望?智力研究中常会出现一系列统计学问题:范围限制(如天花板/地板效应)、测量误差(会压低相关性并需要校正)、抽样误差、IQ 测试的测量不变性丧失或应试技巧导致的虚假分数增长(在干预研究中尤为普遍)、遗传因素对 IQ 与社会经济地位等变量间相关性的混淆、重测信度、错误地「控制」中间变量(如「控制教育背景」后声称 IQ 无因果效应)等等。(其中许多问题在亨特与施密特 2004 年的教科书《元分析方法:校正研究发现中的误差与偏见》中有更详细的讨论。)由于亨特小学过去和现在都使用合法的 IQ 测试(斯坦福-比奈智力量表),其研究结果并非干预性或因果性的,我们关注的是将他们作为一个群体与普通人群进行比较。因此,在解读这些结果时,最让我困扰的正是最后一个问题:信度/预测效度。

2.4 童年 IQ 的局限:均值回归

「均值回归」是一个普遍现象:任何在某种程度上表现「异常」的个体数据点,都倾向于与更「正常」的数据点相关联。如果你某天跑得异常快,那么第二天你很可能会跑得比那天慢——前一天也是如此;如果你某天早上在体重秤上称得异常轻,然后立刻再称一次,你的体重很可能会「增加」到一个更正常的数值;如果你的某个亲戚病态肥胖,那么你很可能也会超重,但不会他那样极端。因此,异常成功的父母,其子女往往会更趋于平庸(即不那么成功);同样,异常成功的儿童,长大后也往往会成为更趋于平庸的成年人。这适用于所有特质,无论是身高还是 IQ。

亨特小学对约 5 岁的儿童进行 IQ 测试,筛选出 IQ > 140 的学生,其平均 IQ 达到 157(3.8 个标准差)。这些学生随后一直在该校就读,只要成绩达标,便可直接升入亨特高中,开除或转学的情况似乎很少见(书中也鲜有提及)。就这群 5 岁的孩子而言,这没问题……但他们作为成年人之后呢?

众所周知,由于神经、发育和遗传等原因,童年时期的 IQ 无法完美预测最终的成年 IQ。即便是在 5 岁时进行最精确的测量,其结果与成年 IQ 的相关系数(r)也可能只有 0.5 到 0.6。(信度/重测相关性/不同测试间的相关性在心理测量学文献中有大量报道,例如 Jensen 1980Månsson 等人 2018TEDS 项目,或 Trucker-Drob & Briley 2014/Breit 等人 2024。IQ 测试分数随年龄增长而愈发稳定的现象——以及高分儿童均值回归的现象——至少自桑代克 1940 年以来就已得到关注,他还引用了更早的综述,如 Foran 1926/Foran 1929/Nemzek 1933。在这方面,一个虽不起眼但有趣的数据集是富勒顿长期研究,该研究对 1-17 岁的个体进行了密集测试,结果显示 5 岁与 17 岁 IQ 的相关系数 r = 0.60。)

这样的相关性已相当可观,与受教育年限和 IQ 的相关性相近,但它远非 r = 1。而 Subotnik 等人正是错误地隐含假设了 r = 1,才会仅仅因为这些学生在很久以前的童年时期名义上取得了高分,就随意地谈论他们成年后拥有 150+ 的 IQ。

这样的相关性意味着,童年 IQ 测试分数的高低,除了受其最终智力水平影响外,同样也受到早熟、应试耐心、服从性以及纯粹的随机性[6]等因素的驱动。通过如此早期的筛选,我们更多地是选出了一批认知发展较早的儿童,而非未来将拥有极高智力的成年人——这两者并非一回事。

而且,既然这些亨特小学的孩子是因在某项特定测试中得分极高而被选中,他们就必然会经历均值回归的现象(这一现象由高尔顿在 IQ 测试出现前就已描述,并且所有心理测量学家都对此保持警惕,尤其是在任何基于测试的筛选过程中)。

我们能如何估计他们的成年 IQ 呢?考虑到大多数学生是犹太裔(或在今天,是犹太裔和东亚裔的混合),该群体的平均 IQ 通常估计在 110 左右。据此我们可以预测,他们成年后的平均 IQ 将不会是 157,而是会回归至 110 + (157 - 110) × 0.5 = 133。(请注意,如果我们不接受这个族裔均值的假设,而是使用普通人群的均值 100,那么均值回归的效应会更显著:100 + (157 - 100) × 0.5 = 128。)

133 的 IQ 固然不容小觑,但这仅仅是高于均值 2.2 个标准差,其稀有度更接近于五十分之一,而非万分之一。一个亨特小学的毕业生,成年后甚至很可能没有资格加入门萨。换个角度看,1993 年美国约有 2.6 亿人口,其中 IQ ≥ 133 的人约有 360 万,而整个亨特小学的校友群体仅占其中的 0.016%。如果我们考察一个由 600 名儿童组成的群体,其成年后的平均 IQ 为 133,那么其中成年后 IQ 仍高于 157 的人将寥寥无几——仅约 5%,即 32 人(mean(replicate(100000, sum(sort(rnorm(600, mean=133, sd=15))>157))))!其余的人,其成年 IQ 都会低于这个水平,甚至可能远低于此。这个计算无需任何关于人生结果的数据,在亨特小学创办之前就可以做出。其本质在于,鉴于 IQ 测试在通过有噪声的幼儿期测试来筛选未来极度聪慧的成年人方面存在局限性,大多数「阳性」结果都将是假阳性。(这与著名的乳腺癌筛查或反恐筛查的例子原理相同:一个准确的测试,加上一个极低的基础比率,会产生惊人的高假阳性率和极低的后验概率。)

Subotnik 等人似乎完全没有意识到这一点,尤其是在第九章。他们反复陈述或引用前亨特学生「160 IQ」之类的估测,并信以为真,同时对 HCES 学生未能攀上世界成功之巅感到困惑,进而思索 HCES 是否通过培养平庸、扼杀雄心而损害了他们。这无异于在为一个无需解释的现象强行寻找解释。(尤其具有讽刺意味的是,他们还将 HCES 的「失败」与伊利诺伊大学附属高中等其他机构的成功进行了对比。)

2.4.1 更精确的测试:高中阶段

那么亨特高中呢?亨特高中测试的是六年级学生(约 11 岁),他们将在七年级入学,而非 4-5 岁的幼儿。艾森克曾引用一个相关系数,指出 11 岁时的测试成绩与成年分数的有约 0.95 的相关性。因此,假设亨特高中的学生入学时平均 IQ 也是 157(我未见过相关数据),他们成年后的 IQ 预计会回归至 110 + (157 - 110) × 0.95 = 154,几乎与入学时持平。(若相关性为 0.9,则回归至 152,依此类推)。如此一来,在 600 名亨特高中校友中,将有 252 人成年后 IQ 仍高于 157,这一比例是亨特小学的约 8 倍。

也就是说,在与亨特相关的知名人物中,亨特高中毕业生的超高比例,几乎与该群体中能保持精英 IQ 地位的毕业生比例相当。

在我读过的所有关于亨特小学的资料中,除了《纽约》杂志的一篇文章[7](该文借鉴了 Lohman & Korb 2006 年的论文《今天天才,明天未必?——小学阶段能力与成就的纵向变化》)外,都未曾提及在如此幼年进行 IQ 测试根本无法有效筛选出极端高分者这一问题,甚至都未曾暗示其为一项挑战。因此,我不得不怀疑 Subotnik 等人[8]是否意识到了这一点。从基本的心理测量学原理出发,我们可以预测:亨特小学的毕业生长大后并不会拥有超凡的智力,他们只代表了高智商人群中极小的一部分,因此,他们成年后的成就——扎实的学术与社会成就——与此并无不符。我们也没有特别的理由,将他们的所谓「失败」归咎于亨特小学本身的风气、课程或教学方法。

2.5 对天才教育的启示

有鉴于此,我们不得不做出如下结论:基于「将资源集中于未来成年 IQ 高于 150 的学生」这一资源优化范式,创办一所天才/资优小学是难以自圆其说的。因为在那个年龄段,用现有的 IQ 测试方法只能找出极少数此类学生。更合理的做法,是在 11 岁等更晚的年龄进行筛选,并将资源集中于高中或大学阶段。如果我们认为,对小学阶段那 5% 的学生进行更好的教育能带来可观的收益,因此创办一所类似亨特的小学是可取的,那么我们也绝不应该让所有这些小学生自动升入一所更为昂贵的类似亨特的高中。在潜力方面,每一位这样直升的学生,其价值大约只相当于一位通过外部考试录取的学生的八分之一。更好的做法是不给予小学生直升资格——毕竟,他们已经通过丰富的教育和优秀的同伴获得了巨大优势,为何还要让他们获得凌驾于体系外所有同样值得机会的学生之上的额外巨大优势呢?其主要原因似乎是某种「自家人」或忠诚度的情感考量。如果这种偏见无法克服,那么建立一个单一的、垂直整合的输送体系,可能反而对天才教育有害。

2.6 改进 HCES?

不过,通过更全面的测试,情况可以得到改善。

例如,遗传学:成年 IQ 是一个高度可遗传的性状,其高达 80% 的变异或许能通过所有遗传变异来预测,且 >~50% 可通过所有单核苷酸多态性(SNP)来预测。遗传力随年龄增长而提高,在 5 岁时仅为约 25%(即威尔逊效应,Bouchard 2013)。因此,通过使用其父母和兄弟姐妹的 IQ,或直接进行基因预测,可以显著提高基于 5 岁测试的成年 IQ 预测的准确性。这将有助于识别那些因发育上的暂时特殊性而被淘汰,但最终能实现其遗传潜力的儿童。

如果我们考虑一个路径模型,其中:基因 → 成年 IQ (0.50),5 岁 IQ → 成年 IQ (0.50),基因 → 5 岁 IQ (0.25):

 model <- 'IQ_adult ~ 0.8*Gene + 0.5*IQ_5
   IQ_5 ~ 0.25*Gene'
 d <- simulateData(model)
 s <- sem(model, std.ov=TRUE, data=d)
 semPaths(s, "Standardized", "Estimates", style="lisrel", curve=0.8, nCharNodes=0,
 edge.color="black", label.scale=FALSE, residuals=FALSE, fixedStyle=1, freeStyle=1,
 exoVar=FALSE, sizeMan=10, sizeLat=24, label.cex=3, edge.label.cex = 2.2)

那么,通过使用一个理想的 SNP 基因评分和一个 5 岁时的 IQ 测试,我们有望预测 0.5 + (1 - 0.25) × 0.5 = 0.875,即 87% 的方差,从而得到一个预测/成年 IQ 相关系数为 √0.875 ≈ 0.93。在这种预测能力下,均值回归的效应将是最小的,亨特小学学生的成年 IQ 将达到 110 + (157 - 110) × 0.93 ≈ 153。

在这种情况下,我们可以创建一所筛选效果与亨特高中相媲美的亨特式小学。虽然我们尚不清楚何时能基于多基因评分预测成年 IQ 50% 的方差,但在不远的将来,我们有望获得能解释 10% 方差的多基因评分(PGS),这仍将有所助益:PGS = 0.10;110 + (157 - 110) × √(PGS + (1 - 0.25) × 0.5) ≈ 142.4。除了等待更好的多基因评分,其他因素,如父母的 IQ 和收入/教育、兄弟姐妹的 IQ 以及族裔,也可以被纳入预测模型。然而,我不知道这样一所天才小学是否可行:更准确的预测将加剧现存的、备受争议的族裔差异,这使得纽约市的重点中小学成为自由派社会活动家的「避雷针」;这种筛选方式在公众看来可能比现在更「不公平」(而它确实会如此,因为它更准确地反映了既有的群体差异,而不是通过测量误差让平均水平较低的群体受益);并且,它必然会在班级内造成更大的即时认知不平等,这本身就可能妨碍教育使命或滋生怨恨与竞争。

最终,运营亨特小学最站得住脚的理由,似乎正是从校友的回忆录中最清晰浮现的那个:因为他们在普通学校里会备受煎熬。如果早慧的儿童必须接受强制正规教育,那么至少,应该让他们与同龄智力伙伴们在一起。

3 另见

4 外部链接

5 附录

5.1 用多基因评分(PGS)替代 SAT

理论上,SAT 在大学招生中的作用能否被强大的基因预测器所取代?研究发现,SAT 对学业成功的预测效度低于学业成功本身的遗传力,这意味着这在理论上是可能的。

查尔斯·默里曾提议废除 SAT-I,转而采用 GPA 和 SAT-II 学科测试的加权组合,以消除单一高风险考试带来的弊端,同时不损害基于智力与学术能力的精英大学招生原则,因为后者已被证明在预测本科生成绩/成功方面具有同等的统计效力。默里认为,这一转换有四大好处:移除「一个腐蚀性的特权象征」;「摧毁我们所知的应试辅导产业」;通过侧重学科测试表现而非泛泛的数学/语言能力,从而「将焦点引向当地高中的课程质量」(激励学校改进);以及消除一个易于记忆的 SAT 分数,使其不再成为日益自负和傲慢的「认知精英」的「图腾」(见其著作《分崩离析》)。理查德·J·海尔则更进一步,作为其智力神经基础研究的副产品,他提议将脑成像技术用于类似目的,如职业指导,并认为「脑部扫描远比 SAT 备考和测试更便宜、更简便。」[9]

一个更激进的提议是,完全废除标准化测试,转而采用基因预测。

这种预测器的优势在于,它可以在任何时间点进行计算,并且(与 fMRI 脑成像或学科标准化测试等替代方案不同)极其廉价:基因组只需测序一次,便可用于包括医学在内的无数目的,成本在所有应用中被摊销。相比于每次考试 >$50 的费用、4 小时的时间和一整天的耗费(更不用提考试和补习班带来的巨大焦虑),教育预测器的边际成本几乎为零。这远比常规标准化测试或脑成像可能达到的任何成本都低。另一方面,如果更高的预测准确性比降低成本更有价值,那么基因预测器可以与 GPA/SAT-I/SAT-II 结合使用,以进一步提高大学招生的准确性并避免「错配」问题。(这两种方式也并非互斥:标准化测试可以作为可选项,供那些认为基因预测在自己身上碰巧不准的人进行校正,这仍能大幅降低总测试成本。)这也将实现默里的第二个目标(摧毁应试辅导产业),因为没有了考试,便无试可备;它或许能实现他的第三个目标,因为当 SAT 备考的选项消失,且基因组在受孕时就已固定,家长们将更专注于本身就是学科导向的在校成绩;至于第一个目标,它能否实现则不一定,因为尽管人们应理解高分者并非「挣得」或「应得」其基因,拥有高的多基因评分纯属运气,但人们可能仍会对阶级差异心怀不满,第四个目标亦然。[10]

当前的基因预测器显然还不够强大,但我们不禁要问(考虑到其快速进展和不断增大的样本量),是否有可能创建一个对本科学业成绩的基因预测器,其预测能力能与当今的 SAT-I 相媲美?

在最新的分析中,SAT-I 与大一 GPA 的相关系数为 r = 0.51[11](解释了 26% 的方差)(Westrick 等人 2019)。研究生入学标准化考试与大一 GPA 的相关性也类似,r = 0.4-0.5(Kuncel & Hezlett 2007)。因此,任何竞争性的预测器都必须至少达到这一相关水平。

遗传力估计为纯基因预测器的潜力提供了一个上限。[12]具体是哪些遗传力估计呢?

对于成年人(如本科生)而言,精确测量的智力的遗传力[13]通常估计在约 70-80%(或 r ≈ 0.89)。这个数值相当高,但它回答的是错误的问题。虽然 SAT-I 确实很好地测量了智力,其 g 因素载荷也仅为 r = 0.7-0.8(Frey & Detterman 2004),这意味着仍有约 16% 的方差受其他因素(如人格特质)影响。总的来说,智力与学业成功指标的相关性(无论是表型还是遗传层面)大约只有 r = 0.5。在此之外,其他因素如人格和职业兴趣也会影响成绩——例如,Okbay 等人 2016 的受教育程度多基因评分(EDU PGS),除了预期的智力因素外,还包含了开放性(约占 PGS 预测力的 7%);而 Krapohl 等人 2014 则对英国 GCSE 考试成绩进行了分解,以探究智力之外的遗传影响:「对 GCSE 遗传力的最大贡献来自智力(51%)和自我效能感(37%),此外还有儿童自评的学校环境(20%)、人格(21%)、幸福感(8%)以及行为问题(父母评价 21%,儿童自评 16%)。」(Mottus 等人 2016 将其进一步分解至大五人格的特质层面。)因此,若使用一个完美的 PGS 来预测智力,再用智力来预测学业成功,其得到的相关系数将是 r = √0.80 × 0.50 = 0.44,这略低于 SAT-I 的预测效度。

那么,将其他特质纳入考量能否弥补这一差距?或许可以。一个更直接的方法是,直接探究大学学业成功本身的总遗传力是多少,因为它综合了所有相关特质的影响。一般而言,各种特质的遗传力普遍在 50% 左右(r = 0.70),而其中最大的单一影响因素——智力——的遗传力甚至更高。因此,我们有理由先验地预期,学业成功的遗传力应能达到必要的水平(>26%)。但情况也可能并非如此。幸运的是,教育成就确实具有很高的遗传力。《大学成功的遗传学》(Smith-Woolley 等人,2018)提供了一些与大学学业直接相关的遗传力估计值,其中 5 个变量的加性遗传力在 46% 至 57% 之间。最低的估计值 46%,是针对「最终学位等级」的。虽然这与大一 GPA 不同,但可以说,它是一个更理想的预测目标。因此,为加倍保守起见,我们采纳这个数值。46% 的遗传力转化为的相关系数为 r ≈ 0.67,这轻松超过了 SAT-I 的 r = 0.51。

因此,理论上,即便是一个不甚完美的基因预测器,其预测效度也可能超过 SAT-I,并最终在大学招生中取而代之。

6 附注

[1] Terman 1947, 《研究天才的心理学方法》, 优生学临时论文集 #4。类似地,安妮·罗(pg49, 《创造力》 ed Vernon 1970) 指出,她研究的 64 位世界级科学家中有 5 位是犹太裔。

[2] 书中数次提及,学生在校期间被反复测试,因此完全有可能纵向考察 IQ 分数的变化,并注意到自入学以来的下降。不过,持续的测试也可能导致学生产生应试技巧,使得分数无法真实反映 g 因素,从而掩盖了这种下降。

[3] 作为对比,亨特高中(除小学直升者外)一直仅凭考试招生。2010 年《纽约时报》的一篇文章报道了一位非裔-拉美裔学生的演讲引发的小争议,文中提到:「据州数据显示,1995 年,入学的七年级新生中 12% 是非裔,6% 是拉美裔。而在去年,这两个比例分别是 3% 和 1%;其余学生中 47% 是亚裔,41% 是白人,另有 8% 自认为多族裔。而整个公立学校系统中,非裔和拉美裔学生占 70%。」 考虑到不同族裔群体的平均 IQ 和 HCES 的高筛选性,这些排序统计数据基本符合预期。 [4] 《挤进窄门:常春藤联盟招生的社会逻辑》

但亨特用那种「最优秀学生」模式究竟取得了什么?在 20 世纪 80 年代,几位教育研究者调查了 1948 年至 1960 年间在该校就读的学生。[研究结果于 1993 年以《重访天才:长大后的高智商儿童》为名出版,作者是 Rena Subotnik、Lee Kassan、Ellen Summers 和 Alan Wasser。]这是一个平均 IQ 高达 157 的群体——比均值高出三个半标准差——他们所接受的,无论以何种标准衡量,都是世界上最顶级的课堂教育之一。然而,作为毕业生,他们远没有人们期望的那样杰出。「尽管我们研究的大多数参与者都事业有成,对自己的生活和成就也相当满意」,作者们总结道,「但其中没有超级巨星……只有一两个我们熟悉的名字。」研究者们花了大量时间试图弄清为何亨特的毕业生如此令人失望,其结论听起来与 Wilbur Bender 的观点颇为相似。他们认为,童年时的聪明,并不能很好地预测未来的成功。「非智力」因素——如动机和社交技能——可能更为重要。研究暗示,或许「在注意到在一个领域追求国家或世界级领导地位所需付出的牺牲后,HCES 的毕业生们认为,明智之举是选择一种相对幸福和成功的生活。」当然,一所学校能培养出大量相对幸福和成功的毕业生是件好事。但哈佛不想要大量相对幸福和成功的毕业生。它想要的是超级巨星。Bender 和他的同事们认识到,如果这是你的目标,仅仅采用「最优秀学生」模式是远远不够的。
格拉德威尔完全忽略了一个问题:如果这种筛选模式无效,为何加州理工学院、麻省理工学院以及其他高度筛选性的机构,却能通过「最优秀学生」模式稳定地培养出「超级巨星」,而不仅仅是「相对幸福和成功的毕业生」?
[5] 例如,Warne 2019 指出,特曼样本中有 2.7% 的人是因测试计分完全错误而被纳入的,他们童年时的真实 IQ 低至 106。

[6] 长期双胞胎研究显示,同卵双胞胎会随时间推移变得越来越相似,而异卵双胞胎则不会。不同年龄段间的高度遗传相关性表明,同卵双胞胎在早期表现出的巨大差异主要反映了随机或非共享环境效应,但他们相同的基因会逐渐使他们向彼此及一个共同的均值回归。

[7] 《初级精英制:一个孩子的命运,是否该由他 4 岁时的一场考试决定?为何幼儿园入学考试充其量是毫无价值的》

比如,亨特学院小学,或许是纽约市最具竞争力的公立学校。(今年,每个名额有 36 名申请者。)4 岁的孩子,除非其斯坦福-比奈智力量表分数达到 98 百分位的顶尖水平,否则连申请资格都没有,而参加这项测试需要花费 $275。但一旦被录取并顺利读完三年级(很少有人不能),他们便能获得升入亨特学院高中的资格。自 2002 年以来,亨特毕业班至少有 25% 的学生被常春藤盟校录取。(2006 和 2007 年,这一比例高达 40%。)再以三一学校为例,2008 年,其 36% 的毕业生进入了常春藤盟校,其中超过三分之一的学生是从幼儿园就在该校就读。2005 至 2009 年间,道尔顿学校 30% 的毕业生、科利奇学校 39% 的毕业生以及贺拉斯·曼学校 34% 的毕业生都进入了常春藤。这些幸运的毕业生中,许多人若非在幼儿园前就在考试中取得优异成绩,当初根本无法进入这些「常春藤预备校」。当然,这些优势会在他们未来的人生中不断产生回响。
……那些推崇智力测试的人认为,它们是衡量孩子心智敏捷度的「纯粹」标尺——不受环境变化影响,且终生不变。然而,我们关于这一课题的所有认知都表明,儿童的 IQ 存在相当大的波动。1989 年,心理测量学领域的先驱劳埃德·汉弗莱斯,基于肯塔基州路易斯维尔的一项长期双胞胎研究(「路易斯维尔双胞胎项目」)发表了一项分析,该研究的受试者在 4 至 15 岁间定期接受 IQ 测试。11 年后,他们 IQ 的平均变化幅度为 10 分。[我未能找到原始文献,但可在 Wilson 1983Humphreys & Davies 1988 中查阅信度数据。——编者注] 这是一个具有重要教育意义的差距。一个 4 岁时 IQ 为 85 的孩子,很可能需要接受辅导教育;但如果之后他的 IQ 升至 95,他便不再需要了。一个 4 岁时 IQ 为 125 的孩子,将达不到大多数城市天才项目 130 分的门槛;然而,如果之后她的分数达到 135,那也为时已晚,她已经错过了强化课程的益处。
这些波动并不像看上去那么奇怪。IQ 测试是按正态分布曲线评分的,平均分始终为 100。(定义各异,但基本上,IQ 110-120 被视为聪明,120-130 为非常聪明,130 是天才项目的常用门槛,140 则开始被冠以「天才」之名。)如果一个孩子的 IQ 下降,并不意味着他/她停止了智力发展,而仅仅意味着其发展速度慢于同龄人,即其相对位置下降了。可以想见,孩子会经历认知发展的「猛长期」,就像经历身体的「猛长期」一样。一项关于童年 IQ 稳定性的经典研究,是 1973 年由匹兹堡大学的罗伯特·麦考尔、加州大学圣地亚哥分校的马克·阿佩尔鲍姆及其同事进行的(McCall 等人 1973)。该研究观察了 80 名在 2 岁半到 18 岁间几乎每年都接受 IQ 测试的儿童,结果显示,儿童的智力发展轨迹呈现缓慢的增减,在 6 岁、10 岁和 14 岁左右出现拐点,期间分数会更急剧地升降。那么,IQ 最不稳定的是何时?6 岁以前。然而在纽约,我们却主要依据孩子 4 岁时的考试成绩来对他们进行分流。(我们甚至可能不是最离谱的:正如波·布朗森和阿什利·梅里曼在新书《养育的冲击》中所述,有些城市的幼儿园甚至要求 2 岁的幼儿参加 IQ 测试。)「你怎么能在这么小的年纪,就把孩子锁定在一种特定的教育体验中呢?」麦考尔问道。「一旦你过早地否定孩子,你几乎是在对他们施加一种递增的惩罚。教育和心智成就是层层累积的。」
……儿童发展领域的大多数研究者都同意,学龄前儿童的心智还远未成熟,不应过早评判。《克服阅读障碍》的作者萨莉·谢维茨正在进行一项长达数十年的研究,考察儿童的阅读发展。她说,她甚至无法将从一年级学生那里收集的阅读数据用于某些长期分析。「它根本不稳定,」她说。我告诉她,纽约市的大多数学校并不这么认为。「一个年轻的大脑是一个移动的目标,」她回答道,「不应将其视为固定不变的。」
2006 年,爱荷华大学的心理学家戴维·洛曼在《天才教育杂志》上合著了一篇题为《今天天才,明天未必?——小学阶段能力与成就的纵向变化》的论文,揭示了「天赋」是多么不稳定。该文指出,在斯坦福-比奈测试中得分 130 或以上的孩子中,只有 45% 在同一时间点参加另一项类似的 IQ 测试时能再次达到该分数。结合 4 岁儿童 IQ 的不稳定性,这清楚地表明,对天赋的判断应是一个持续的过程,而非在某个任意时刻做出的宿命般的决定。我写信给洛曼,询问 4 岁时得分 130 或以上的孩子,到 17 岁时再次测试,有多少比例能维持该分数。他用一个审慎的回归分析回答:约 25%……我又写信问洛曼:他确定吗?「是的,」他回复道,「即使是那些自认为精通此事的人,也常常惊讶地发现,即便相关系数看起来很高,数据中仍存在大量的变动/噪音/不稳定性。」不过,他谨慎地指出,这并不意味着 IQ 测试本身没有预测价值。毕竟,这些测试在预测哪些孩子到 17 岁时 IQ 能达到 130 以上方面,比我们发明的任何其他方法都好得多。能有一个机制,在童年时期就找出四分之一未来能取得如此高分的成年人,这本身已相当了不起。「问题在于,」洛曼写道,「根据孩子 4、5 岁时的测试分数就将他们分配到天才学校,并假设他们在同龄人中的排位会随时间推移而保持不变。」
……在《重访天才》中,美国心理学会天才教育政策中心主任丽娜·萨博特尼克与同事们进行了一项类似的研究,考察了亨特小学长大成人的校友们。他们[童年]的平均 IQ 是 157。「他们都是可爱的人,」她说,「他们普遍幸福、事业有成,对生活感到满意。但在惊世骇俗的成就方面,确实没有什么亮点。」
……如果你在寻找实际的解决方案,印第安纳大学的普拉克提出了一个温和的建议。他建议学校在孩子 IQ 更稳定的年龄再进行评估。事实上,这正是曼哈顿一所较前卫的学校城市与乡村学校的做法。他们不要求 7 岁以下的申请者参加标准化考试。「这样,孩子们在学业上已经有了更多积累,」该校招生主任伊莉斯·克拉克解释说。「他们习惯了学术环境,能应付考试情境,总的来说,我们认为结果更可靠。」

[8] 萨博特尼克本人似乎也未预料到如此显著的均值回归(Subotnik 等人 2011):

2003 年,萨博特尼克谈及她十年前的惊讶之情,当时她意识到,一所高 IQ 儿童精英项目的毕业生,其对社会的独特贡献并未超出其家庭社会经济地位和所受优质教育的预期(见 Subotnik, Kassan 等人 1993),并向读者提出了以下问题:「长大的天才儿童,若未能展现与其能力相称的杰出标志,还能声称自己是天才成年人吗?」(Subotnik, 2003, p. 14)。
……然而,童年天赋与成年卓越成就之间的脱节(Cross & Coleman, 2005; Dai, 2010; Davidson, 2009; Freeman, 2010; Subotnik et al. Hollinger & Fleming, 1992; Simonton, 1991, 1998; Subotnik & Rickoff, 2010; VanTassel-Baska, 1989),以及那些获得意外机会的个体的成就(Gladwell, 2008; Syed, 2010),都表明存在着一个远比目前已开发的更为广阔的人才库。

[9] 尽管 2018 年最先进的脑成像对 IQ 的预测能力(相关系数 r ≈ 0.4, Dubois 等人 2018) 仍远低于当前 SAT 与 IQ 的相关性(r > 0.8),但方差成分估计(Sabuncu 等人 2016)表明,其理论上限极高,r < 0.97,因此理论上是可行的。

[10] 不过,由于默里的提议依赖于不向人们报告 GPA+SAT-II 的加权指数(该指数等同于 SAT-I),以免他们获得一个单一的、值得骄傲的数字,基因预测器同样可以被拆分成多个指标。

[11] 此数据已针对范围限制进行了校正,这是必要的,因为我们关心的是筛选(在大学录取前预测学生),而非筛选后的表现。例如,将 GRE 成绩与研究生院的成绩相关联,并因此断定 GRE 没有预测能力是错误的,因为 GRE 本身就是用来筛选学生的——其预测价值已被「耗尽」。

[12] 此处不应与 SNP 遗传力混淆,后者是仅基于一小部分基因变异计算出的多基因评分的上限。SNP 遗传力通常约为总遗传力的三分之一,但使用仅 SNP 的基因测序和全基因组关联研究(GWAS)是一种经济上的考量,我预计它将逐渐淡出:消费者全基因组测序(WGS)的价格在 2019 年已低至 $500,而像 Wainschtein 等人 2019 的研究也证明了为何 WGS 将更为有用。

[13] 需考虑威尔逊效应和测量误差。


Thoughts Memo 汉化组译制
感谢主要译者 gemini-2.5-pro、校对 Jarrett Ye
原文:Genius Revisited Revisited · Gwern.net
2016-06-19–2019-07-26

参考

1. 数学早慧青年研究(SMPY)文献目录(1/2) ./1929551996844738028.html

专栏:Thoughts Memo的文章


← 返回目录