问题描述
中式教育一向被国内某些利益集团攻击为填鸭式教育,压制学生的创造力,只会培养学习机器。然而打脸的是,英美两国已经开始重新评价中式教育,英国面对本科中学学生数学水平连续下滑的情况,决定全盘引进上海数学教育,从2014年开始,每年引进60名中国数学教师,并引进全套数学课本,派老师到上海接受培训。连特朗普也点赞了中式教育,批评美式教育。对比,你怎么看?



2025-04-26 更新
虽然说之前嫌查数据费时间不想回应了,但高赞回答的回复不需要查数据就能回应,讲清楚几个基本概念就行,这里简单写写。
二高赞长文作者前天说广东教育水平全国倒数第6,昨天又说广东更能代表中国教育发展水平。你想让排名倒数第6的广东代表中国教育发展水平,你是怎么想的?你是怎么做到逻辑自洽的?
我只是引用数据来说明问题。一份来自 2009 年政府部门公布的统计数据,一份来自 2015 年 PISA 的考试结果,两边指标计算的方法并不相同,自然会有所出入。前者更多考虑的是教育机会、投入和公平,后者更多考虑的是考试成绩。更偏向哪一者,取决于你对教育质量的定义。
你说自己在国内搞过教育工作,谁能想像一个了解国内教育的人,会分不清东北三省、蒙古宁夏和广东比,谁的教育发展水平更高吗?
如果你连各省教育发展的真实水平都不了解,你能客观评价中国教育吗?
请问你怎么了解各省教育发展的真实水平?靠感觉?我引用了别人统计的数据,因为我确实没有这个能力去搞全国范围的调研。你要是可以,那我替全国人民感谢你。
你说广东人口1.2亿,人口更多,更能代表中国教育发展水平,我倒要问问,是人口接近2亿的京沪苏浙四省市更能代表中国教育发展水平,还是人口1.2亿的广东能更代表中国教育发展水平?
请问以下分布中,是蓝色的面积大还是红色的面积大?是蓝色的水平更代表平均水平,还是红色更代表平均水平?

但你是不是忘了,即使美国最穷的州,人均GDP也接近中国最富裕的北京上海的两倍?为什么他们的教育水平不是上海的两倍?反而要低于上海一百多分?难道在美国,经济就不决定教育发展水平了?
教育是服务业,难以贸易,所以非常受当地人力成本影响。美国教师平均年薪 69597 美元[1](折合人民币约 50 万),中国老师平均年薪多少?有没有 20 万?你要是有数据分享一下,我不胜感激。
既然你认为人均GDP全国第7的广东,教育水平全国倒数第6,那么,你怎么还能坚持经济决定教育水平呢?你是怎么做到逻辑自洽的?你是怎么说服自己的?
正如我前面所言,这取决于你是否将机会和公平纳入教育水平考量。
2015年,马萨诸塞州参加PISA评测,最好的阅读成绩才527分,排第二,你说说,马萨诸塞州怎么代表美国拿第一?
你说的对,我重新检查了一下 News Article - Massachusetts Department of Elementary and Secondary Education 的表述,No national education systems scored statistically higher than Massachusetts 这句话确实有点误导人。我向各位读者道歉,没有认真核验这个数据。
2025-04-25 更新
我怀疑高赞二长文作者,是不是很少在国内呆,或者根本不了解国内教育发展的真实情况,拿到这样一份数据,就如获至宝,认为北京就是中国教育水平的TOP2。
怀疑我很少呆在国内可还行,我哈工大毕业的,本科期间发过计算机顶会,现在也在国内的教育行业工作:
我是如何在本科期间发表顶会论文的?(内含开源代码和数据集) - 知乎但凡是对中国教育水平有所了解的人,都知道,这份数据所称的教育发展指数,和我们平时说的教育发展水平,根本不是一回事。
那就用你之前说的 PISA 的数据,我们来做点控制变量法:

从 PISA 数据来看,2015 年的成绩显著低于其他年份。对比 2015 和 2018,广东被替换成了浙江,分数大幅提高到接近之前上海单独参加的水平。而 2015 年对比 2012 年,加入了北京、江苏和广东,分数大幅下降,谁背锅,不用我说了吧?至少广东是落后于上海、北京和江苏的。
我们再看一下这几个地区的人口数据:
根据第七次全国人口普查数据,北京人口 2189 万、上海人口 2487 万、江苏人口 8474 万、浙江人口 6456 万、广东人口 1.26 亿。谁更能代表中国水平?还用我说吗?
再看看人均 GDP,在这几个地区中,广东也是最低的,但广东也高于全国平均水平。谁更能代表中国水平?还用我说吗?
这也印证了我原回答中引用的观点:经济水平和 PISA 分数高度相关。

2025-04-24 更新
看到高赞回应了,我这里回复一下。
北京不是中国教育水平最高的地区,和北京持平或高于的省市,有七八个之多,除上海、江苏、浙江外,山东、广东、湖北、湖南、江西、四川、重庆、天津、河南、河北,教育水平都不次于北京。
直接上数据(数据太难查了,只查到这个 09 年的,有更新的数据欢迎分享):
表一:2009年各年份教育发展指数及排名
1 .上海0.917;2.北京0.881;3.浙江0.824;4.天津0.784;5。江苏0.707;6 .福建0.700;7.辽宁0.698;8.吉林0.679;9 .内蒙古0.674;10.宁夏0.670;11.黑龙江0.662;12 .重庆0.660;13.河北0.658;14 .青海0.655;15.山西0.654;16.陕西0.653;17.江西0.649;18.山东0.646;19.四川0.633;20.海南0.628;21.湖南0.624;22 .河南0.622;23.湖北0.615;24.广西0.611;25.新疆0.599;26.广东0.598;27 .安徽0.597;28.甘肃0.593;29 .西藏0.590;30.云南0.573;31.贵州0.562
从表1可以看到,2009年,教育发展水平最高的是上海、北京、浙江等经济发达地区,最低的是贵州、云南、西藏等经济欠发达地区,教育发展水平与经济发展水平有着密切的关系。但是,经济发达的广东省,由于教育公平水平在全国倒数第一,教育投入水平也比较低,教育发展水平排在倒数第6名,远远低于其经济发展水平,说明经济发展并不必然带来教育的相应发展。
来源:全国各省份教育发展水平比较分析-高教研究所
结论:上海和北京断层式领先。
即使只是上海一个城市参加的1998和2012年PISA评测,上海都能辗压新加坡香港,分数远高于他们,他们可没有落后地区,这足可以说明中国教育模式的优势。
任何城市都有落后的地区/人口。上海通过户籍制度把外来务工家庭的孩子排除在高中外(15 岁,正好是 PISA 要抽样的),这下和落后地区/人口切割了。
参考:Lessons from the PISA-Shanghai Controversy
即使二高赞长文作者膜拜的马萨诸塞州,其学生阅读得分不过527分,而国内参加评测的四次,得分都在550分以上,上海学生高分的年份甚至能达到570分,都远远高于美国的马萨诸塞州。
2015 年中国(北京、上海、江苏和广东)的 PISA 阅读成绩为 494 分。你能不能别编数据了?
World Bank Document不知道二高赞长文作者是没有破绽还是什么原因,反正他没有在文章内容上提出质疑,而是盯上了作者的身份,一付“抛开事实不谈,难道你身份就没有问题吗”的姿态,这一招羚羊挂角,毫无踪迹可寻,端地精妙无比。
我说了,有付费墙,要不你帮我付一下订阅费,让我看看全文?
你们不能攻击中国教育的时候,就把鸡娃说成中式教育,说中式教育好的时候,又要把鸡娃群体排除在外。
我不是针对谁,我是说在座的各位都是垃圾:
Thoughts Memo:美国强制教育系统的七大罪行Thoughts Memo:北欧的失败:瑞典的择校制度Thoughts Memo:欧洲之耻——德国与瑞典Thoughts Memo:普鲁士的纪律不可避免地摧毁了教育Thoughts Memo:波兰的历史课标可以塑造民族主义态度没想到二高赞长文作者,会替美国抢应试教育的帽子,还说的有理有据的。如果不是看了美国高达28%的文盲率,和他在文中的加卖课链接,我就真信了。
卖课链接?我卖什么课了?我就一汉化组,无偿做点翻译,又不图钱,何必卖课?Math Academy 是美国的一个自适应数学自助学习平台,我只联系过他们的工作人员请求翻译授权,没有要过一分钱。
至于美国的应试教育,看小布什政府的 No Child Left Behind 法案就知道了:
法案要求各州设立年度标准化的“高标准”考试,并让K-12环节的学生最终达到100%的通过率。同时对学校的教师也要考核,必须达到“客观,统一的州考核标准”。
如果学生没有达到考核标准,那么相关学校不仅不会得到法案拨款,还必须对教员进行监督甚至替换,如果学生长期达不到标准,那么相关学校必须考虑解散,转为特许学校或者私人学校,学生更换学区。
摘自——美国多州悄然引进中式教育,采用简版衡中模式,悄然拉开了内卷的大幕,对此你怎么看? - 知乎
这还不够应试?要不要再看看奥巴马政府基于 Value-Added Modeling 的教育改革?
假设你想确定某个学区哪些教师是最优秀的。你认为生活中唯一真正重要的就是标准化考试分数[来源请求],于是你计算每位教师班级的平均考试分数,然后将平均分最高的教师评为年度最佳教师。这种做法会有什么问题呢?
实际上,你很可能只会把奖项颁给负责教授天才班的老师。教师面对的班级学生能力差异很大,我们已经确定,与教师的技能相比,学生的先天能力和毅力对成绩的影响更大。因此,教导弱势学生的教师将处于巨大的…呃…劣势。
让我们换个角度思考这个问题。与其用学生的平均考试分数来评价教师,不如关注学生分数的平均提升幅度。假设一位教师接手了一群一直徘徊在 20 分位左右的学生,经过他的悉心教导,这些学生的成绩提升到了 40 分位。尽管这些学生的成绩仍低于平均水平,但这位教师显然做出了显著贡献。如果我们能够统计出每位教师的学生在一学年里平均提升了多少个百分位,就能更准确地识别出真正优秀的教师。
这一思路,再辅以复杂的统计模型,就构成了 VAM(增值模型,Value-Added Modeling)的基本理念。VAM 作为最新的教育改革热点,也是奥巴马政府教育改革的核心。通过 VAM 识别出优秀教师后,可以给予他们更高的薪酬,以留住这些人才。至于那些表现不佳的教师,VAM 的反对者略带讽刺地将这一计划描述为「通过解雇来提升教育质量」。
教师:比你想知道的要多得多 - 知乎原回答
高赞引用新闻不会看时间吗?

搜一下,发现是 17 年的老新闻:

简单翻译一下关键字,找到这篇原文:
Why American Students Need Chinese Schools - WSJ
因为有付费墙,所以我就搜了一下这篇文章的作者 Lenora Chu
发现搞笑的事情来了,她是 Little Soldiers 的作者:

而 Little Soldiers 这本书写了什么?我给大家简单介绍一下:
作者是一位第二代华裔美国女性,受到严厉的亚洲父母抚养。她的父母让她拼命学习以获得完美的学业成绩,练习钢琴,进入常春藤名校等。她反抗并对自己被迫经历的地狱感到愤恨(尽管她进入了斯坦福大学,所以她也不可能反抗得太过分)。
跳过十年。她长大了,结婚了,拥有一个三岁的孩子。她的丈夫(一个名叫 Rob 的白人)在中国找到了一份工作,于是他们搬到了上海。她希望他们的三岁儿子能够双语/双文化,因此她把他送进了宋庆龄幼儿园,这所幼儿园被称为中国幼儿园的哈佛。这本书是关于她在那里的经历,以及它教会了她关于中国教育各个方面的知识。
——Book Review Review: Little Soldiers | Slate Star Codex
宋庆龄幼儿园是什么幼儿园?上海最难进的、有国际班的幼儿园。是衡水中学能比得了的吗?这就像用北京四中来代表中式教育一样可笑(
另外,用 PISA 成绩来吹中式教育也是老套路了。

实际上,中国与 OECD(负责 PISA 的组织)达成协议,只在其四个最富裕、受教育程度最高的省份/直辖市(北京、上海、江苏和浙江)进行测试。富裕且受过良好教育的地方在 PISA 上总是表现良好。中国的四个最佳省份/直辖市超过其他国家的平均分并不令人惊讶。而且这四个地区也和衡水中学没什么关系。
另外,如果美国只允许进入其受教育程度最高的州(显然是马萨诸塞州),那么其 PISA 分数将是世界第一:
马萨诸塞州学生的阅读平均分为 527 分。美国的平均分为 497 分,而经合组织的平均分为 493 分。北卡罗来纳州的学生平均得分为 500 分。
没有任何国家的教育系统在统计上得分高于马萨诸塞州,尽管有八个国家/地区的得分与马萨诸塞州相似:新加坡、中国香港、加拿大、芬兰、爱尔兰、爱沙尼亚、韩国和日本。
——doe.mass.edu/news/news.aspx?id=24050
敢吹晚自习,那为什么不再吹吹中式早读?

实际上,如果一定要增加学习时长,选择晚自习确实比早读要好,这是有研究依据的:
…目前,一些学校和大学已经尝试将早课时间推迟到上午 10 点或更晚(例如伦敦大学传媒、艺术与设计学院的早课时间为 10:30),但大多数还没有展开系统的正式研究。新西兰的一项研究表明,同一所学校里 16 岁以上、10:30 开始上课的学生,与 9 点上课的 14-15 岁学生相比,后者报告的睡眠不足更多、起床困难更大(p<.001),且在工作日早 7 点后起床的比例也显著更低(p<.0001)(Borlase, Gander, and Gibson 2013)。土耳其萨卡里亚大学每天分两个时段授课(08:00-14:50 和 15:00-21:50),学生的学业表现因上课时段和个人作息类型而异。该校大多数考试安排在 09:30 进行,研究发现教学和考试时间都会影响学习成绩:晚睡晚起型学生在第二时段表现更优异,而在早上考试时发挥欠佳(Bes ̧oluk, Onder, and Deveci 2011)。值得一提的是,Shekleton et al 2013 意外地发现,学生在上午较晚时段(WMZ)的整体表现优于清早。这些研究数据启示我们,探讨适合青少年的校园作息时间上限,对于优化教学效果和促进学生全面发展具有重要意义。亚洲等地教育系统在晚间较早时段授课所取得的显著成效,也证实了直到晚上 8 点可能都是青少年高效学习的黄金时间。适度延后早课时间并合理安排课程表,有望让学生以更健康、更优异的状态投入学习,值得教育工作者深入研究和科学施行。
——教育和学习无关
但你不能光提他们引入晚自习,而不说他们早上几点开始上学。美国学生起码都是八点后开始上第一节课的,有的学校是十点甚至九点。衡中呢?七点就开始早自习了:

更何况美国学生每周学习时长在一众发达国家里面还算长的了(48 小时左右,对比芬兰,只有 36 小时)。为什么不和这些国家比一比?

再谈谈 STEM 教育。这些科目确实需要坚实的基础技能练习。但是说他们不敢公开表达,真有点尬黑了。

我天天翻译美国人写的东西,我能不知道他们有没有公开表达吗?
Allen-Lyall(2018)从更宏观的角度阐释了数学基本运算的自动性如何成为数学素养的门槛,进而影响未来的学业和职业发展:
⠀⠀⠀「当一个人对自己的数学思维充满自信并能展示扎实的能力时,他不仅能在学校数学表现中脱颖而出,还能获得更广泛的大学学习和就业机会(Atweh & Clarkson, 2001; Marsh & Hau, 2004; Valero, 2004; Williams & Williams, 2010)。
⠀⠀⠀由于众多原因,基本运算的熟练掌握成为了通往真正数学素养的教育门槛。因此,在这个充满各种需要数学交流想法的挑战的世界里,帮助儿童掌握这个看似微小但至关重要的早期数学学习要素变得尤为重要(D'Ambrosio & D'Ambrosio, 1994; Thomas, 2001)。」
其他研究人员的发现,自动性对学业成就的影响会立即显现:在基本数学运算上反应较慢的学生,一旦接触多位数运算就开始落后于反应更快的同龄人(Joy Cumming & Elkins, 2010)。
⠀⠀⠀「研究者根据儿童在基本运算包上的反应时间将他们分类。反应最慢的群组在许多运算包上仍使用计数策略;最快的群组则使用检索或高效思考策略。群组类别成为预测多位数任务表现的最佳指标。加法运算的准确性仅对不需进位的任务有影响,而年级水平的影响并不显著。对错误类型分析显示,多位数加法中的大多数错误源于基本运算的不准确,而非算法错误。这表明,基本运算的低效解决方案增加了认知负担,使得多位数运算变得难以处理。」
回顾过去,将自动性和创造力对立起来的观点不仅在事实上是错误的,而且颇具讽刺意味。那些错误观点暗示,减少重复练习可以促进创造力,从而有利于未来的成功。然而实际上,这种做法导致学生不得不持续将精力花在本可以通过重复练习而自动化完成的低层次任务上,从而限制了他们进行更高层次和创造性数学思维的能力,甚至限制他们未来的学业和职业发展前景。
——第十五章 培养自动性
但也不要高兴得太早,觉得重复练习很先进。真正有效的重复练习是有针对性的重复练习,而不是题海战术,大水漫灌。美国已经有工程师团队和教学团队合作,打造出了高效刷题系统(我的评价是最中幻想,做题家的福音)。
以下内容摘自 @Thoughts Memo 汉化组的译文《第二十一章 针对性补习》
⠀⠀⠀摘要:Math Academy 提供自动化且精确的支持,帮助学生针对在特定主题或基础技能上的薄弱环节进行强化。该系统并不降低成功的标准,而是通过提供额外的练习,使学生能在下一次尝试时完全独立地达到要求。
高精度、高质量的补习
在学术文献中,「针对性补习」这一术语通常指识别那些需要接受广泛补习干预的学生个体,如一对一辅导、补习课程或与学业顾问面谈等。
然而,在 Math Academy 的语境中,针对性补习指的是一种全自动化的支持机制。它不仅针对每个学生在特定主题上的个人需求,甚至更精确地针对导致学生在某一主题上遇到困难的具体技能组分。
Math Academy 的针对性补习方法与智能辅导系统中的自适应反馈概念有所不同。《学习分析手册》将后者描述为向学习者提供提示,或为教学设计者提供建议,以更好地使任务与学生的能力相匹配(Pardo et al., 2017, pp.166):
⠀⠀⠀「大多数关于自适应反馈的研究,都是通过在特定知识领域为学生提供一系列学习任务的系统来进行的。这些系统通常提供各种类型的任务级反馈,例如:下一步提示(如 Peddycord, Hicks, & Barnes, 2014);正确性提示,又称标记反馈(Barker-Plummer, Cox, & Dale, 2011);积极或鼓励性提示(Stefanescu, Rus, & Graesser, 2014);关于接下来的学习步骤或任务的建议(主要面向教学设计者,以便更好地匹配学生能力,Ben-Naim, Bain, & Marcus, 2009);或上述各种方法的组合。」
这些方法实际上降低了学习任务的成功标准,而与上述自适应反馈机制不同的是, Math Academy 的针对性补习机制保持了原有的标准不变。我们更注重采取最有可能强化学生薄弱领域的措施,使他们能在下一次尝试时独立且完全地达到要求。
据我们所知,像 Math Academy 这样在精细度(针对特定学生的特定主题)和完整性(保持原有的成功标准不不变)方面都达到如此高水平的针对性补习,在学术文献中尚未得到充分研究。
正如《学习分析手册》所述(Pardo et al., 2017, pp.168):
⠀⠀⠀「很少有研究深入探讨学生是如何与算法生成的反馈进行互动,以及这些反馈如何改变学生的学习过程。此外,从数据分析中得出的干预措施与适当的反馈形式之间的关系仍未被充分探索。」
这种情况可能是学术研究的可行性限制所致:开发自动化学习系统需要投入大量的时间和金钱,而且这些成本会随着课程精细度的增加而成比例增长,使得这项工作更像是一个工业化的项目,而非传统的学术研究。
纠正性补习
当学生遇到学习困难时,我们会提供纠正性补习支持,有针对性地解决他们的具体困难点。
- 如果学生在完成任务时遇到困难,我们会提供更多的练习题。这不仅给予他们更多学习的机会,也让他们有更多展示所学知识的机会。
- 如果学生未能通过某节课程,我们会给他们一个休息的机会,让他们先学习一些不相关的主题,然后再重新尝试之前未通过的课程。通常,短暂的休息和换个思路就足以让学习重回正轨。数据显示,学生在首次尝试时有 95% 的通过率,在两次尝试内的通过率更是高达 99%,这都无需任何额外的干预。
- 然而,如果我们发现学生在同一课程的相同部分再次遇到困难,没有任何实质性进展,我们会为他们安排纠正性的复习课程,帮助他们巩固与困难点最相关的基础知识。
- 每当学生在测验中答错一道题目,我们都会立即安排相应主题的补救性复习,确保及时查漏补缺。
在精准定位补习内容时,我们面临的一个挑战是:解决特定数学问题所需的关键先决概念或技能,往往位于数学知识体系中更基础的层级。因此,在开发课程内容和构建知识图谱时,我们特别注意追踪每节课各个部分所涉及的关键前置知识。这使我们能够精确定位成功补救所必需的具体主题。
让我们通过具体的例子来说明这一点。假设一个学生在重新学习「有理底数的指数」这一课程时:
- 顺利通过了第 1 部分:使用指数表示乘积(例如,将 4 × 4 × 4 表示为 4^3),
- 但在第 2 部分:计算指数表达式时再次遇到困难(例如,计算 (–4)^3 = (–4) × (–4) × (–4))。
这种情况表明,学生已经掌握了指数的基本概念,但在使用乘法计算最终结果时遇到了障碍。
尽管乘法是知识序列中更为基础的前置知识,但我们在知识图谱中已经将「计算指数表达式」这一主题与「负数相乘」这一关键前置知识建立了联系。这使我们能够自动触发针对「负数相乘」的针对性补习,从而为学生提供最精准的学习支持。

预防性补习
我们还致力于提前预测学习难点,并通过预防性补习来彻底避免这些困难。有利于这点的是,当我们根据每个学生在不同主题上的学习速度来定制间隔重复学习系统时,就会自然而然地完成这种预防。
我们为每个学生-主题组合设定的初始学习速度值,预测了该主题对特定学生的难度。这一预测主要基于学生在其他相关主题上的学习速度——如果预测的学习速度较低(即我们预计学生在该主题上会遇到困难),那是因为曾有一个或多个相关主题的学习速度较低。
那些学习速度较低的相关主题即为学生可能遇到困难的预测点,我们已经通过放慢这些主题的间隔重复过程并强制进行明确的复习来实施预防性补习。换言之,对早期主题的「后续」补习自然而然地成为了后续主题的「预防性」补习。
基础知识补习
Math Academy 的诊断测试是为特定课程量身定制的。这些测试不仅评估学生对课程内容的掌握程度,还会评估他们对低年级基础知识的掌握情况,这些是学生在课程中取得成功所必需的前置知识。
例如,学生需要掌握大量的算术知识才能解决代数问题。因此,代数的基础包括了来自算术的必要知识点。同理,微积分的基础包括了大量的代数知识和一些几何知识,而大多数大学水平的课程(如多元微积分)的基础则包括了大量的单变量微积分和预科微积分知识。
新生在进入某一课程时,常常会缺乏一些必要的基础知识。在传统课堂中,这可能意味着学习失败。但在 Math Academy,我们能够评估学生的知识边界,即使它低于课程水平。我们能帮助学生填补缺失的基础知识,同时允许他们学习那些不依赖于所缺基础的课程主题。

Math Academy 还优化了让学生开始弥补所缺乏的基础知识的时机。通常,学生对所报名课程的主题比对补足缺失的基础知识更感兴趣。当学生对学习内容感到兴奋时,他们往往更有效率,学习进程也更具持续性。因此,我们允许学生先完成所报名课程中不依赖缺失基础知识的部分。这有助于学生培养学习动力,朝着主要目标进步,并养成持续学习的习惯。当学生达到需要弥补缺失的知识才能在所报名课程中继续前进的阶段时,他们已经积累了足够的学习动力,这将帮助他们完成基础知识的补习,大大降低他们感到沮丧和放弃的可能性。
内容优化
Math Academy 作为一个追求精熟学习的系统,既要求学生对自身学习负责,也承诺为学生提供结构合理、易于掌握的教学材料。当发现有超过少数的学生对某个主题感到困难时,我们将其视为一个信号,表明不仅需要帮助学生改进,还需要优化我们的教学内容。
我们极其重视内容优化工作。Math Academy 的定位类似于一位导师,其工作成效直接取决于学生的实际学习成果。这与许多其他学习平台(甚至一些人类教师)形成鲜明对比,后者往往允许学生在未充分掌握前置知识的情况下就开始学习更高级的内容。我们的理念是,如果学生无法成功掌握我们设定的学习内容,那就意味着我们没有履行好自己的职责。
为了有效优化内容,我们开发了先进的学习分析工具。这些工具能够全方位地分析任何层级的教学内容的效果:不仅可以分析单个主题,还能深入到主题内的每个知识点,甚至能够评估知识点中的每个具体问题。
如果某个课程的通过率低于我们的预期标准,我们可以精确定位学生在哪个具体知识点遇到了困难,以及哪些特定问题造成了学习障碍。
经过多年来对内容和算法的不断完善,我们已经取得了令人欣喜的成果:学生在首次尝试时的课程通过率达到 95%,两次尝试内的通过率更是高达 99%。随着我们持续改进内容,这些通过率还将继续提升。
需要特别强调的是,在优化和改进内容的过程中,我们始终坚持不降低学习标准。我们提高通过率的方法是通过在课程中增加更多的认知辅助,以进一步降低学生的认知负担。这可能包括改进概念解释或例题讲解的方式,有时也会在课程中增加中间知识点,或者将一个复杂主题拆分为多个更具针对性的小主题,以便更好地适应不同的学习情境和需求。
上一章:
下一章:待发布
Thoughts Memo 汉化组译制
感谢主要译者 claude-3.7-sonnet,校对 Jarrett Ye、Ravioli-T
原文:The Math Academy Way: Using the Power of Science to Supercharge Student Learning
更多关于学习科学和自适应教学系统的内容,请见我们汉化组的专栏:
The Math Academy Way最后再说一下所谓美国快乐教育:完完全全搞错了,美国才是应试教育大国。
以下内容摘自 @Thoughts Memo 汉化组的译文《美国标准化考试及其受害者》
标准化考试正在肆意膨胀、变异,几近要吞噬整个学校,就像那些老式恐怖电影中的怪兽一样。(当然,在《深夜秀》里,从来没有人会坚称那些怪兽实际上是在帮助我们,让受害者更加「有责任感」。)但让我们暂时搁置比喻乃至观点,来回顾这个话题下一些不争的事实。
事实
1. 我们的孩子接受考试的频率,史无前例,举世无双。
虽然先前几代美国学生都要经历考试,但考试从未如此频繁,也从未在学校教育中扮演如此重要的角色。从国际视角来看,当前的情况也实属罕见:很少有国家让高中以下的孩子接受标准化考试,或者对任何年龄的学生使用选择题考试。
2. 在比较学校或地区的考试成绩时,绝大多数的分数差异都可以由非教学因素解释。
对 1992 年全国教育进展评估的数学成绩的研究发现,四个变量(居家父母人数,父母教育背景,社区类型,贫困率)的组合可以解释足足 89% 的州际分数差异。据我所知,所有对州级考试的类似分析都得出了相似的结果,其数字只有微小差异,因考虑的社会经济学变量而变化。
3. 标准参照考试本就不是用来衡量学习或教学质量的。
斯坦福、大都会和加利福尼亚成绩测验(SAT,MAT 和 CAT),和爱荷华州基本技能考试以及全面基本技能考试(ITBS 和 CTBS),从设计上只会让大约一半的考生能答对大部分题目。这些考试的主要目标是排名,而不是评估;是区分学生和学校的成绩,而不是衡量他们的水平。
4. 标准化考试成绩衡量的是肤浅思考的水平。
一项发表于《教育心理学杂志》的研究,将小学生的学习划分为「积极学习」和「肤浅学习」。「积极学习」的小学生,会在阅读时问自己问题,并联系过去学习的知识;而「肤浅学习」的小学生会抄写答案,不断猜测,并跳过困难的部分。结果发现,采取肤浅学习方法的学生,更可能在 CTBS 和 MAT 中取得高分。对于中学生(衡量其 CTBS 成绩)和高中生(衡量另一个 SAT 成绩,大学入学考试)的研究也得出了类似的发现。当然,有很多学生能够深入思考并在考试取得高分——也有很多学生既不深入思考,分数也很低。但作为一种规律,标准化考试结果似乎与肤浅的学习方法有正相关性。
5. 几乎所有的专家都反对对 8 或 9 岁以下儿童进行标准化考试。
我这里使用「几乎」是不想把话说得太满,但实际上,我还没有找到一位在早期儿童教育领域的知名学者,支持对年幼儿童进行此类考试。
6. 几乎所有相关的专家和组织,都谴责根据单一考试结果作出重要决策的做法,比如毕业或升职。
国家研究委员会的立场如此,大多数其他专业组织(如美国教育研究协会和美国心理学协会),通常支持考试的美国教师联合会,甚至创制和销售这些考试的公司的立场也都如此。然而,目前超过半数的州正进行着这样的高风险考试,或计划在不久后引入。
7. 花在让学生准备标准化考试的时间、精力和金钱,必然是从他处挪用而来的。
全国各地的学校正在削减甚至取消艺术课程、年轻学生的课间休息、高中生的选修课、班级会议(以及其他旨在促进社会和道德学习的活动)、时事讨论(因为这些内容不会出现在考试中)、低年级的文学教学(如果考试仅集中在理解技能上),以及整个学科比如科学(如果考试只包含语文和数学)。如果有人怀疑学校牺牲了多少多重要的内容以追逐高分,他近来肯定没走进学校看过。
8. 越来越多的教育者在离开教育行业,因为在「问责」和「高标准严要求」的名义下,学校经受了不少变化。
我没有确切的数据,但我有足够的轶事证据支持,将其定为事实——有管理人员、教师和教育者、全国各地的观察者作证,也有几份州际调查支持,这些调查考量了教师对考试的失望程度。师范生开始对成为老师考量再三,这份职业中成绩为先,而他们被迫要让学生拿到高分。同样,正如《纽约时报》在 2000 年 9 月 3 日的头版报道中所述,「越来越多的学校失去了方向。他们的优秀教师在步入老年,而在提升分数的压力以及其他种种需求之下,本已非常困难的教师一职越发难以受人欣赏。」很现任,很多离开教育行业或者认真考虑这点的人,并不是平庸之辈怕被问责。他们其实可以算作非常优秀的教育者,只是在现在的大环境下难以开展高质量教学,并因此而倍感受挫。
面对这些难以解释的事实,标准化考试的捍卫者常常如此辩解:即使郊区学校的教育质量的确因为考试而下降了,但市区学校从一开始就非常糟糕。至少在那里,高风险的考试最终使标准提高了。
让我们假设这个论点的出发点是好的,而非是为了其他理由而辩护标准化与考试的决策。此外,我们当即可以认定,多年以来低收入少数族裔学生得到的教育服务非常糟糕。问题在于标准化考试这个解药其实比问题还糟糕——不仅是因为前面提到的八点事实,这些事实对城区学生的考试仍然是适用的。正如明尼苏达州的民主党参议员 Paul Wellstone 在去年春天的一次演讲中所说:「让学生对考试成绩负责,这句口号特别适合写成大字报,政治家还会说他们不会容忍失败,特别有益他们的形象。但这句口号是个空洞的承诺。高风险考试远远称不上改善了教育,反而是公正、准确、质量和平等的重大退步。」原因如下。
原因
这些考试可能存在偏见。
几十年来一直有批评者控诉许多标准化考试并不公平,因为来自优越背景的孩子,更可能具备这些考试所需的知识和技能。这种歧视效应在规范参照考试中尤其明显,因为这种测试需要保证分数有区分度,因此有些试题会涉及在校外习得的知识。正如 W. James Popham 所述,这为家境富裕、受教育程度高的学生提供了巨大的优势。依赖这种有偏见的考试来「缩小贫富差距」,可真是讽刺。
谁最能花钱获得更好的考试辅导呢?
随着风险增加,人们会穷极所能寻找一切帮助,一些从这种急切心情获利的公司也逐渐涌现,他们销售考试辅导材料并提供服务,最近的一些公司更是瞄准了州级考试来设计产品。自然,富裕的家庭、学校和地区能负担这类产品,而且买得起最好的一档,因此,这种考试的不公也愈发凸显。此外,即便更穷的学校凑出钱买了这些材料,他们也无法采购一些他们真正需要的书籍和教育材料了。
最贫困的人群接受的教学质量最差。
相比衡量真正的理解,标准化考试偏向衡量学生突击掌握的事实和技能,包括考试技巧本身。而少数族裔占比更高的学校,喜欢开展更多测试,并在教学中强调考试(已有数据证实),因此这些学校的教学质量也就更差。这些学校使用了一种高风险的策略,让学校更执迷于测试,并因此他们也愈发依赖直接教学和大量模拟测试。「面向技能的教学,大部分少数族裔的孩子都要经历这样的教学,这种教学方式往往让学生统一达到低水平的能力,并扼杀他们的学术潜力。」罗格斯大学的非裔美国教授 Dorothy Strickland 如此说道。
再次强调,无可否认,许多为少数族裔贫困儿童服务的学校从一开始就是二流的。然而,现在,一些在芝加哥、休斯敦、巴尔的摩等地的学校可以说已经变成了三流。受考试压力所迫,这些学校开始系统性采取低水平的刷题练习式教学,为此学区往往会购买一揽子课程。因此,当有人强调要对少数族裔儿童有「更高的期待」时,我们可能会回答,「对做什么有更高的期待?在糟糕的考试中正确完成更多题目,还是设立吸引人的项目来促进思考深度?」对于「更严格的标准」「问责」和类似口号推动的运动,只要依赖标准化考试作为成就的主要衡量,那么这些口号在意义上就降低了期望。穷孩子被命令做越多练习题(以提高他们的测试分数),他们就越落后于富裕孩子,因为有人会教富孩子怎么理解知识。如果刷题确实提高了分数,正确的回应不是庆祝,而是愤怒:考试结果得到改善,可能是牺牲了真正学习。
真正缺乏的并不是标准。
任何认真关心解决美国教育不平等问题的人,自然会想要调查可用资源的差异。有一个很好的论点是,最公平的分配策略——这在一些国家只是常识——是不仅为各学校和各地区提供相同拨款,而且为面临最多挑战的学生群体提供更多拨款。有些州的确这样做了,但绝不是所有州,而且,即使这些州的确倾斜了拨款,他们往往只会提供短期补助(根本无法补足多年的拨款缺口),并且指定这些钱要用于考试准备而不是高质量的教学。更糟的是,高风险考试系统,可能给那些已经成功的人提供更多的钱(例如,以奖金形式给予优异分数者),给那些最需要的人提供更少的钱。
很多公职人员以及类似想法的记者和观察者,很擅长对资源问题轻描淡写,并作出这样一个假定,即只要我们坚定要求「提升标准」,穷孩子和少数族裔孩子缺少教育资源的问题,便能迎刃而解。他们的言外之意就是,老师和学生本可以做得更好,但只是因为某些原因而没这么做,只需要诱骗威胁他们,他们便能提升(实际上,这是所有激励系统的潜在假设)。政策制定者的焦点已经转移到结果上的标准,而不是机会上的标准。
更糟糕的是,对于社区环境阻碍孩子成才的重要性,一些高风险考试的支持者不仅全盘忽略,而且嗤之以鼻。有人会向他们解释,孩子成绩不理想的原因有种族主义、贫穷、对罪犯的恐惧、教师的低薪、设施不充分、语言障碍等等,而他们都将其驳斥为「借口」。这不仅天真幼稚,而且冷血无情。像其他淡化结构性约束的观点一样,这种观点都会助益于有幸不必经历这些苦难的人。
那些所谓受帮助的人将被逐出系统。
一旦在教育工作者身上应用奖惩机制,那些给成绩较低的学生群体授课的人,最有可能被打上失败的烙印,并可能会辞职。少数族裔和低收入学生受到教师提高分数的不断压力的影响不成比例。但是当高风险被应用到学生时,我们很清楚哪些人最有可能因为没有通过毕业考试而无法获得学位,或者哪些人会预期到这种结果并决定辍学。如果各州坚持这种做法,让学生的命运取决于一次考试,那么未来几年可能的结果将是无比灾难性的。除非我们采取行动阻止这一切,否则我们将面临教育性种族清洗,毫不夸张。
让我们善意地假设,这个完全可预见的后果中的族群一面是无心之举。然而很难否认,即使考试不是基于常规参考,高风险考试的目的还是给学生排序。不熟悉相关心理研究(和现实)的人可能会坚称,提高标准会「激励」更多的学生成功。但请完成以下思维实验:假设一个州的几乎所有学生都达到了标准并通过了考试。大部分政治家、商人和专家对此会作何反应?他们会承认我们的公立学校很棒,还是会把这个结果作为标准过低,考试过于简单的首要证据?正如 Deborah Meier 等人所观察到的,从定义上来说,每个人都能达到的标准就不再是「高标准」了。
考试只是这个游戏的手段。在这个游戏里,很多孩子根本不可能是赢家,其中有很多是有色族裔。用这些孩子来辩护这样自上而下、高压手段、公司风格、考试驱动的学校改革,可以说是胆大包天。若要认真促进教育平等,我们要减少跟踪,让拨款更平等,让教学更精细化(而非采取过度编排的直接指导模式)。显然标准化测试处处是毛病,而它对那些最需要帮助的孩子伤害最深。
声明
Copyright 2000 by Alfie Kohn. Reprinted from Standardized Testing and Its Victims and translated by Thoughts Memo with the author's permission.
Thoughts Memo 汉化组译制
感谢主要译者 GPT-4、Jarrett Ye,校对 Shom、changxvv、Lucas-Tsui
原文:Standardized Testing and Its Victims (**) - Alfie Kohn
发表于 2000 年 9 月 27 日
作者:Alfie Kohn
更多关于美国教育的内容,请见我们汉化组的专栏:
美国教育批判 - 知乎