问题描述
分享一种有科学依据的高效记忆方法——间隔重复。
本文长达 6 万字,内含两百多篇文献,请善用目录跳转至你感兴趣的章节。
以下内容摘自 @Thoughts Memo 汉化组的译文《高效学习的间隔重复》
高效学习的间隔重复
通过间隔效应实现高效记忆:可以广泛使用的文献综述、使用技巧、适用范围及其裨益。
间隔重复是有数百年历史的心理学方法,常用于高效记忆以及技能练习。与尝试去死记硬背相反的,通过间隔性的复习,复习时长的增加,软件的计划安排,使得记忆效率更高。间隔重复虽然节奏较慢,但更加稳扎稳打,所以实现了更高的效率,便可以扩展到记忆成百上千的内容(相比之下,死记硬背的内容几乎转瞬即忘),因此对于外语和医学学习尤为有用。
我回顾了这种方法的适用范围与相关的大型研究文献,以及测试效应(大部分材料截止到 2013 年),可用的软件工具和使用方式,以及关于它的各种想法和观察。
计算机技术最富有成效的领域之一就是弥补人类的弱点。计算机精通算数,因为这是人类力有未逮之处[1]。计算机要记住 TB 量级的数据,因为人类忘性大。计算机能制作最好的日程表,因为人类总要查看今天要做什么。不过即使我们记不清楚东西,记住哪里能参考到也够用了。从头到尾阅读一本手册或教科书的意义并不是记住里面的一切知识以备万一,而是之后能记住「什么在里面」以便检索(快速浏览之后,你便能掌握用于搜索某个主题的正确关键词,来应对深入了解此话题的需要)。
这样的神经辅助工具[2]是有不少,但总有更多可以发掘出来。这些工具值得上下求索,因为它们价值连城:铲子比你的手要有效得多,但电铲比两者都要强上几个数量级——虽然它需要培训和专业知识才能使用。
1 间隔效应
「练习能让你受益匪浅,
若其时机适当地分散。
你若想当个蠢驴笨蛋
那就一口气做完,
你能记住的少得可怜。」
——Ulrich Neisser[3]
我目前最喜欢的神经辅助工具,是利用间隔效应的软件。间隔效应在认知心理学中有数百年历史,这些软件借此在学习或记忆方面能比传统学习方法取得更好的效果;唉,但这种效应还不为人知[4]。
间隔效应实质上是说,如果你有一个问题「你学到的这个随机序列中的第五个字母是什么?」,而你只能学习它 5 次,那么如果你把 5 次机会分散到很长的一段时间——天、周、月,那么你对答案「e」的记忆将会最强。而集中在一两天内草草学习 5 次则是最不明智选择。你可以把「遗忘曲线」想象成一张放射性半衰期的图表:比方说,每次复习都会使你的记忆力提高 50%,但复习在早期并没有起到多大作用,因为记忆并没有衰退太多!(为什么生物学水平上间隔效应有效?在动物模型中,集中学习和间隔学习存在明显的神经化学差异。间隔学习(间隔大于一小时)能助长神经元连接强度的长期增益效应,而集中学习没有此效果[5]。但是这种差异的原因还是悬而未决的问题;请参阅记忆痕迹或者睡眠学习的概念。)遗忘曲线的图形表示:
更好的是,我们都知道主动回忆是一种种远胜于单纯被动接触信息的学习方法。[6]间隔也可以扩展到海量信息;身为赌徒和金融家的 Edward O.Thorp 在他还是一名物理研究生的时候就利用了「间隔学习」,「以便能更久且更努力地工作」[7],还有 Roger Craig 在 2010-2011 年的智力竞赛节目「Jeopardy!」中创造了多项记录,归功于使用 Anki 记忆了许多 >200,000 张关于以前问题的卡片[8];后来的「Jeopardy!」获奖者 Arthur Chu 也使用了间隔重复[9]。医学院的学生 (由于他们在医学院期间需要记住大量的事实材料而成为 SRS 的主要人群) 通常拥有数千张卡片,特别是如果使用预制的牌组 (由于标准化课程和普遍缺乏制作自己卡片的时间,预制牌组更适合于医学)。外语学习者可以很容易地累积到 10-30,000 张卡片;一个 Anki 用户报告了一副超过 76.5 万张自动生成卡片的牌组,里面装满了各种来源(「Youtube 视频、视频游戏、电视节目等」)的日语音频样本。
一图胜千言;假设这里有一个人有条件多次复习一条给定的信息 (假设他很忙碌)。通过观察我们所记内容的保留率可以看到,短期内的突击记忆非常有用,然而,未经锻炼的记忆衰退得非常快,倘若拉长该记忆的间隔,那么记忆效果要好得多:
如果我们观看一段可视化了记忆衰退的视频《随机重复 VS 近期重复 VS 间隔重复》,结果会更加惊人。
1.1 如果你这么棒,你为什么没钱
大多数人认为编程在概念上很好理解,但动手实践就难乎其难。[10]
当然,学生们选择的正是后一种策略(死记硬背)。他们在考试前一晚临时抱佛脚,一个月后就什么都记不起来了。那么为什么要这么做呢?(我自己也不幸置身其中) 为什么间隔重复如此不受欢迎,甚至对于稍有尝试的人也是如此?[11]
因为死记硬背在某种程度上确实有它的功用。但有得必有失:你用现在的强记忆换取以后的弱记忆。(非常弱[12]。)考试通常全是新材料,虽偶尔会有旧问题,所以死记硬背是有回报的!这就是它的可恶之处——总的来说,虽然死记硬背的记忆寿命和质量都不如间隔重复的功效,但死记硬背能立即收效[13]。因此,死记硬背虽说有些短视,但也算是理性的对策。甚至 SRS 软件也承认其功用,并提供一定程度的支持[14]。(但正如人们可能预期的,如果进行连续而渐进的测试,那么所学知识寿命也更长[15];我不知道这是否因为这种测试是一种变相的、偶然间形成的间隔重复系统,还是学生或受试者只是为了应对小风险的考试而学习表现不同。)除了这种短期集中的优势之外,人们还常忽略间隔重复的优势,以及有着认为短期记忆的成效会持续存在的主观「错觉」[16][17](参见:Son & Simon 2012[18], Mulligan & Peterson 2014, Bjork et al 2013, Deslauriers et al 2019);来自 Kornell 2009 的对 GRE 词汇的研究(重点添加):
在整个实验中,对于 90% 的参与者来说,间隔比集中更有效,然而在第一次学习之后,72% 的参与者认为集中比间隔更有效……当他们确实考虑间隔时,他们经常有这样的错觉:「集中学习比间隔学习更有效」,即使事实是相反的(Dunlosky & Nelson, 1994; Kornell & Bjork, 2008a; Simon & Bjork 2001; Zechmeister & Shaughnessy, 1980)。
正如人们所预期的那样,如果测试效应和间隔效应真实存在,那么那些本就自我测试并在考试前用功学习的学生往往会有较高的 GPA[19]。如果我们将问题解释为测试,那么一对一辅导显著优于常规教学,这不会令我们惊讶,而且受辅导学生回答的问题数量高要出几个数量级[20]。
当然,从长远来看,这种短视观点并不是一件好事。知识建立在知识的基础上,不是与学习无关的琐事。Richard Hamming 在《你和你的研究》一书中回忆到:
可以看到,大多数伟大的科学家都有澎湃的干劲。我在贝尔实验室与 John Tukey 共事了十年。他便是干劲很足的人。我加入实验室约三四年后,有一天我发现 John Tukey 其实年龄竟比我小一点。John 是个天才,而我显然不是。我怒气攻心,冲进 Bode 的办公室说:「跟我差不多大的人怎么能像 John Tukey 那样知道这么多?」他靠在椅子上,把双手放在脑后,微微一笑,说道:「Hamming,如果你像他那样努力工作那么多年,你的知识也会多到让你惊讶的。」我羞愧至极,简直是马上溜出了办公室!
Bode 的意思是:「知识和生产力就像复利。」如果两个人的能力大致相同,而其中一个人的工作量比另一个人多 10%,那么前者的产量将是后者的两倍多。知道的越多,学的越多;学的越多,能做的越多;能做的越多,机会越多——这很像复利。我不想给你一个利率,但这是一个非常高的利率。如果两个人拥有完全相同的能力,那么一个日复一日多花一个小时思考的人在一生中的工作效率将会大大提高。我把 Bode 的话放在心上;几年来,我花了更多的时间努力工作,并发现,事实上我可以完成更多的工作。
知识需要积累,而间隔重复搭配上抽认卡很适合辅助积累,即使有数千张卡片和前置概念,所有知识仍然能稳定地复习。
间隔重复关注长远,这或许可以解释为什么显式的间隔重复很不普及:很久才能收获回报,而且这种回报很反直觉,却需要当即付出自律的代价,然而这个代价却很实在。(请参阅双曲贴现。)而雪上加霜的是,确定何时进行下一次复习很困难——最好的时机是你即将忘记知识的时候,但这样就进退两难:如果即将忘记知识,又怎么能记住要复习它呢?你只记得去复习知道的知识,但知道了又不用去复习了![21]
这个悖论的破局之道是让计算机处理所有的计算。我们要感谢赫尔曼·艾宾浩斯细致得令人发指的研究,不过现在我们可以给计算机编程来计算遗忘曲线以及最需要复习的卡片集合[22]。这就是间隔重复软件背后的逻辑:一遍又一遍地问同样的问题,但每次询问之间间隔不断增加。一开始每隔几天问一次,使用者很快就会记得挺清楚。然后间隔扩展成几周,然后是几个月,然后是几年。一旦记忆形成并存储到长期记忆中,只需要偶尔复习一下就很硬朗[23]——我很清楚地记得我四五岁生日时用纸板做过大恐龙,或者用盒子做隧道,尽管我最多就一年回忆一两次。
1.2 文献综述
但是不要轻信我的话——不随他人之言!要用科学说话。当然,如果你真的相信我的话,你可能只想阅读间隔重复的使用方法和各种花式应用,所以我建议你直接跳到 1.3 使用。其他人,我们从头开始:
1.2.1 背景:测试有效果!
「把课文阅读二十遍之后背诵,效果不如把课文阅读十遍,并且时不时尝试背诵,记不住了就翻阅一下。」——The New Organon,Francis Bacon
测试效应是广受承认的心理学现象,表明了单纯测试记忆的行为就会增强记忆(无论是否有反馈)。既然间隔重复的本质就是在特定的日子进行测试,我们便能得出测试比普通复习或者学习有更好的效果,而且不仅适用于记忆随便一个日期。下列是一些有关论文:
- Allen, G.A., Mahler, W.A., & Estes, W.K. (1969). “Effects of recall tests on long-term retention of paired associates”. Journal of Verbal Learning and Verbal Behavior, 8, 463-470
进行一次测试,一天之后的记忆强度相当于学习 5 次;与集中回顾相比,间隔可以提高保留率。 - Karpicke & Roediger (2003). “The Critical Importance of Retrieval for Learning”
学习斯瓦希里语词汇的实验中,学生遵循不同的流程,有的接受测试,有的学习,有的两者都做;学习阶段各组得分相似。研究人员要求学生预测他们能记住的词汇所占比重 (所有小组的预测的平均值是 50%)。一周后,接受测试的学生记住了大约 80% 的词汇,而没有测试的学生记住了大约 35%。一些学生测试或学习的时长比其他学生更久,然而一旦记忆成型了,收益递减便如影随形。学生们报告说,他们很少测试自己,也很少测试已经学过的内容。
总结:同样,与学习相比,测试可以改善记忆。而且,没有学生知道这一点。 - Roediger & Karpicke (2006a). “Test-Enhanced Learning: Taking Memory Tests Improves Long-Term Retention”
学生在读完文章 5 分钟、2 天、1 周后就文章阅读理解接受考查(没有反馈)。5 分钟之后考查,学习材料完胜测试,但其他时刻后就不一样了;然而学生认为,无论何时接受考查,学习都胜过测试一筹。1 周之后,测试成绩为 60%,而学习为 40%。
总结:与学习相比,测试更能改善记忆。所有人(老师&学生)“觉得”恰好相反。 - Karpicke & Roediger (2006a). “Expanding retrieval promotes short-term retention, but equal interval retrieval enhances long-term retention”
一般科学散文理解;摘自 Roediger & Karpicke 2006b:「两天后,初次测试比重复学习的记忆效果更好(68% 比 54%),一周后再观察,测试比重复学习仍有优势(56% 比 42%)。」 - Roediger & Karpicke (2006b). “The Power of Testing Memory: Basic Research and Implications for Educational Practice”
文献综述:有 7 项1941 年之前的研究证明测试可以提高保留率,而在 1941 年之后的研究也有 6 项。另见综述 “Spacing Learning Events Over Time: What the Research Says” & “Using spacing to enhance diverse forms of learning: Review of recent research and implications for instruction”, Carpenter et al 2012。 - Agarwal et al 2008, “Examining the Testing Effect with Open- and Closed-Book Tests”
与 #2 一样,从长远来看,更纯粹的测试形式(也就是开卷测试而非闭卷测试)表现得更好,学生对于哪种测试更有效果上是受蒙蔽的。 - Bangert-Drowns et al 1991. “Effects of frequent classroom testing”
有 35 项研究在学期中展开各式测试。对这些研究进行元分析,发现 29 例发现测试有好处;5 例发现有坏处;1 例结果为无效果。元分析发现,即使只测试一次,也会带来巨大的好处,之后回报就会递减。 - Cook 2006, “Impact of self-assessment questions and learning styles in Web-based learning: a randomized, controlled, crossover trial”;医生(住院医师)带着问题学习的话,最终得分更高。
- Johnson & Kiviniemi 2009, “The Effect of Online Chapter Quizzes on Exam Performance in an Undergraduate Social Psychology Course”(「这项研究考察了基于掌握学习理论的每周强制阅读测验对于提高考试和课程表现的有效程度。能完成阅读测验与更好的考试和课程表现有关。」);另见 McDaniel et al 2012。
- Metsämuuronen 2013, “Effect of Repeated Testing on the Development of Secondary Language Proficiency”
- Meyer & Logan 2013, “Taking the Testing Effect Beyond the College Freshman: Benefits for Lifelong Learning”; 证实测试效应在老年人中与年轻人有相近的效应量
- Larsen & Butler 2013, “Test-enhanced learning”
- Yang et al 2021, “Testing (Quizzing) Boosts Classroom Learning: A Systematic And Meta–Analytic Review”
(可能有人会忍不住反对,称测试只能对某些学习风格有效,也许只对语言型学习风格有效。这种判断尚未得到证实,主要是因为学习风格的实验研究质量不高,而且对于学习风格本身是否存在这一点,现存证据还众说纷纭[24])
1.2.1.1 学科
上述研究经常使用词-释义对或者单词表作为研究材料。测试效应推广到其他领域效果如何?
测试有益学习的材料:
- 外语词汇 (eg. Karpicke & Roediger 2003, Cepeda et al 2009, Fritz et al 2007[25], de la Rouviere 2012)
- GRE 材料 (比如词汇题,Kornell 2009); 关于一般科学话题的文章 (Karpicke & Roediger, 2006a; Pashler et al, 2003)
- 百科问答 (McDaniel & Fisher 1991)
- 小学和中学的课程,如传记材料和科学 (Gates 1917; Spitzer 1939[26] 和 Vlach & Sandhofer 2012[27] 分别研究)
- Agarwal et al (2008): 简答测试对于教科书段落效果拔群
- 历史教科书;一开始使用简答题而不是选择题可以更好提升保留率 (Nungester & Duchastel 1982)
- LaPorte & Voss (1975) 也发现测试效应下保留率比选择题或再认题高
- Duchastel & Nungester, 1981: 在测试 6 个月后,测试在回忆一段历史文本上比学习效果更好
- Duchastel (1981):对于阅读理解历史段落,自由回忆比简答题和选择题有决定性优势
- Glover (1989):通过自由回忆自我检测比再认或填空题效果更好;主题是花朵各部分的名称
- Kang, McDermott, and Roediger (2007):散文文章;一开始进行简答测试,在 3 天后的选择题和简答测试中成绩都很优异
- Leeming (2002): 测试应用于学习 2 门心理学课程:心理学导论 & 记忆/学习主题;“心理学导论上(测试与学习效果为)80% 与 74%;学习和记忆主题上(测试与学习效果为)89%比80%”[28]
这些材料涵盖了相当多的所谓「陈述性」知识。将测试拓展到其他领域则更加困难,测试往往会沦为「频繁得做很多分析,而不做大局分析」,或者「进行很多琐碎练习」,或者所拓展领域中类似的行为。
第三个问题与第二个问题有关。我们提倡通过测试学习,但这种方式是否适合主题复杂的课程呢?例如斯宾诺莎哲学、莎士比亚喜剧或创意写作。当然在这类课程中,我们同意大部分形式的客观测试都是水土不服的。但我们也相信,广义上的测试效应思想仍然适用——学生应该持续思考课程主题内容并接受挑战,而不仅仅参加期中和期末考试(即使考试是写论文)。在一门斯宾诺莎的课程中,老师每周给学生安排阅读材料和引人深思的论文问题。这便是体现迁移恰当理论的每周「测试」(尽管是带回家做的考试)。持续测试要求学生持续投入到一门课程中,而不是天天划水,直到期中考试或期末考试临近才开始学习。[29]
1.2.1.2 缺点
测试确实已知有一些缺陷:
- 对回忆能力的干扰——回忆已测试项目的能力,会削弱回忆未测试的类似项目的能力。
大多数/所有研究都是在实验室环境下进行的,而且干扰并不显著:
总而言之,虽然各种类型的回忆干扰是真实存在的(也相当有趣),但我们不认为回忆干扰能否定测试增强学习的观点。这种干扰最坏也只是在一定程度上削弱测试效应的正面效果。然而测试的正面效果之明显,大多数情况下都能超过相对微小的干扰影响。 - 多项选择测试可能会意外地导致“负面暗示效应”,也就是有一些内容测试者已经知道是错的,但在测试中包含这些内容后,测试者却很容易认为它们是对的。
如果能快速反馈正确答案,负面暗示效应就会减轻很多,甚至被消除(参见Butler & Roediger 2008 “Feedback enhances the positive effects and reduces the negative effects of multiple-choice testing”)。解决方法:不要用选择题;反正选择题的测试能力比自由回忆或者简答都差。
这两个问题似乎都不太严重。
1.2.2 间隔效应(分散练习)
测试的时机至关重要。上文中,我们注意到学完知识之后测试是有些好处,但是同样数量的测试分散到不同时机进行,更能实现间隔效应或者间隔重复。有上百个研究涉及间隔效应:
- Cepeda et al 2006 这篇综述对 184 篇文章共计 317 个实验做了总结;其他综述包括:
- Ruch 1928, “Factors influencing the relative economy of massed and distributed practice in learning”
- Crowder 1976, Principles of learning and memory
- Dempster 1989, “Spacing effects and their implications for theory and practice”
- Delaney et al 2010, “Spacing and testing effects: A deeply critical, lengthy, and at times discursive review of the literature”
- Donovan & Radosevich 1999, “A meta-analytic review of the distribution of practice effect: Now you see it, now you don’t”
- Greene 1992, Human memory: Paradigms and paradoxes
- Janiszewski et al 2003, “A meta-analysis of the spacing effect in verbal learning: Implications for research on advertising repetition and consumer memory”
- Pavlik & Anderson 2003, “An ACT-R model of the spacing effect”
- Balota et al 2006, “Is Expanded Retrieval Practice a Superior Form of Spaced Retrieval? A Critical Review of the Extant Literature”
- Carpenter et al 2012, “Using Spacing to Enhance Diverse Forms of Learning: Review of Recent Research and Implications for Instruction”
他们几乎一致地发现,若最终测试/测量在几天或几年后进行的话,间隔测试优于集中测试[30],尽管其中机制并未知晓[31]。除了前面提到的研究外,我们还有:
- Peterson, L. R., Wampler, R., Kirkpatrick, M., & Saltzman, D. (1963). “Effect of spacing presentations on retention of a paired associate over short intervals”. Journal of Experimental Psychology, 66(2), 206-209
- Glenberg, A. M. (1977). “Influences of retrieval processes on the spacing effect in free recall”. Journal of Experimental Psychology: Human Learning and Memory, 3(3), 282-294
- Balota et al 1989, “Age-related differences in the impact of spacing, lag and retention interval”. Psychology and Aging, 4, 3-9
大量研究文献都在探究「什么样」的间隔安排是最好的,以及如此安排所反映出的记忆性质:是间隔固定不动好,还是间隔逐渐变大好?这对于理解记忆以及建立记忆模型都非常重要,同时也有助于将间隔重复融入课堂(比如 Kelley & Whatson 2013 年研究使用的安排是 10 分钟学习 / 10 分钟休息,将同样材料重复三次,其意图是促使材料进入长期记忆?)但是对于实践来说,这个研究方向不是很有趣:总的来说,很多研究众说纷纭,但给出的安排效率虽有差异,也不算显著。大多数现存材料都模仿 Supermemo, 使用了间隔变大的算法,所以没什么好担心的; Mnemosyne 的开发者 Peter Bienstman 说,尚不清楚更复杂的算法能否有助益[32],Anki 开发者担心重新实现 Supermemo 的专有算法太难也太复杂,却看不到显著成效,同时 SM3+ 算法为了极尽优化可能造成更多错误。所以他们也有同感。
如果有人感兴趣,有 3 项研究发现固定间隔比递增间隔更好:
- Carpenter, S. K., & DeLosh, E. L. (2005). “Application of the testing and spacing effects to name learning”. Applied Cognitive Psychology, 19, 619-636[33]
- Logan, J. M. (2004). Spaced and expanded retrieval effects in younger and older adults. Unpublished doctoral dissertation, Washington University, St. Louis, MO
这篇论文很有趣,因为洛根发现,一天之后测试,使用递增间隔复习的年轻人表现要差得多。 - Karpicke & Roediger, 2006a
撇开固定间隔的问题与递增间隔的问题不谈,有更多通用研究指出间隔学习相对集中学习的好处,见下面的列表:
- Cepeda et al 2006 (大综述,本页中其他地方用到)
- Karpicke & Roediger 2006a
- Rohrer & Taylor 2006. “The effects of over-learning and distributed practice on the retention of mathematics knowledge”. Applied Cognitive Psychology, 20: 1209-1224 (参见 Rohrer & Taylor 2007, Rohrer et al 2005)
- Seabrook et al 2005. “Distributed and Massed Practice: From Laboratory to Classroom”
- Keppel, Geoffrey. “A Reconsideration of the Extinction-Recovery Theory”. Journal of Verbal Learning & Verbal Behavior. 6(4) 1967, 476-486
一周后,集中复习者从 5.9 正确 → 2.1;间隔复习者从 5.5 → 5.0。(请注意,通常的观察是集中学习最初更好,后来变得更差,正确率是最初的一半不到) - Bloom & Schuell 1981, “Effects of massed and distributed practice on the learning and retention of second-language vocabulary”
在两个高中组记住 16 个法语单词四天后,间隔组还记得 15 个,集中组还记得 11 个。 - Rea, Cornelius P; Modigliani, Vito. “The effect of expanded versus massed practice on the retention of multiplication facts and spelling lists”. Human Learning: Journal of Practical Research & Applications. Vol 4(1) Jan-Mar 1985, 11-18[34]
培训后立即进行测试,结果间隔组(70% 正确)比集中组(53% 正确)表现更好。这些结果似乎表明,间隔效应适用于学龄儿童,至少适用于学校通常教授的一些材料。[35]
- Donovan & Radosevich 1999, “A meta-analytic review of the distribution of practice effect: Now you see it, now you don’t”:
根据多诺万和拉多塞维奇对间隔学习研究的元分析,间隔效应的效应量为 d = 0.42. 这意味着接受间隔练习后的平均记忆效果,优于约 67% 集中练习者的记忆效果。这个效应量不容小觑——在教育研究中,即使效应量低到 d = 0.2 都认为是「足够显著」,而高于 d = 1 的效应量则少之又少。[36]
例如,在 Donovan 和 Radosevich (1999) 的一项元分析中,随着任务的概念难度从低(如旋转追视)到平均(例如单词列表回忆)再到高(例如拼图),间隔效应的效应量急剧减少。根据这一发现,对于许多数学任务来说,间隔练习的好处可能会变得微不足道。[37]
(注:旋转追视是用于测试手眼协调和运动技能学习的测试,受试者需要用指示物追踪旋转圆盘上的圆点)
Donovan 的元分析指出,在使用更好方法的研究中,效应量虽然变小,但仍然不容小觑。
- Bahrick, Harry P; Phelphs, Elizabeth. “Retention of Spanish vocabulary over 8 years”. Journal of Experimental Psychology: Learning, Memory, & Cognition. Vol 13(2) April 1987, 344-349; 这篇研究初始训练之后的间隔特别长,很有意思
Harry Bahrick 和 Elizabeth Phelps (1987) 研究了 50 个西班牙语词汇在 8 年之后的保留情况。受试者被分成三组。每个人练习七到八次,间隔几分钟,1 天或 30 天。在每个环节中,受试者都会进行练习,直到他们可以一次性完美回忆出单词列表…8 年后,无延迟组的人能记住 6% 的单词,延迟 1 天组的人能记住 8% ,30 天组的人平均能记住 15%。每个人都参加了选择题测试,其中再次观察到了间隔效应。无延迟组得分为 71%,一天组得分为 80%,30 天组得分为 83%。
…Bahrick 和他的同事们改变了练习的间隔和练习量。练习环节之间有间隔 14 天、28 天或 56 天的,总共进行 13 或 26 次练习。他们测试了受试者在训练后一年、二年、三年和五年的记忆。有一次观察到,当练习环节间隔较长时,在每个练习环节中达到标准所需的时间稍长一些,但同样,这一小投资在几年后产生了回报。测试是在练习后一年、两年、三年还是五年进行的并不重要——56 天组总是记住最多的,28 天组次之,14 天组记忆最少。而且影响是比较大的。如果每 14 天练习一次单词,你需要的练习次数是每 56 天练习一次时的两倍,才能达到同样的表现水平!
- Pashler et al, 2003; “Is Temporal Spacing of Tests Helpful Even When It Inflates Error Rates?”
测试之间的长间隔必然意味着你经常会回答错误;有人认为答错就会削弱学习效果。尽管短期内过多的错误的确会降低准确性,但长间隔的力量足以让他们仍然获胜。 - 间隔重复在患病人群中的研究:
- 让阿尔茨海默病患者进行短期复习的研究;间隔时间以秒和分钟为单位,在物体位置教学或日常任务方面取得了一定成功[38]:
- Camp, C. J. (1989). “Facilitation of new learning in Alzheimer’s disease”. In G. C. Gilmore, P. J. Whitehouse, & M. L. Wykle (Eds.), Memory, aging, and dementia (pp. 212-225)
- Camp, C. J., & McKitrick, L. A. (1992). “Memory interventions in Alzheimer’s-type dementia populations: Methodological and theoretical issues”. In R. L. West & J. D. Sinnott (Eds.), Everyday memory and aging: Current research and methodology (pp. 152-172) -
- 针对创伤性脑损伤患者的研究; Goverover et al 2009, “Application of the spacing effect to improve learning and memory for functional tasks in traumatic brain injury: a pilot study”
- 和多发性硬化症患者的研究; Goverover et al 2009, “A functional application of the spacing effect to improve learning and memory in persons with multiple sclerosis”
- 数学[39]:
- 乘法 (Ria & Modigliani 1985)
- 遍历数列排列 (Rohrer & Taylor 2006)on
- 计算多面体体积 (Rohrer & Taylor 2007)
- 统计 (Smith & Rothkopf 1984)
- 初级微积分 (Revak 1997[40] 但也有一篇相关文章说明对微积分 I 无效) 和代数 (Mayfield & Chase 2002, Patac & Patac 2013; 可能没效果, Sutherland 2013)
- 医学 (Kerfoot & Brotschi 2009, Shaw et al 2012; Kerfoot 2009, 是 Kerfoot et al 2007 两年后的跟进研究。Kerfoot 有其他一些 相关研究; Gyorki et al 2013) ;在手术方面 (Moulton et al 2006, “Teaching Surgical Skills: What Kind of Practice Makes Perfect? A Randomized, Controlled Trial”, 微血管缝合的间隔重复实践;Spruit et al 2014)
- 心理学导论 (Balch 2006, “Encouraging Distributed Study: A Classroom Experiment on the Spacing Effect”[41]. Teaching of Psychology, 33, 249-252)
- 8 年级美国历史 (Carpenter, Pashler, and Cepeda 2009)
- 用自然拼读法学习阅读 (Seabrook et al 2005)
- 音乐 (Stambaugh 2009)
- 生物 (中学生物;Kelly&Whatson 2013)
- 统计 (初步内容;Maas 等人于2015年)
- 记忆网站密码 (Bonneau & Schechter 2014, Blocki et al 2014, Blum & Vempala 2017)
- 可能不是澳大利亚宪法 (Colbran et al 2015 年)
1.2.2.1 间隔效应的通用性
我们已经看到,间隔重复在各种学术领域和媒介上都是有效的。除此之外,间隔效应还在下列领域有效:
- 各种「领域(例如,学习知觉运动任务或者单词表)」[42]比如空间记忆[43]
- 「跨物种 (例如,老鼠,鸽子和人类[或苍蝇或大黄蜂,和海蛞蝓,Carew et al 1972 & Sutton et al 2002])」
- 「跨年龄组[婴儿期[44],儿童期[45],成年期[46],老年期[47]]和具有不同记忆障碍的人」
- 「以及跨保留间隔,从秒[48]到天[49]到月」(我们已经看到以年为单位的研究)
然而,生效的领域是有限的。Cepeda et al 2006:
[Moss 1995,回顾了 120 篇文章]得出的结论是,较长的 ISI 有助于学习言语型信息(例如拼写[50])和运动技能(例如镜画实验);在每种情况下,超过 80% 的研究都显示出分散练习有效果。相比之下,只有三分之一的智力技能(例如,数学计算)研究显示分散练习有效果,一半的研究显示分散练习没有效果。(注:镜画实验是指实验时,被试注视平面镜内的图形。用描绘笔学习画下画板上的图形)
…[Donovan 和 Radosevich (1999)] 低严格性研究中的低复杂性任务(如旋转追视、打字和翻转钉子)效应量最大,并且保留间隔不影响效应量。Donovan 和 Radosevich 只研究了 ISI 和任务领域之间的互相影响。值得注意的是,任务领域降低了分散练习的效果;根据任务领域和间隔的不同,ISI 的增加要么增加了效应量,要么降低了效应量。总体而言,Donovan 和 Radosevich 发现,间隔更长的分散练习在自由回忆、外语和言语辨别等言语型任务中产生的效应量更大,但这些任务也显示出反 U 函数,即非常长的间隔产生的效应量较小。相比之下,打字、体操和音乐表演等技能型任务中,递增间隔的效应量较小。
从体操和音乐表演等技能可以看出,测试效应和间隔重复有一个重要特点:两者只能维持记忆强度或技能水平的现状,而无法令其进一步提升。如果有人开始复习时是有小有水准的业余爱好者,那么复习之后,他仍然只是小有水准的业余爱好者。Ericsson 介绍了「提升」和精进所专所必需的概念:刻意练习[51]。摘自「刻意练习的作用」:
有种观点认为,只要进行足够练习——无论练习组成如何——便能得到上佳表现。这个观点由来已久,也争议颇多。Bryan 和 Harter 在一系列针对摩尔斯电码操作员的经典研究(1897, 1899) 中,注意到技能习得存在平台期,也就是技能练习者很长一段时间内似乎无法进一步提升。然而,长久努力之后,练习者将能重组其技能,跨越平台期……面对继续精进的需求,即使是极富经验的摩尔斯电码操作员,经由刻意练习也能备受鼓舞,大幅提升其表现。对于更一般的领域, Thorndike (1921) 观察到很多成年人即使常常执行一些任务,他们在这些任务上的表现远称不上个人最佳水平。比如,一些成年人写字明明能写得又快又清楚,他们平常却没有这个水准。……对于[优化学习和提高成绩],有一个前提条件广为提及,也就是练习者须有动机执行此项任务……练习者需能当即获知详尽反馈,以及练习结果……缺乏足够反馈,高效学习无从谈起。即便练习者干劲十足,进步也微乎其微,尤其是准确性上……与游戏相比,刻意练习 是高度结构化的,其目标明确,就是提升表现。刻意练习中会制定具体的任务来克服缺点,并会仔细监控表现,来找出进一步提升的线索。我们认为刻意练习需要投入努力,其本质不是令人愉快的。
运动技能
应该指出的是,关于间隔重复多大程度上适用于运动技能,不少综述相互矛盾;Lee & Genovese 1988 认为有好处,而 Adams 1987 和更早的综述相反。区别可能在于,Shea & Morgan 1979 显示了(随机/间隔安排计划有益于)简单的运动任务,而 Wulf & Shea 2002 显示复杂的任务,即受试者已经在他的极限下操作的任务,则没有受益。Stambaugh 2009 提到了一些不同的研究:
情景干扰假说(Shea 和 Morgan 1979,Battig 1966 [技能的习得中的「促进和干扰」])预测阻塞条件将在练习(习得)后立即展现出更好的表现,但随机条件在延迟保留率测试中表现更好。这一假设在实验室运动学习研究中基本一致(如 Lee & Magill 1983, Brady 2004),但在运动技能的应用研究方面不太一致(结果好坏都有,如 Landin & Hebert 1997, Hall et al 1994, Regal 2013)和精细运动技能(Ollis et al 2005, Ste-Marie et al 2004)。
一些支持间隔重复的研究(摘自 Son & Simon 2012):
可能甚至在认知研究和间隔效应的实证工作之前,间隔学习的好处已经在一系列运动学习任务中显现出来,包括迷宫学习(Culler 1912 )、打字(Pyle 1915 )、射箭(Lashley 1915 )和投掷标枪(Murphy 1916 );(见 Ruch 1928 对从间隔学习中获益的运动学习任务进行了更广泛的回顾;也见 Moss 1996 关于运动学习任务的最新综述)。因此,与认知文献一样,运动领域的分散练习研究早已确立(见 Adams 1987 综述;Schmidt & Lee 2005 综述),大多数兴趣都集中在改变运动技能的学习试验的间隔对学习和练习技能的保留率的影响。Lee & Genovese 1988 对有关分散练习的研究进行了综述和元分析,他们得出的结论是,大量练习往往会抑制即时表现和学习,而学习是在练习环节之后的某个时间段内被评估的。他们的主要发现是,和认知文献一样,间隔练习后的学习比集中练习后的学习相对更强(但这里也有些批评:见 Ammons 1988 ;Christina & Shea 1988 ;Newell et al. 1988)......最广泛引用的例子可能是 Baddeley & Longman 1978 关于如何最佳地教邮递员打字的研究。他们让学习者每天练习一次或两次,每次练习的时间长度为 1 或 2 小时。研究的主要结果是,当学习者处于最分散的练习状态时,他们用最少的累计练习时间就能达到打字的表现标准。这一发现为间隔练习对加强学习的好处提供了明确的证据。然而,正如人们所指出的(Newell et al. 1988;Lee & Wishart 2005),还需要考虑的是,从开始练习到达到标准的总时间(天数)在最分散的条件下要长很多....同样的基本结果在此后的几十年里被反复证明(见 Magill & Hall 1990 综述;Lee & Simon 2004),并且在各种各样的运动任务中,包括不同的羽毛球发球(Goode & Magill 1986年),步枪射击(Boyce & Del Rey 1990),预先建立的技能,棒球击球(Hall et al. 1994),学习不同的逻辑门配置(Carlson et al. 1989; Carlson & Yaure 1990),自动取款机的新用户学习(Jamieson & Rogers 2000),以及解决课堂作业中可能出现的数学问题(Rohrer & Taylor 2007; Le Blanc & Simon 2008; Taylor & Rohrer 2010)。
- Culler, E. A. (1912). “The effect of distribution of practice upon learning”. Journal of Philosophical Psychology, 9, 580-583
- Pyle, W. H. (1915). “Concentrated versus distributed practice”
- Lashley 1915, “The acquisition of skill in archery”
- Murphy, H. H. (1916). “Distributions of practice periods in learning”. Journal of Educational Psychology, 7, 150-162
- Adams, J. A. (1987). “Historical review and appraisal of research on the learning, retention, and transfer of human motor skills”
- Schmidt, R. A., & Lee, T. D. (2005). Motor control and learning: A behavioral emphasis (4th ed.). Urbana-Champaign: Human Kinetics
- Lee, T. D., & Genovese, E. D. (1988). “Distribution of practice in motor skill acquisition: Learning and performance effects reconsidered”. Research Quarterly for Exercise and Sport, 59, 277-287
- Ammons, R. B. (1988). “Distribution of practice in motor skill acquisition: A few questions and comments”. Research Quarterly for Exercise and Sport, 59, 288-290
- Christina, R. W., & Shea, J. B. (1988). “The limitations of generalization based on restricted information”. Research Quarterly for Exercise and Sport, 59, 291-297
- Newell, K. M., Antoniou, A., & Carlton, L. G. (1988). “Massed and distributed practice effects: Phenomena in search of a theory?” Research Quarterly for Exercise and Sport, 59, 308-313
- Lee, T. D., & Wishart, L. R. (2005). “Motor learning conundrums (and possible solutions)”
- Lee, T. D., & Simon, D. A. (2004). “Contextual interference”
- Goode, S., & Magill, R. A. (1986). “Contextual interference effects in learning three badminton serves”. Research Quarterly for Exercise and Sport, 57, 308-314
- Boyce, B. A., & Del Rey, P. (1990). “Designing applied research in a naturalistic setting using a contextual interference paradigm”. Journal of Human Movement Studies, 18, 189-200
- Hall et al 1994, “Contextual interference effects with skilled baseball players”
- Carlson, R. A., & Yaure, R. G. (1990). “Practice schedules and the use of component skills in problem solving”
- Carlson, R. A., Sullivan, M. A., & Schneider, W. (1989). “Practice and working memory effects in building procedural skill”
- Jamieson, B. A., & Rogers, W. A. (2000). “Age-related effects of blocked and random practice schedules on learning a new technology”
- Le Blanc, K. & Simon, D. A. (2008). “Mixed practice enhances retention and JOL accuracy for mathematical skills”. Poster presented at the 2008 annual meeting of the Psychonomic Society, Chicago, IL
- Wymbs et al 2016, “Motor Skills Are Strengthened through Reconsolidation”
- Dayan & Cohen 2011, “Neuroplasticity subserving motor skill learning”
- Landin et al 1993, “The Effects of Variable Practice on the Performance of a Basketball Skill”
在这一点上,有趣的是注意到交错可能对有心理成分的任务也有帮助:根据 Hatala et al 2003,Helsdingen et al 2011,Huang et al 2013,XBOX光环:Reach视频游戏玩家在技能比赛中的进步率从分布中很好地预测了:每周玩 4-8 场比赛的玩家,在每场比赛的技能进步,高于玩更多(分散)的玩家 ;但每周的进步速度低于打更多(集中)的比赛的玩家 。(另见 Stafford & Haasnoot 2016.)
摘要
另一个可能的反对意见[52]是,间隔重复从本质上阻碍了各种抽象学习和思考,因为相关的材料没有放在一起回顾——从而能比较、推理——而是分散到几天或几个月的间隔。Ernst A.Rothkopf 说:「间隔是回忆的朋友,却是归纳的敌人」(Kornell & Bjork, 2008, p. 585)。根据一些早期的研究[53],这似乎是合理的,但我知道的最近的 4 个研究都直接检验了这个问题,这些研究都发现间隔重复有助于抽象和一般回忆:
- Kornell & Bjork 2008a, “Learning concepts and categories: Is spacing the ‘enemy of induction’?”Psychological Science, 19, 585-592
- Vlach, H. A., Sandhofer, C. M., & Kornell, N. (2008). “The spacing effect in children’s memory and category induction”. Cognition, 109, 163-167
- Kenney 2009. “The Spacing Effect in Inductive Learning”
- Kornell, N., Castel, A. D., Eich, T. S., & Bjork, R. A. (2010). “Spacing as the friend of both memory and induction in younger and older adults”. Psychology and Aging, 25, 498-503
- Zulkiply et al 2011
- Vlach & Sandhofer 2012, “Distributing Learning Over Time: The Spacing Effect in Children’s Acquisition and Generalization of Science Concepts”, Child Development
- Zulkiply 2012, “The spacing effect in inductive learning”; 其中包括:
- Kornell & Bjork 2008 研究的复现
- Zulkiply et al 2011
- Zulkiply & Burt 2012, “The exemplar interleaving effect in inductive learning: Moderation by the difficulty of category discriminations”
- 目前在同行评议中不出名的论文
- McDanie et al 2013, “Effects of Spaced versus Massed Training in Function Learning”
- Verkoeijen & Bouwmeester 2014, “Is spacing really the ‘friend of induction’?”
- Rohrer et al 2014: 1, 2; Rorher et al 2019: “A randomized controlled trial of interleaved mathematics practice”
- Vlach et al 2014, “Equal spacing and expanding schedules in children’s categorization and generalization”
- Gluckman et al, “Spacing Simultaneously Promotes Multiple Forms of Learning in Children’s Science Curriculum”
1.2.3 综述摘要
总结要旨就是:
- 测试是有效的,其负面因素也可以忽略
- 递增间隔大致与(长)固定间隔效用上基本相同,甚至更好,但递增更省事,而且是默认设置
- 测试(以及间隔)对于智力性、偏重使用事实与语言的领域非常有效,但在许多低级领域可能仍然有效
- 这项研究偏好那些强制用户尽可能多地调用记忆的问题,现将这些问题按偏好程度降序排列如下:
- 自由回忆
- 简短回答
- 选择题
- 填空题
- 再认
- 研究文献很全面了,大多数问题都已经得到了回答——相信你能找到。
- 间隔重复最常见的错误是
- 编写糟糕的问题和答案
- 认为间隔重复有助于学习新知,而非维护保持已学内容[54], (很难从卡片学知识,但如果你已经学到知识了,那么设计抽认卡来测试弱点就容易多了)
1.3 使用
当然不一定就用 SuperMemo;免费的替代方案有很多。我个人喜欢 Mnemosyne (主页)因为它是自由软件,而且有 Ubuntu Linux 的版本,使用简便,有免费的移动端应用,开发已久,非常可靠(我从 2008 年就开始使用它了)。但 SRS 软件 Anki 也很受欢迎,它的优势在于功能更丰富、社区更大、更活跃(可能对东亚语言材料支持更好,移动端应用质量更高,不过移动端是专有软件)。
有了软件,那要用它做什么呢?事实上,这个问题出乎意料地难以回答。这就像「空白页面的暴政」(或空白维基);我既然手握这股力量,这力量像机械魔像一样永不遗忘,又能随我心意让我记住一切——那我要记住什么呢?
1.3.1 添加多少卡片
虽说一心坚持以待功效显现已属不易,但难关还是在于决定什么知识足够有价值,需要制卡。做了一张卡片之后,在 3 年的时间里,复习这张卡片大约总共需要「30~40 秒」。理论上估计长期的复习耗时则有些繁杂。考虑一张问答卡片,每日卡片所需时间的公式为 Time = 1⁄500 × nthYear−1.5 + 1⁄30000。到了第 20 年,每天花费的时间就是 t = 1⁄500 × 20−1.5 + 1⁄3000 分钟,或者 3.557e-4
分钟。这是每天平均花费的时间,所以要想计算年均时间就将其乘以 365。假设我们想知道一张卡片在 20 年内需要多少复习时间。每日卡片所需时间每年都会变(记住,复习实践的图线类似指数衰减),所以对于每一年都要运算一次公式,之后求和;用 Haskell 语言写就是:
sum $ map (\year -> ((1/500 * year**(-(1.5))) + 1/30000) * 365.25) [1..20]
# 1.8291
总共是 1.8 分钟。(看起来数很小,但用户第一年花在复习上的时间就很少,而且用户复习时间下降得很快[55])比如根据一位 Anki 用户 muflax 的统计数据,他的平均每张卡片复习时间为 71 秒。但假设 Piotr Wozniak 估计得太乐观了,或者我们不善于编写抽认卡,所以干脆把这个数字翻倍为 5 分钟。这是个关键的经验法则,可以用于决定什么知识要学,什么知识可以忘:如果纵观你的一生,某个知识点会让你花超过 5 分钟去查询,或者不知道这个知识点会让你损失 5 分钟,那么用间隔重复来记忆它就是值得的。5 分钟就是琐碎知识和有用知识的分界线。[56](也许有几千张抽认卡满足这个 5 分钟规则。没关系。间隔重复能处理成千上万张卡片。参见下一章节。)
在较小程度上,可能有人好奇,着急的时候,应该间隔学习和集中学习一起用吗?目标考试或者截止日期多近的时候就不能用间隔重复了?这很难比较,因为要找到这个临界点,需要详细的指标进行比较,但对于集中重复,记忆后有 50% 机会记住所记忆的知识的平均时间似乎是 3 至 5 天。[57],因为在这段时间里会有 2 到 3 次重复,想必一个人在回忆一个知识时会比 50% 做得更好。5 分钟和 5 天似乎是一条很好记住的经验法则:「如果你在 5 天内就需要知识,或者知识价值低于 5 分钟,就不要使用间隔重复。」
1.3.1.1 超负荷
间隔重复新手常常会添加太多内容——比如很琐碎的,或者他们完全不关注的内容。但他们很快就会遇到博尔赫斯之作《博闻强记的富内斯》中的诅咒了。如果不是真心想学习软件中的材料,他们很快就会停止每天复习——因此复习会越积越多,更加令人沮丧,所以他们就干脆放弃。起码通过锻炼改善身体健康时,没有什么数字会精确而糟心地说明你落后了多少,而且从这项技术中似乎看不到收益——看起来就像无聊的抽认卡复习。
1.3.2 添加什么
Mnemosyne 的经典用法是记忆一些学术知识,比如地理、元素周期表、外语词汇、圣经或古兰经中的韵文、或者是浩瀚无边的医学知识。但我发现,除此之外,Mnemosyne 也很适合记忆每日一词[58]和维基词典中的词,值得记忆的名言[59],生日等个人信息(或者车牌号,我以前老是记不住)之类。这些用法都很平常,但对我来说很有价值。卡片丰富多样,我每天复习时也饶有趣味。我的 Mnemosyne 里有各式各样的问题——我一会判断一段 Haskell 代码语法是否正确,一会拼读韩国谚文,然后听答案录音,一会在地图上试图找出乌克兰,一会欣赏 A.E. Housman 的某篇诗,之后又读 LessWrong 名言帖子中的名言,如此种种。其他人的用途又有百般不同;有用来是记忆学生的名字和脸的(三个例子 1 2 3),简单而实用,令我印象深刻,当然学习音符的用法也不错。
1,3,3 工作量
平均而言,当我学习新主题时,我每天会增加 3-20 个问题。结合我个人的记忆水平,我通常每天复习大约 90 或 100 张卡片(卡片总数超过 18,300)。复习只需要不到 20 分钟,还可以接受。(我预计实际上复习时间会更长一些,因为刚一开始学习新话题时,我还在发展卡片格式化方针,而且我也没有完备的分类系统,当然现在看我已经设计好系统了——所以我时不时就要停下来编辑卡片分类)
如果我最近没学什么新东西,复习数量会按指数方程下降,所以每日复习数量会缓缓减少。比如在 2011 年 3 月,我没学什么东西,所以从 2011-03-24 到 2011-03-26 这段时间,每日安排给我的复习数量为 73, 83, 74; 之后,复习数大约就下探到 60 多,然后再过一两周,大概下降到 50 多,这样一直到复习数变动平稳,抵达最低值,每年慢慢缩减。(我不知道这个最低是多少,因为我不添加新卡片的时间都不长)。到了 2012 年 2 月,每日复习数量是 40 多张,有时候是 50 多张,但总体上复习量还在缩减。复习量下降是真实可感的,甚至可以与原始的遗忘曲线做类比,只要让 Mnemosyne 2.0 用明年每天复习的卡片数量作图即可,即直到 2013 年 2 月(假设不添加新卡片,每天都复习等):
每天预测的卡片数量变化很大,但明显在减少
如果 Mnemosyne 不使用间隔重复,想要不落下这 18,300 张抽认卡的进度,非常困难。但 Mnemosyne 使用了间隔重复,跟上进度就简单多了。
18.3k 的卡片量也不至于大跌眼镜。许多用户都有一些牌组,其卡片数都在六千到七千左右,Mnemosyne 开发者 Peter Bienstman 的卡片超过八千五百张,Patrick Kenny 超过两万七千张,Hugh Chen 有个牌组有超过七万三千张卡片,在 #anki IRC 频道中,有人告诉我一个用户的牌组包含超过 20 万张卡片,以至于触发了 bug。 20 万张可能有点多,但对于正常人来说,比这少一些的卡片也是有可能的——将 SRS 牌组与一些记忆壮举比较很有趣,如记忆《失乐园》,或者记住约 80000 字的《古兰经》穆斯林 ‘hafiz’ ,或者更严格的 ’Hafid‘,背诵《古兰经》和 100,000 条圣训的人。其他形式的记忆则更为强大。[60](我怀疑间隔重复在少数有充分证据证明的「超忆症」案例中涉及到了,Jill Price:阅读 《连线》,她对于未加准备的内容的记忆力与常人无异,同样容易遗忘,并没有可观测的解剖学差异。她的超忆症仅限于记忆「她的个人历史和某些类别,如电视和飞机失事」;此外,她是一个有强迫症特征的收集狂,记录了超过 5 万页的详细日记,这可能归咎于童年创伤,以及她将日常事件与过去事件不自主地关联起来的倾向。Marcus 说,其他超忆症的例子与 Price 相似。)
1.3.4 何时复习
应该在什么时候复习呢?早上?晚上?随便什么时候?证实间隔效应存在的研究没有控制复习时机这个变量,所以从某种意义上说,答:复习时机无关紧要——如果什么时候复习确实重要,那么研究中受试者复习的时机不同,间隔效应的效果也应该有显著差异。
所以什么时候方便就什么时候复习。这种便捷性让人更容易坚持,而锲而不舍比任何短期的提升远胜百倍。
要是对这个答案不满意,那么一般来说,复习应该在睡前进行。这与记忆巩固有关,已知睡眠对记忆转换成长期记忆有重要影响,而且睡眠对于睡前一段时间学习的材料强化其记忆,并且能提升创造力:有实验表明,如果老鼠的睡眠遭到打断,即使总体睡眠时间或睡眠质量保持一定,老鼠的记忆形成也受到阻碍 [61]。所以睡前复习值得推荐。(其他精神活动若是在睡前进行也有所提升;比如说,dual n-back)。 睡眠改善记忆的的一种可能机制,是睡前复习提升了未来需要复习或者测试的期望,因而睡眠中就会促进记忆巩固;由此观之,如果复习后立即睡觉,期望会大于选择早餐时复习,之后一天经历了许多事情,都忘了复习过卡片这回事的情形。(参见 Hartwig & Dunlosky 2012 对于学习时机和 GPA 的关系的研究)神经元增长也可能有关;来自 Stahl 2010 :
我们对正常人类记忆形成的神经生物学取得了新进展,表明学习不是单一的事件,而是一个过程,随着时间慢慢推进。[16],[17],[18],[Squire 2003 Fundamental Neuroscience],[20] 因此,随着时间的推移重复学习的学习策略能够提高学生的记忆力就不足为奇了。[20],[21],[22],[23],[24],[25],[26]
…每天都有数以千计的新细胞在这个区域产生,尽管其中许多细胞在产生后的几周内就会死亡。[31]有证据表明齿状回神经元的存活率在动物学习时有所加强。学习效果好的动物比学习效果差的动物保有更多的齿状回神经元。此外,在测试 2 周后,动物在一段时间内以离散的间隔时间进行训练,记忆效果优于将同样信息一次性回顾,或者叫「集中训练」。目前尚未确定具体上何种机制将神经元存活与学习联系起来。一种理论认为,优先存活的海马神经元是那些在学习过程中以某种方式被激活的神经元。16-20[62] 在一段时间内分散学习或能更有效地促进神经元存活,因为由此一来,改变基因表达和蛋白质合成的时间加长了,而这些过程能够提升参与学习过程的神经元的寿命。
…编码阶段是在警觉的清醒状态下展开的,而为了记忆由编码阶段转移到巩固阶段,必须减小此时对记忆形成的干扰。[17],[18] 适合这种转移的一种时段是睡眠期间,特别是非快速眼动睡眠期间,此时海马体可以与其他大脑区域交流而不受新经验的干扰。[32],[33],[34] 也许这可以解释为什么在一夜休息后会做一些决定更好,也为什么睡眠不足的情况下通宵学习,可能让你在一个小时后通过考试,但一天后却记不住材料。
1.3.4.1 前景:抽认卡拓展
现在暂且抽身片刻。我们所有大大小小的抽认卡,究竟在帮我们干什么?为什么要为「anent」这个单词以及许许多多其他单词制作抽认卡对呢?我只把词查一下也行啊。
但相比于把知识熟记在心,临时查询知识更耗时。(先忽略之前讨论的 5 分钟规则)把这件事放在计算机科学的情景中抽象地考虑便会发现,记忆还是查询的问题,涉及算法和优化领域中的经典概念——时空权衡。我们所权衡的是查找时间和有限的脑容量。
考虑一下已经给出的那种事实数据作为例子——我们可能在哪天需要知道檀香山或奥斯汀的年平均降雨量,但要记住所有首都的年平均降雨量则需要太多空间。英语单词有数百万个,但实际上超过 10 万个就太多了。更令人惊讶的是程序性知识。计算机中时空权衡的一种极端形式是用预先计算的常数代替计算。取一个数学函数,并为每个可能的输入计算它的输出。这样的输入到输出的查找表通常都非常大。想想看,对于介于 1 和 10 亿之间的所有可能的整数乘法,这样的表中会有多少个条目。但有时查找表的规模非常小(如二进制布尔函数),或者比较小(如三角函数表),或者大但还能用上(彩虹表通常从 GB 开始,很容易达到 TB)。
给定无限大的查找表,查表便可以「完全」取代加法或乘法的技能。无需计算。此时时空权衡达到了空间一侧的极端。(为达到时间一侧的极端,只要把乘法或加法定义为不知道任何计算细节的缓慢计算,如乘法表——类似于每次想要计算 2+2 时,必须掰 4 根手指。)
假设我们是想学乘法的小孩。乘法不是一条具体的原子事实,所以 SRS 和 Mnemosyne 就派不上用场了,这么说对吗?其实,从空间与时间的取舍来看,我们可以解构乘法的步骤性,而将其部分分解成原子事实,我们很容易写出脚本或者宏,以来生成随机卡片(比如说 500 张),要求计算 AB 乘以 XY 的值,并将其导入 Mnemosyne。[63]
不过,你想要做什么?是更善于计算两数相乘(两个数根据需要生成),还是记住 500 个不同的乘法问题(记忆化)?根据我自己的经验,若有多张卡片仅有微小差异,大脑很快就放弃死记硬背,而对于每张卡片单独解决问题——此时这也正是我们想要练习的。恭喜;你实现了不可能之事。
从软件工程的角度看,修改或改进卡片的需求总是会有的,而 500 段用于练习乘法的纯文本卡片颇有些难更新。所以「动态卡片」的概念就横空出世了。要在 Mnemosyne 中实现,可能是增加新的 HTML 标记,比如<eval src="">
,让 Mnemosyne 把 src 参数输入 Python 解释器,并等待解释器将问题文本和答案文本包在元组里返回。之后像普通卡片一样展示问题文本,待用户思考一番,并查看答案,给作答评分。Anki 中则支持使用 Javascript, 只要在 HTML 中加入 <script>
标签即可(目前只能在卡片模板直接嵌入,但也许能默认导入一些 Javascript 库),这样便能实现语法高亮,从而随心所欲地创作动态卡。
因此,对于乘法,动态卡将生成 2 个随机整数,输出类似于 x * y = ?
的问题,然后输出结果作为答案。每隔一段时间,你就会遇到新的乘法问题,随着你越来越擅长乘法计算,乘法问题出现得越少——这也是应当的。另一个数学方面的想法是生成公式或程序的多个变体(其中一个选项正确,其他选项则有隐秘的错误)(译者注:即多选);我对我的编程抽认卡是手动实现了这一点的(特别在我做练习时出错的情况,这个错误意味着有个细节需要我做几张抽认卡),但生成变体完全可以自动化。kpreid 描述了他的一个工具:
我已经编写了一个程序(是网页的形式),这个程序会生成「破损公式」,属于特化的动态卡。程序中有公式的生成器以及破损公式,运行时每次展示一些同类公式(比如∫ 2x dx = x^2 + C),但其中一个公式是破损的(比如∫ 2x dx = 2x^2 + C)。
此方法适用于可以生成随机问题或拥有大量样例的问题。可汗学院显然实现了类似动态卡的功能,将大量(算法生成的?)问题编入课程的小模块,并跟踪技能的保留情况,以便决定何时对该模块进行进一步复习。比如,你可能正在学习围棋,对学习死活棋很感兴趣。这些都是可以由计算机围棋程序生成的,也可以从像 GoProblems.com 这样的地方获取。对于大量范式,围棋是旋转不变的——无论棋盘朝向如何,好的一着棋都是一样的,由于棋盘没有规定方向(就像国际象棋一样),所以好棋手应该做到无论棋盘如何白发,他都一样擅长——所以每个具体的例子都可以用另外三种方式反映出来。或者可以编写动态卡来测试「阅读」棋盘的能力,只要有像 GNU Go 这样的围棋程序说,最好的一步棋没有因为增加的噪音而改变,动态卡就会拿出每个示例棋盘/问题,并添加一些随机的棋子。
这样学习收获颇丰。编程语言可以这样学习——学习 Haskell 的人可以对 Prelude 模块或 Haskell 教科书中的所有函数,使用 QuickCheck 为这些函数生成随机参数,并将该函数及其参数输入 GHC 解释器 ghci
,看看结果是什么。围棋以外的其他游戏,如国际象棋,可能会奏效(一个现实中的例子是 Chess Tempo & LiStudy,还有查看 Dan Schmidt 的例子;或 Smash Brothers)。相当多的数学知识。如果动态卡可以访问互联网,它可以从RSS 源或只是一个网站拉下新的问题;此功能在外语学习环境中非常有用,每天都会带来一个新的句子要翻译或另一个练习。
可以借助 NLP 软件来编写动态抽认卡,这些卡能测试各种知识:如果有人混淆了动词,便在程序中输入制卡模板,如 “$PRONOUN $VERB $PARTICLE $OBJECT % {right: caresse, wrong: caresses}” ,这个模板会产生诸如 “Je Caresses le chat” 或 “Tu caresse le chat” 之类的抽认卡,测试时判断变位是否正确即可。(其中卡片的动态性有助于避免记住了特定的句子而不是变位)实现通用性极强的动态卡可能会很困难,但像模板这样的简单方法或许够用了。Jack Kinsella:
我希望有动态的 SRS 牌组可供学习语言(或其他学科)。这种牌组会统计用户复习了多少句应用了特定语法规则的句子,或者某个词汇的形式,例如词汇的单数/复数/第三人称变化/与格形式。动态 SRS 牌组会在每次复习时给用户呈现新鲜例句,避免用户记住特定答案,而促使用户应用语法规则,真正重温这个过程。此外,这些牌组能带来新意,用户也不致厌倦;变换例句中不紧要的词汇,牌组还可以提供潜移默化的词汇学习机会。这样的系统具有多层次的复习轮换,不仅可以防止过拟合学习,还可以增加每分钟学习的知识总量,这样的效率值得我投入其中。
即使这些东西看起来像是「技能」而不是「数据」!
2 流行度
截至 2011-05-02:
Metric | Mnemosyne | Mnemododo | Anki | iSRS | AnyMemo |
---|---|---|---|---|---|
首页 Alexa 排名 | 383k | 27.5m | 112k | 1,766k | |
ML/论坛成员 | 461 | 4129/215 | 129 | ||
Ubuntu 下载量 | 7k | 9k | |||
Debian 安装量 | 164 | 364 | |||
Arch 投票 | 85 | 96 | |||
iPhone 评分 | 未发布 | 193 | 69 | ||
安卓评分 | 20 | 703 | 836 | ||
安卓安装量 | 100-500 | 10k-50k | 50k-100k |
SuperMemo 不适用这些评分,但在软件发布的 20 年里,SuperMemo 已经售出了数十万份:
Biedalak 是 SuperMemo World 的 CEO, 该公司销售并授权沃兹尼亚克的发明。现在,SuperMemo World 只雇佣了 25 名员工。风险投资并没有青睐,公司也没有搬到加州。2006 年,SuperMemo 的销量约为 50,000 份,多数售价不到 41 美元(共计 302006 美元)。盗版估计有更多。[66]
似乎可以放心地估计,Anki、Mnemosyne、iSRS 和其他 SRS 应用程序的市场份额加起来不到 5 万名用户(考虑到多次安装的用户、安装并放弃它的用户等可能有一些出入)。很少用户从 SuperMemo 迁移到那些新程序上,所以简单地将两个五万相加,便能合理地得出结论,SRS 的全球用户量大约在 10 万左右(但可能在 10 万以下)。
3 我该何去何从?
无所归依,说真的。Mnemosyne/SR 等软件只是我最喜欢的工具之一:它基于科学发现的著名效应[67],并优雅地利用这个效应[68],而且很有用处。SR 软件践行了启蒙运动的理想,即以理性改善人性,克服人类缺陷;SR 的思想具有数学上的严谨性,因而极富诱惑力[69]。环视当下,「自我改善」共日新月异受人嘲弄,阴郁消沉纷引常人拥趸,日常生活之中,仍有此例,以证仍有拾级而上之人,实在可喜。此例比起爱迪生反反复复研发灯泡,尚显新奇有趣。
4 另见…
在使用 Mnemosyne 的过程中,我编写了许多脚本来生成有规律的卡片。
mnemo.hs
输入任何用换行符分隔的文本(比如诗),并生成所有可能的挖空;即,一首诗有 ABC 三句,于是生成 3 个问题:BC/ABC,A_C/ABC,AB/ABCmnemo2.hs
和上面原理大体相同,但限制更多,主要针对较长文本,这种文本用mnemo.hs
处理后,由于排列组合会生成太多问题;mnemo2.hs
会生成一小部分问题:对于 ABCD,生成 CD/ABCD、AD/ABCD 和 AB__/ABCD (把 2 行挖空,这样循环往复直到文本列表末尾)。mnemo3.hs
适用于生成针对日期或名称的问题。输入「巴拉克·奥巴马 %47% 岁」 ,提出问题:「巴拉克·奥巴马 7/47岁」,「巴拉克·奥巴马 4/47 岁」等等。mnemo4.hs
适用于长列表。如果你想记住美国总统的名单,自然会写出这样问题:「谁是第三任总统?/托马斯·杰斐逊」,「托马斯·杰斐逊是第__任总统。/3」,「约翰·亚当斯之后是谁?/托马斯·杰斐逊」,「詹姆斯·麦迪逊之前是谁?/托马斯·杰斐逊」。
注意,如果对每个总统都这样生成卡片,也就是有卡片正反两个角度提问总统在列表中的位置(总统 -> 位置,位置 -> 总统),也有卡片问之前的总统,之后的总统,注定会有重复的信息。mnemo4.hs
拿到列表后,是自动生成卡片的。为了更加通用,措辞会有些奇怪,但是比全部手打要强多了!(源代码的注释里有样例输出)
现在读者可能会很好奇我的 Mnemosyne 数据库是什么样子的。我经常使用 Mnemosyne,截至 2020-02-02,我的牌组中有 16,149 张(活跃)卡片。好奇的读者可以在 gwern.cards
(52M; Mnemosyne 2.x 格式) 上找到我的卡片和媒体。
多年来,Mnemosyne 项目一直在收集用户提交的间隔重复统计数据。截至 2014-01-27 的完整数据集可供任何想要分析它的人下载。
5 外部链接
- Michael Nielsen: “Augmenting Long-term Memory”; “Using spaced repetition systems to see through a piece of mathematics”; “Quantum computing for the very curious”; “How can we develop transformative tools for thought?”
- “Teaching linear algebra” (with spaced repetition), by Ben Tilly
- Manual flashcards for his 2nd grader
- “A Year of Spaced Repetition Software in the Classroom”; two years; seven year followup; cf “Easy Application of Spaced Practice in the Classroom”
- AJATT table of contents -(使用 SRS 学习日语)
- 用于编程的 SRS:
- “SuperMemo as a new tool increasing the productivity of a programmer. A case study: programming in Object Windows”
- “Janki Method: Using spaced repetition systems to learn and retain technical knowledge” (Reddit discussion); SRS problems & solutions
- “Memorizing a programming language using spaced repetition software” (Derek Sivers; Hacker News)
- learning text editor shortcuts
- “Learning Go with flashcards and spaced repetition”
- “Chasing 10X: Leveraging A Poor Memory In Engineering”; “Everything I Know: Strategies, Tips, and Tricks for Anki”
- “Remembering R—Using Spaced Repetition to finally write code fluently”
- “Anki as Learning Superpower: Computer Science Edition”
- “QS Primer: Spaced Repetition and Learning” -(talks on applications of spaced repetition)
- 与课程相比判断其价值:
- 支持课程: “Why Forgetting Can Be Good”, by Scott H. Young
- 反对课程: “Spaced repetition in natural and artificial learning”, Ryan Muller
- 我自己的观察是,设计优良的课程可以有效地实现间隔重复,但即使课程能实现这点(大多数都没有),如果它没有计算机化,这样的课程无法适应用户个人情况。
- “Ditch the 10,000 hour rule! Why Malcolm Gladwell’s famous advice falls short; Contrary to what the bestselling author would tell you, obsessive practice isn’t the key to success. Here’s why”
- “How to Memorize the Quran and Never Forget it”
- Bash 脚本 可用于生成单词抽认卡(能处理多个网上词典,能添加多条例句;图片和音频也可添加)
- 词汇选择:
- “Programmed Vocabulary Learning as a Traveling Salesman Problem”
- “Teaching New Testament Greek”
- graded-reader: “A New Kind of Graded Reader” (video talk)
- 邮件列表
- 程序 (我尝试用 Haskell 写过,挺费劲)
- “Diff revision: diff-based revision of text notes, using spaced repetition”
- Hacker News discussion: 1, 2, 3
- “A vote against spaced repetition”; “How Flashcards Fail: Confessions of a Tired Memory Guy”
- “Learning Ancient Egyptian in an Hour Per Week with Beeminder”
- “Anki, 10000 Cards Later: How my Anki usage has evolved”
- Duolingouses spaced repetition
- “Everything You Thought You Knew About Learning Is Wrong”
- SeRiouS: “Spaced Repetition Technology for Legal Education”, “SeRiouS: an LPTI-supported Project to Improve Students’ Learning and Bar Performance”, Gabe Teninbaum (video presentation)
- “The role of digital flashcards in legal education: theory and potential”, Colbran et al 2014
- “How I Rewired My Brain to Become Fluent in Math” (HN)
- [“Why We Should Memorize Poetry]”
- “Studying for the Test by Taking It”
- “Making Summer Count: How Summer Programs Can Boost Children’s Learning”, McCombs et al 2011 (RAND MG1120)
- Learning Medicine: An Evidence-Based Guide
- “Factors that Influence Skill Decay And Retention: a Quantitative Review and Analysis”, Arthur et al 1998
- “On The Forgetting Of College Academics: At ‘Ebbinghaus speed’?”, Subirana et al 2017
- “How I use Anki to learn mathematics”
- “Total recall: the people who never forget; An extremely rare condition may transform our understanding of memory” (obsessive recording & reviewing demonstrates you can recall much of your life if you live nothing worth recalling); “The Mystery of S., the Man with an Impossible Memory: The neuropsychologist Alexander Luria’s case study of Solomon Shereshevsky helped spark a myth about a man who could not forget. But the truth is more complicated”
- Anki Essentials, Vermeer
- “No. 126: Four Years of Spaced Repetition” (Gene Dan, actuarial studies)
- “One Year Anki Update” (biology grad school)
- “How To Remember Anything Forever-ish”: an interactive comic (Nicky Case)
- “The Overfitted Brain: Dreams evolved to assist generalization”, Hoel 2020
- “Relearn Faster and Retain Longer: Along With Practice, Sleep Makes Perfect”, Mazza et al 2016
- “Replication and Analysis of Ebbinghaus’ Forgetting Curve”, Murre & Dros 2015
- “Learning from Errors”, Metcalfe 2017
- Discussion: HN/2
5.1 抽认卡资源
6 脚注
[1] 「 人们不是通过使用计算器学会了计算,但却因此忘记了算术 。」Perlis 1982↩︎
[2] 列出其他神经辅助工具很难。这是一个有趣的想法,但正如 externalism 的支持者 Andy Clark 所发现的那样,比起明确将神经义肢或大脑的一部分,与任意你喜欢或觉得有用的工具分开来定义;我们更容易感觉到外在论是有意义的。想想铅笔和纸是不是神经义肢:显然,这和刚学写字的孩子不同,他必须在脑海里仔细构思单词,然后一个接一个地写下来,但对于一个一生都在写作的成年人来说,情况就不那么一样,他已经可以不假思索地涂鸦或写下想法,甚至可能会对写下的东西感到惊讶。
我喜欢这个定义:「神经义肢是任何你不需要进一步思考, 就可以快速使用其结果的东西」。所以在一个经典的例子中,当 Otto 需要去什么地方时,他从来不会想「我是一个迷糊到需要将位置记录在笔记本上的健忘症患者,所以我必须查询这个位置」——他会直接去查询位置。如果当它缺失时会使人感到迷失、迟钝、愚蠢或无知,那我就能认为它是一个好的心理捷径(heuristic)。
按照这个标准,我只能想到几个工具,可以使我不假思索地使用他们:
快捷键设定,例如窗口管理器的快捷键,特别是谷歌搜索的快捷键;有时,XMonad 窗口管理器的提示符不知为何会卡住。这时候我 必须 重新启动 XMonad,因为我什么都要谷歌搜索,并且按键习惯太过于根深蒂固,用不了快捷键是无法忍受的。就像用不常用的那只手写字一样。
- 谷歌日历和 PredictionBook:我将大量"正在做"、"将要做"或"定期做"的任务放入谷歌日历或 PB 中,想来很是难以置信。我已经把很多习惯或想法外包给这两个程序了,对此我习以为常。如果其中任何一个程序消失了,我都会惊恐万分——正在发生事有哪些,哪个观点被证伪,什么机会大门敞开了(或关上!),而我突然一无所知?
- 印象笔记,出于类似的原因;我关于一件事的记忆已经不像是类似「章鱼的视力基准太高了,所以只对高清电视或超高清电视有反应;这一篇文章我在猎户座杂志上读到的」,而是变成了像「章鱼 电视 印象笔记」这样的东西,如果我想知道章鱼和电视是怎么一回事,那么,我必须在印象笔记中查找它。对我来说,Mnemosyne 也扮演着类似的角色,但因为那有间隔重复,记忆本身会更清晰。
- 我的网站 http://Gwern.net;我说过很多次了,有些事如果你当面问我,或许我不能直接说出有关的看法,但我已经写在了我的网站上。(Evernote/Mnemaste 是神经义肢的一种更极端的形式。)一位评论者曾经写道,阅读我的网站 http://Gwern.net 感觉就像在我的脑海里爬来爬去。这个描述比他意识到的更正确。
[3] 如 “Retrieval practice and the maintenance of knowledge”, Bjork 1988 中引用的↩︎
[4] 来自 “Close the Book. Recall. Write It Down: That old study method still works, researchers say. So why don’t professors preach it?”; The Chronicle of Higher Education
两本心理学杂志最近发表的论文表明,这种策略是有效的,这是来自一个数十年的研究的最新发现。当学生自学时,「主动回忆」——例如,背诵、抽认卡和其他自测——是将某件事铭刻在长期记忆中最有效的方式。然而,许多大学教师对这项研究只略知一二…
来自 “The Spacing Effect: A Case Study in the Failure to Apply the Results of Psychological Research” (Dempster 1988), whose title alone summarizes the situation (see also Kelley 2007, Making Minds: What’s Wrong with Education - and What Should We Do About It?):
第二,它[间隔效应]非常稳健。在许多情况下,将材料通过两个间隔呈现大约是两个集中呈现的效率的两倍(例如,Hintzman, 1974;Melton,1970),和它们之间效率的差距随着重复频率的增加而增加(Underwood, 1970)…
早在 1885 年,当艾宾浩斯发表他关于记忆的开创性工作的结果时,间隔效应就已为人所知。以他自己为测试对象,艾宾浩斯发现,对于一个 12 个音节的序列:在立即连续重复学习 68 次后,在第二天额外重复 7 次之后,就有可能实现无误的朗诵。然而,如果我们把这些重复分散在三天内,只需要 38 次重复就能达到同样的效果。在此和其他相关发现的基础上,艾宾浩斯得出结论:“对于任何相当数量的重复,在一段时间内适当地分布它们肯定比在一次集中它们效果更好”(Ebbinghaus, 1885/1913. p. 89)
Son & Simon 2012:
此外,即使大家承认了间隔的好处,改变教学实践也被证明是非常困难的。Delaney 等人(2010)写道:「据传闻,高中教师和大学教授似乎是以线性方式授课,没有重复,并且给出了三到四次割裂的考试。)(第 130 页)。聚焦于数学领域,人们可能会期待一个非常容易回顾和分隔的方案,Rohrer(2009)指出,数学教科书通常以无间隔、非混合的方式呈现主题。甚至在更早的时候,Vash(1989)曾写道:「教育政策制定者非常清楚,[间隔练习]比[集中练习]效果更好。然而,他们不在乎。这样不整洁。因为,它不能让教师在教完一个单元后,迅速掸去手上的灰尘,有一种“好了,这就完成了”的美好感觉。」(第1547页)。
- Rohrer, D. (2009). “The effects of spacing and mixing practice problems”. Journal for Research in Mathematics Education, 40, 4-17
- Vash, C. L. (1989). “The spacing effect: A case study in the failure to apply the results of psychological research”. American Psychologist, 44, 1547 (a comment on Dempster’s article?)
来自 Psychology: An Introduction:
在间隔效应的一个实际演示中,Bahrick, Bahrick, Bahrick, & Bahrick (1993) 表明,如果练习环节的间隔很长,记忆外语词汇的能力就会大大提高。例如,「再培训课程安排在 56 天内间隔 13 次复习的结果与 14 天内间隔 26 次的保留率相当。」换句话说,如果学习课程分散在四倍长的时间段内,受试者可以只花一半的学习时间。
[5] “Synaptic evidence for the efficacy of spaced learning”, Kramar et al 2012 (“Take your time: Neurobiology sheds light on the superiority of spaced vs. massed learning”):
学习活动有一个基本特征,那便是间隔重复比集中练习更优越。接下来,我们来看看一个出乎我们意料的时间规则,这个规则将在成年大鼠海马体切片中产生长期增益效应(LTP)。如果间隔 1h 或更长时间,使用 θ 短阵快速脉冲刺激(theta burst stimulation,TBS)连续刺激 CA1 区可显著增强先前饱和的长期增益效应,但当使用较短的时间间隔时则不起作用。我们分析 F-肌动蛋白发生增加的突触,以确定哪些突触被增强了,分析表明,用延迟的θ序列(theta trains)来获得的长期增益效应,涉及到让那些「错过了」第一轮刺激的突触也被招入参与进来。单突触谷氨酸敲除实验(通过基因编辑让一个突触失活)证实,在基线条件下,成人的海马体中只有不到一半的突触被激发出可塑性,这表明各个突触之间的内在差异性要求重复呈现信息才能最大化地增强它们之间的连接。最初发生变化的的突触发生局部扩散后,更晚些才发生膜插入事件,这两个事件让我们得以提出,重复应该要有较宽的时间间隔。因此,这里描述的突触机制为学习中知之甚少、无处不在的一个方面提供了一种神经生物学解释。
[6] 有很多研究表明,主动回忆的效果最好。参考一篇最近的研究成果,“Retrieval Practice Produces More Learning than Elaborative Studying with Concept Mapping”, Karpicke 2011 (covered in Science Daily and the NYT):
教育工作者过于依赖鼓励精细学习的学习活动,而要求学生提取和重构知识的学习活动则较少使用。在这里,我们表明,在有意义的学习中,提取练习比基于概念图的精细学习更有效果。在科学教育的不同领域中提取练习的优势普遍存在。我们是通过测试试题来观察提取练习的优势,需要对这些试题进行评估理解并要求学生进行推理。即使当标准测试涉及创建概念图时,提取练习的优势也会显现出来。我们的发现支持这样一种理论,即提取练习是通过提取这一行为本身的特殊机制而不是通过其精细学习的过程来促进学习。提取练习是促进科学概念学习的有效工具。
来自 “Forget What You Know About Good Study Habits”. New York Times;
认知科学家并不否认死记硬背可以在特定的考试中取得更好的成绩。但是匆忙塞满大脑就像是快速塞满一个低廉的手提箱,大多数学生很快就学会了——它能够将刚塞入的东西保留一段时间,然后几乎所有的东西都掉了出来….当神经行李箱被小心逐步地打包时,它会把里面的东西保留得更久很久。数十项研究发现,今晚学习一小时,周末学习一小时,一周后再学习一次:这种所谓的间隔可以提高长期记忆力,而不需要学生在尽量在一个整体上全面得投入努力或付出更多的注意力。
「遗忘是学习的朋友」,Dr. Kornell 说:「忘记一件事可以让你在下次看到它时有效地重新学习。」
这就是认知科学家将测试/测验本身视为一种强大的学习工具,而不仅仅是能力评估的原因之一。提取想法的过程不像从书架上拿出一本书;它似乎从根本上改变了信息随后存储的方式,使其在未来更为可及。
在罗迪格博士自己的一个实验中,他和现在普渡大学的杰弗里·卡皮克让大学生在很短的学习时间内学习阅读理解测试中的科学类文章。当学生们在背靠背的课程中学习同一材料两次时,之后立即进行测试。他们表现非常好,然后开始忘记这些材料。但是,如果他们只学习了一次文章,并在第二节课上就做一次练习测试。在两天后,甚至一周后的测试中,他们都表现得非常好。
[7] The Mathematics of Gambling, Thorp 1984, “Section Two: The Wheels”, Chapter 4, pg43-44:
那是 1955 年的春天。我在加州大学洛杉矶分校(UCLA)读完了第二年的物理研究生课程后,便转行去研究数学。我每周上课学习 50 到 60 小时,通常还包含周末的时间。我读过关于学习的心理学知识,以便能够更长时间、更努力地工作。我发现「间隔学习」效果很好:学习一个小时,然后休息至少十分钟(淋浴、用餐、喝茶、跑腿等)。一个星期天下午 3 点左右,我来到合作公寓的餐厅饮茶暂憩。我满脑子都是物理方程式,我的几个好朋友正围坐在一起聊天。
[8] 来自 Final Jeopardy: Man Vs. Machine and the Quest to Know Everything, by Stephen Baker, pg 214:
他将项目汇总起来,分类别对他进行了测试,评估了他的优势(科学,NFL足球)和劣势(时尚,百老汇演出),然后指导他去准备最可能有回报的比赛。为了修补他知识中的这些漏洞,克雷格使用了一个名为 Anki 的免费在线工具,该工具为数百个研究领域提供电子抽认卡,从日语词汇到欧洲的君主列表。用克雷格的话说,这个项目基于对“遗忘曲线”的心理学研究,帮助人们发现他们知识中的漏洞,并确定他们需要对哪些领域知识进行复习的频率,以将其牢记在心。例如,在遍历世界各国首都的过程中,系统很快就会了解到像克雷格这样的用户了解伦敦、巴黎和罗马,因此它可能会花更多的时间来加强例如哈萨克斯坦的首都。(哈萨克斯坦的首都会是什么?「阿斯塔纳」,克雷格在一瞬间说道。「这里过去是阿拉木图,但他们把它搬了。」)
[9] “我们对《危险边缘!》的冠军 Arthur Chu 的采访!”:
[Chu:] …《Jeopardy!》是针对普通电视观众的,所以他们不会问那些毫无意义、晦涩难懂的问题…所以我使用了一个叫 Anki 的程序,它使用了一种名为「间隔重复」的方法。它会记录你在哪些方面做得好或不好,并促使你学习你不太掌握的抽认卡,直到你对某一特定学科有了一个基本的知识基础,而我只是为那些特定的东西制作了抽认卡。我记住了世界上所有的首都,并且有了抽认卡,每天都在用,就没那么难了。我记住了美国各州的别名 (在维基百科上有),记住了关于 44 位美国总统的重要基本事实。我真的很关注这些。但还有更多的东西要知道。我了解《Jeopardy!》里有些事情我并不知道。例如,每个人都嘲笑体育——但我也知道,[体育线索]在 Double Jeopardy 和 Final Jeopardy 中出现的可能性最小,而且非常重要。因此,我决定,只要能找到有价值的线索,就不要过分担心,只要认识到不认识就好。以上便是我的准备过程。
[10] Alan J. Perlis, “Epigrams in Programming” (1982)↩︎
[11] Web developer Persol writes in August 2012:
实际上,几个月前我写了一个能实现对这些困难问题进行[间隔重复]的网站。网站上大约有4000名用户已经通过了一个完整的复习环节…正如猜测的那样,问题是我无法让人们养成使用它的习惯。没有即时反馈。每 4000 人中只有不到 20 人能坚持两个复习环节以上…此外,应该至少有 18 个参赛者。这是我当时制作的列表。似乎很少有人能成功。大约一个月前,我关闭了这个网站。自由参赛者不计其数,他们没有太大的烦恼。除非你找到一种有效的方式将其“游戏化”,否则我不会建议再开一个这样的网站。
…~ 4000 人完成了一个课程。比 4000 次尝试还多……我只是无法确定哪些用户是随机注册的机器人,哪些用户第一个复习环节都没完成。已尝试次数:
- 很多(但仍不确定)
- 已完成 1 个复习环节:~4000
- 已完成 > 1 个环节:~20 [0.5%]
“Play it Again: The Master Psychopharmacology Program as an Example of Interval Learning in Bite-Sized Portions”, Stahl et al 2010:
自从艾宾浩斯以来,大量的研究已经证实了一个朴素而重要的事实:除非以某种方式对新信息进行复习,否则新信息的保留率会迅速下降。这种没有进行重复导致知识遗忘的现象,有一个现代例子是对心肺复苏(CPR)技能的研究。该研究表明,心肺复苏技能在培训后的一年内将被迅速遗忘。截至培训结束后第三年,只有 2.4% 的医生能够成功地进行心肺复苏术。6另一项最近对医生进行的研究表明, 参加培训的医生被评为非常好或优秀,他们的平均知识得分从辅导前的 50% 增加到辅导后的 76% 。7然而,在 3 至 8 天后,分数的增长只有一半,而且令人难以置信的是,在 55 天,根本没有可测量的、在[统计学上]显著的知识保留率。在后续的关于继续医学教育项目的知识保留的研究中,我们得出 7 个类似的结果。1 [Stahl SM, Davis RL. Best Practices for Medical Educators. Carlsbad, CA: NEI Press; 2009]
…这可能是因为有指定阅读材料的讲座对老师来说是最容易的。此外,医学的学习很少在听完一节课或第一次阅读新材料后立即进行测试,然后在几天或几周后再次测试,因此这种方法导致的低保留率可能不会被广泛认可。4难怪那些没有启用或加强实践策略的正式医学教育会议对实践和医疗保健结果的影响相对较小。8,9,10
[13] 关于死记硬背的一项研究表明 “Cramming: A barrier to student success, a way to beat the system or an effective learning strategy?”, Vacha et al 1993,摘要:
通过检查166名大学生的每周学习日记,来验证填鸭式学习是一种无效的学习策略这种假说。所有学生完成了一份学期末问卷,以调查他们的学习习惯。学生被分为以下几种学习模式:理想、自信、热情或死记硬背。与假设相反,研究结果表明,填鸭式学习是一种有效的方法,在使用课后随笔考试和主要研究论文的课程中最为普遍。填鸭式学习者的成绩与使用其他的学生一样好,甚至更好;学生在大学里呆的时间越长,填鸭式学习的可能性就越大。填鸭式学习者比大多数学生学习的时间更长,并且和其他学生一样对他们的课程感兴趣。
请注意,没有衡量长期保留率的指标,这表明只关心成绩的人是理性选择填鸭式学习的↩︎
[14] Anki 有它的死记模式以及 Mnemosyne 2.0 有一个填鸭式插件。当 SRS 没有明确的支持时,总是有可能通过人为地降低分数来「玩弄」算法,因此 SR 算法认为您很蠢,需要做大量的复习。↩︎
[15] “Examining the examiners: Why are we so bad at assessing students?”, Newstead 2002:
Conway, Cohen & Stanhope (1992) 研究了心理学课程中呈现的信息的长期记忆。他们发现,在某些类型的信息,特别是那些与研究方法有关的信息,比其他类型的信息更容易记住。但在后续分析中,他们发现使用的评估类型对记忆有影响。从本质上说,通过持续反馈与评价的材料比通过考试来评价的信息更容易被记住。
[16] Stahl 2010:
例如,简单的复习可以让学习者重新体验所有的材料,但实际上,这样的长期保留率很低。25,26,35为什么学生要继续学习原始材料?当然,如果别无他选,那么复习是一个必要的手段。另一个答案可能是,重复学习原始材料误判了学生对未来记忆能力的信心,因为他们觉得他们现在明白了,而他们和他们的导师可能没有意识到,许多研究表明,在这种形式的重复之后,延迟测试的保留率很低。
[17] From Kornell et al 2010:
与「集中学习辅助引导」这一假说相反,在间隔条件下,最终测试的表现结果始终如一且相当优越。然而,绝大多数参与者认为集中学习比间隔重复更有效,尽管他们是在参加测试之后才做出判断的。
…对自己记忆和认知的判断,即元认知判断,通常基于流畅感(例如,参见 Benjamin, Bjork, & Schwartz, 1998;Rhodes & Castel, 2008)。因为在学习过程中,集中学习自然会带来流畅感,并提升短期学习任务的表现,所以学习者经常认为间隔学习比集中学习效果差,即使他们的成绩显示出相反的结论(Baddeley & Longman 1978; Kornell & Bjork, 2008; Simon & Bjork, 2001; Zechmeister & Shaughnessy, 1980)。例如,在 Kornell 和 Bjork(2008)的实验中,平均而言,超过 80% 的参与者认为集中学习的效果等同于或比间隔学习更有效,而只有 15% 的参与者在集中条件下的表现实际上比间隔条件下的更好。
…这种错觉在诱导条件下表现得很明显。然而,与之前的研究相反,在重复学习过程中,参与者对间隔的评分高于对集中的评分(例如,参见 Simon & Bjork, 2001; Zechmeister & Shaughnessy, 1980)。这一结果可能是因为习惯化的过程而发生的:研究一幅画总共花了 6 次演示和 30 秒的时间,可能会变得效率低下,毫无意义。因此,基于流畅度的元认知评分似乎出现了一个转折点:随着流畅度的增加,元认知评分会增加到一定程度,但随着流畅度的不断增加,编码或提取变得过于容易,元认知评分可能会开始下降。
…在他们的研究之前,Kornell 和 Bjork(2008)坚信,这种归纳学习将从集中中受益,但他们的结果显示相反。我们毫不气馁,仍然坚信间隔比归纳学习更有利于重复学习,特别是对于老年人来说,考虑到他们的情景记忆总体下降。目前的结果再次与我们的预期不符。如果我们的直觉是错误的,尽管我们多年来一直在证明和赞扬的间隔效应——包括 Robert A. Bjork 贡献的大约 40 年的价值——普通学生的直觉,肯定也是错误的(正如参与者元认知评级的不准确所表明的那样)。也许,我们是错觉的受害者,认为让学习变得简单就能让学习变得有效,而不是认识到,间隔其实是一种值得的困难(Bjork 1994),它能增强归纳学习以及重复学习,即使年入高龄。
[18] 来自 Son & Simon 2012:
因此,虽然间隔法也许促进学习,但就学习时间而言,人们认为它效率相对较低。我们之后就会讨论到,这种低效感也许能解释为何间隔重复没有更流行。有趣的是,也是这份研究中(Baddeley & Longman 1978; 另见 Pirolli & Anderson 1985 和 Woodworth & Schlosberg 1954 [Experimental Psychology])有证据表明「徒劳无功」是存在的。也就是每天练习时间超过一定小时数(大约 2 小时),所学没有提升,与通常想法相反。这些结果和上面提到的处理不足理论有关,对于直观理解间隔效应的机理十分重要:单纯就是累了。根据认知心理学方面的文献,这些数据也与过度学习的概念吻合,过度学习就是长时间连续学习在短期内很有益处(甚至感觉很好),这种益处很快就消失了(Rohrer et al. 2005; Rohrer and Taylor 2006)... 比如上文描述过 Baddeley 和 Longman 的研究(1978),其中邮政工作人员有的集中时间练习打字,有的间隔开来练习,之后反馈他们对训练的满意度。结果表明,虽然间隔练习学习效果最好,但也是最不受喜爱的。类似的,Simon & Bjork(2001)发现对于运动技能练习任务,集中练习更受偏好。
- Baddeley, A. D., & Longman, D. J. A. (1978). “The influence of length and frequency of training session on the rate of learning to type”. Ergonomics, 21, 627-635
- Pirolli, P., & Anderson, J. R. (1985). “The role of practice in fact retrieval”
[19] “Study strategies of college students: Are self-testing and scheduling related to achievement?”, Hartwig & Dunlosky 2012:
以前的研究,如 Kornell 和 Bjork(Psychonomic Bulletin & Review, 14:219-224, 2007)以及 Karpicke,Butler 和 Roediger(Memory, 17:471-479, 2009)的研究,都调查了大学生对各种学习方法的使用情况,包括自测与重读。这些研究证明,一些学生确实使用了自测(但主要是为了监控记忆)和重读,但研究人员没有评估使用这些方法的个体差异是否与学生的成绩有关。因此,我们调查了 324 名大学生的学习习惯以及他们的大学平均成绩(GPA)。重要的是,这项调查包括关于自测时的题目,学习时间的安排,以及学生常用的或认知研究所推荐的策略清单。自测和重读的使用都与 GPA 呈正相关。学习时间的安排也是一个重要因素:表现不佳的人比表现优异的人更有可能深夜学习;学习的集中(相对于间隔)与总体上使用较少的学习策略有关;所有学生里,尤其是表现不佳的学生,都受到迫在眉睫的截止日期的驱使。因此,自测、重读和学习安排在现实世界的学生成绩中发挥着重要作用。
(另见 Dunlosky et al 2013。)请注意,自测的相关性不包括抽认卡,这一结果令作者和我都感到惊讶。与睡眠的联系很有趣,鉴于更强的记忆形成与在良好的睡眠前学习之间的假设联系,如果你在深夜临时抱佛脚,你很难获得良好的睡眠(与较低的成绩相关),但如果你在晚上合理安排时间来突击(及时睡个好觉),你可以更好地形成记忆
另见 Susser & McCabe 2012:
实验室研究表明,在总体学习时间相同的情况下,通过多次分散地学习材料比通过一次集中学习材料更有利于长期记忆(即间隔效应)。当前的研究走出实验室,去调查大学生是否知道间隔学习的优势,他们在自己的学习中使用它的程度,以及哪些因素可能影响间隔学习的使用。一项基于网络的调查结果表明,参与者(n=285)意识到间隔研究的好处,并且与现实情况相比,在理想情况下会使用更高水平的间隔。然而,自我报告时使用的间隔是中等水平的,类似于集中和其他几种学习方法,排名远远低于常用的方法,如重读笔记。他们认为,分配学习时间的重要因素包括即将到来的考试的感知难度、要学习的材料数量、考试在课程成绩中的权重,以及材料的价值。此外,元认知自我调节水平和提炼学习法的使用与较高的间隔学习率相关。
[20] Analytic Culture in the US Intelligence Community: An Ethnographic Study, Johnston 2005, pg89:
为了调查教学互动的强度,Art Graesser 和 Natalie Person 1994 比较了在教室和辅导环境中的提问和回答。他们发现,课堂上的学生群体每小时提出大约 3 个问题,而教室里的任何一个学生每小时都会提出大约 0.11 个问题。相比之下,他们发现,在个别辅导课程中,学生每小时提出 20-30 个问题,并要求他们每小时回答 117-146 个问题。回顾技术型教学中所迸发的互动强度,发现学生的反应水平更加活跃。[J. D. Fletcher, Technology, the Columbus Effect, and the Third Revolution in Learning.]
尽管 Graesser & Person 1994 年也发现问题的绝对数量并不一定重要,这表明边际收益递减或者可能是问题问得不好↩︎
[21] 「SuperMemo 基于这样一个理念:你所学到的东西,一定有个理想的时机,来让你重新练习。练得太多会浪费你的时间。太久没练会导致你忘记材料,以至于必须重新学习。合适的练习时机就在你即将忘记的那一刻。不幸的是,这一时机对每个人,每一条信息来说都是不同的。想象一下,在一堆成千上万的抽认卡中,有哪些是你现在应该练习的。它们是哪几个?」Gary Wolf, “Want to Remember Everything You’ll Ever Learn? Surrender to This Algorithm”, Wired Magazine↩︎
[22] 「别搞错了:计算机处理的是数字,而不是符号。我们通过将一项活动算术化的程度来衡量我们的理解(和控制)。」Perlis, ibid.↩︎
[23] 这种指数级的增长就是间隔重复程序处理卡片的持续输入的方式:如果卡片安排在固定的时间间隔,就像每隔一天,那么复习很快就会变得不现实——我在 Mnemosyne 有超过 18000 个项目,但我没有时间每天复习 9,000 个问题!↩︎
[24] 见 2008 元分析, “Learning Styles: Concepts and Evidence” (APS press release); 来自该文摘要:
…为了证明最优的学习效果,需要学生接受所谓适合他们学习风格的教学,实验必须揭示学习风格和教学方法之间的一种特定的互动类型:对某一种学习风格的学生,那些证明最有效的教学方法,对其他学习风格的学生来说,往往没那么有效。
我们对文献的回顾揭示了充足的证据。这表明,当问到儿童和成年人时,他们会流露出对信息呈现方式的偏好。也有大量的证据表明,在对于不同类型的思考和处理不同类型的信息时,人们有着不同程度的特定能力。然而,我们发现几乎没有关于上述互动模式的证据,这被认为是用于验证学习风格的教育应用的前提条件。虽然关于学习风格的文献很多,但很少有研究使用能够测试学习风格应用于教育有效性的实验方法。此外,在那些确实使用了适当方法的研究中,有几项发现了与流行的网格划分假说完全相反的结果。
因此,我们认为,目前并没有足够的证据支持将学习风格评估纳入普通教育实践。因此,有限的教育资源最好还是采用那些有充分证据基础的教育实践法,而这些做法的数量正在增加。但是,鉴于缺乏对学习风格的方法良好的良好研究,得出「所有可能的学习风格都经过测试,并发现不足」的结论是错误的;许多研究根本就没有进行过测试。
[25] Fritz, C. O., Morris, P. E., Acton, M., Etkind, R., & Voelkel, A. R (2007). “Comparing and combining expanding retrieval practice and the keyword mnemonic for foreign vocabulary learning”. Applied Cognitive Psychology, 21, 499-526.↩︎
[26] 来自 Balota et al 2006, describing Spitzer 1939, “Studies in retention”:
Spitzer(1939)在一项研究中纳入了一种延时提取的形式,旨在评估六年级学生学习科学事实的能力。令人印象深刻的是,Spitzer 测试了爱荷华州超过 3600 名学生,包括当时 91 所小学所有的六年级学生。学生们阅读了两篇文章,一篇是关于花生的,另一篇是关于竹子的,并接受了多项选择测试,一共有 25 题,以评估他们的知识(比如「竹子属于哪一科植物?」—)。 Spitzer 总共测试了九组,既控制了测试的时间(立即进行或在各种延迟之后进行),也控制了学生接受的相同测试的数量(一到三次)。 Spitzer 没有合并集中复习或等间隔的复习的情况,但他至少有两组按不断增加间隔时间的复习安排进行了测试,其中测试之间的间隔是通过时间的推移(以天为单位)来分隔的,而不是通过干预待学习的信息来分隔。例如,在其中一组中,第一次测试立即进行,第二次测试在第一次测试后 7 天进行,第三次测试在第二次测试后 63 天进行。因此,本质上,这组人是间隔安排在 0-7-63 天的上进行测试的。Spitzer 将递增间隔组的表现与阅读原始文章 63 天后接受单一测试的一组进行了比较。在第一次(立即)测试中,递增间隔组正确回答了 53% 的问题。在 63 天和之前的两次测试之后,他们的分数仍然是令人印象深刻的 43%。63 天后,单一测试组只正确回答了原始项目的 25% ,使递增间隔组获得了 18% 的保留优势。这是相当令人印象深刻的,因为这一巨大的好处在 63 天的保留间隔后仍然存在。与 21 天后进行单次测试的组相比,间隔安排在 0-1-21 天的测试组中发现了类似的有益效果。当然,这项研究没有将测试与间隔或递增间隔的效果分开,但结果确实清楚地表明,使用递增间隔的重复测试程序可以获得相当大的学习和保持能力。Spitzer 的结论是「…考试是一种学习手段,不应该只被认为是衡量学生成绩的工具」(656 页,斜体)
[27] “Distributing Learning Over Time: The Spacing Effect in Children’s Acquisition and Generalization of Science Concepts”, Vlach & Sandhofer 2012:
间隔效应描述了一个强有力的发现,即当学习活动在时间上间隔开,而不是立即连续呈现时,长期学习会得到促进。对间隔效应的研究主要集中在记忆过程,而不是其他类型的学习,如学到和概括新的概念。在这项研究中,小学早期儿童(5-7岁;N=36)按照三种时间表之一接受科学课程:集中、成群和间隔。研究结果表明,时间间隔课程对简单概念和复杂概念都有较高的泛化性能。间隔学习时间表促进了几种类型的学习,加强了间隔效应对教育实践和课程的影响。
[28] 另见 Balch 2006, who compared spacing & massed in an introductory psychology course as well.↩︎
[29] Roediger & Karpicke 2006b again.↩︎
[30] Balota et al 2006 review:
如果受试者回答错误或遗漏,则不会给予任何反馈或更正。Landauer & Bjork 1978 发现,在课程结束时的最后一次测试中,递增间隔的安排比等间隔的测试的记忆表现更好,而等间隔测试又比最初的集中测试更好。因此,尽管集中测试在知识获取时表现出几乎没有错误的现象,但在课程结束时给出的最终测试中,其他两个方法产生了更好的保留率。然而,递增间隔与等间隔的学习安排相比,他们的差异相当小,约为 10% 。在对 Landauer 和 Bjork(1978)最初实验的后续研究中,几乎都发现,尽管会有例外,但实际上,间隔复习安排(无论是等间隔的还是递增间隔)在稍后给出的最终测试中比在呈现后立即给出的集中提取测试产生更好的保留率(例如,Cull, 2000; Cull, Shaughnessy, & Zechmeister, 1996)。例如,在 Cull 等人(1996)的实验 3 和 4 中,安排在 5-5-5 的集中测试时间上表现得与等间隔测试一样好,但其他大多数实验已经发现,任何方式的间隔安排测试(等间隔或递增间隔),在延迟测试上,都比集中安排测试的表现更好。然而,在 Landauer 和 Bjork 有意思的发现中的另一个部分「递增间隔是否比等间隔更有利于长期保留」仍然是一个悬而未决的问题。Balota , Duchek 和 Logan(出版中)提供了对相关证据的充分考量,并表明充其量是混合的,大多数研究人员没有发现两种测试时间安排之间的差异。也就是说,在课程结束时,等间隔与递增间隔复习的最终测试表现没有明显差异。
Cull, for those curious (Cull, W. L. (2000). “Untangling the benefits of multiple study opportunities and repeated testing for cued recall”. Applied Cognitive Psychology, 14, 215-235):
Cull(2000)在一系列的四个实验中比较了递增间隔与等间隔复习,这些实验旨在模仿学生遇到的典型教学或学习方法。他研究了测试与简单地重新研究材料、反馈和各种保留间隔对最终测试表现的作用。结对关联的配对词(不常见词与常见词的配对,比如 bairn-print)的呈现方式类似于学生们经常用来学习词汇的抽认卡技巧。在某些实验中,试图提取要学习的信息的时间间隔从几分钟到几天不等。有趣的是,在四个实验中,Cull 没有发现任何证据表明,递增间隔比均匀间隔更有优势(即没有[显著的]扩大提取效果),尽管这两种条件都产生了比集中学习更大的优势。他的结论是,任何类型的分布测试,无论是递增的还是等间隔,都可以成为教师为学生提供的有效学习辅助工具。
[31] The Balota et al 2006 review offers a synthesis of current theories on how massed and spaced differ, based on memory encoding:
根据编码变异理论,记忆测试的表现取决于测试时可用的上下文信息与编码时可用的上下文信息的重叠程度。在集中学习时,上下文信息要素在呈现中的时间相对波动得较少,因此当测试的上下文信息强烈重叠于在两个集中呈现期间编码的相同上下文信息时,这种条件下,即时记忆测试中表现最佳。相反,当项目之间有间隔时,在学习过程中的信息呈现时间发生波动,因此,编码多个唯一上下文的可能性增加。由于延迟测试也会允许上下文的波动,因此最好对多个独特的上下文进行编码(如间隔展示形式),而不是对单个编码的上下文(如集中展示形式)。
Storm 等人在 2010 年做了 3 个阅读理解实验:
在一周后的一项测试中,递增间隔增强了记忆,但只有在连续提取之间的任务高度干扰段落记忆的情况下才会如此。这些结果表明,学习者从递增间隔提取练习中获益的程度取决于要学习的信息容易被遗忘的程度。
[32] 来自 Mnemosyne’s Principles page:
Mnemosyne 的算法与 SuperMemo 早期版本中使用的 SM2 非常相似。有一些修改处理了早期和晚期的重复,也为间隔增加了少量且健康随机性。SuperMemo 现在使用 SM11。然而,我们有点怀疑较新的 SM 算法的巨大复杂性是否提供了统计上相关的好处。但是,这是我们希望通过收集数据来查明的事实之一。我们只会根据常识或数据告诉我们有统计上相关的原因,以便修改我们的算法。
[33] Balota et al 2006:
Carpenter and DeLosh (2005, Exp. 2) 最近研究了集中、递增(1-3-5)和等间隔(3-3-3)条件下的「看人脸记名字」的学习。这项研究还涉及到习得阶段的学习、研究和测试程序。Carpenter 和 Delosh 发现间隔有很大的影响,但没有证据表明递增间隔比等间隔练习更好。事实上,Carpenter 和 Delosh 报告称等间隔条件比递增间隔条件有可靠的益处。
[34] Balota et al 2006 again:
Rea 和 Modigliani(1985)在三年级课堂环境中测试了递增间隔提取练习的有效性。在不同的条件下,学生们被要求学习新的乘法问题或拼写单词。问题或单词被视听呈现一次,然后按照 0-0-0-0 的集中组或 0-1-2-4 的递增间隔组进行测试,其中涉及对旧项目进行测试或学习新项目的间隔。在给定项目的每一次测试试验之后,都会再次完整地呈现该项目,这样学生们就会得到关于他们所学内容的反馈。在学习阶段,拼写单词和乘法事实的成绩都达到了 100%。在一项即时最终保留测试中, Rea 和 Modigliani 发现,相比集中组,间隔组在所有项目,即数学和拼写,都表现优异。他们提出,和其他人一样,间隔与向来有高成功率的扩展记忆提取安排相结合,比集中提取练习的记忆保留率更高。然而,与 Spitzer 的研究一样,Rea 和 Modigliani 没有测试适当的等间隔条件。因此,他们发现在三年级时,间隔提取优于集中提取,这可以简单地反映出间隔练习相对于集中练习的优越性——换句话说,间隔效应。
[35] Balota et al 2006.↩︎
[36] Balota et al 2006; >1 在心理学里很罕见,参考 “One Hundred Years of Social Psychology Quantitatively Described”, Bond et al 2003↩︎
[37] Rohrer & Taylor 2006↩︎
[38] Balota et al 2006:
…在某些情况下,已经证明了信息的长期记忆保留需要几天时间(例如 Camp 等人, 1996)。例如,在后一项研究中,Camp 等人采用了一种递增间隔提取方法来训练 23 名轻度至中度 AD 患者,让他们参照日程表作为记住进行各种个人活动(如服药)的线索。在确定受试者是否会自发使用日历的基本阶段之后,通过反复问受试者这样一个问题来实施间隔提取训练:「你打算如何记住每天要做什么?」以递增时间间隔。结果表明,20/23 的受试者确实学习了这一策略(即看日历),并在 1 周内保持了下来。
[39] 不过,Rohrer & Taylor 2006 提醒我们,关于许多其他的数学研究:
例如,在 Donovan 和 Radosevich (1999) 的一项元分析中,随着任务的概念难度从低(例如旋转追视)到平均(例如回忆单词列表)再到高(例如拼图),间隔效应的规模急剧下降。根据这一发现,对于许多数学任务来说,间隔练习的好处可能会减弱。
[40] 这项研究的特别之处在于,它不仅使用了高素质(聪明且积极)的大学生(美国空军学院),条件相对可控——两组都有相同的家庭作业(所以测试效应相等),但像 Rohrer & Taylor 2006/2007 一样,分布有所不同:
实验组和对照组的课程主题、教科书、讲义、阅读作业和评分作业(测验、家庭作业和参与点除外)完全相同,不同的是教学大纲中的家庭作业列表。给对照组每日安排与当天在课堂上与所展示主题相关的家庭作业。Peterson(1971)称这是数学作业布置的垂直模型。实验组则按照分布式组织模式布置作业,这种模式结合了对当前主题的练习和对以前涉及过主题的强化。在分布式模式下,大约 40% 给定主题的问题在首次引入当天就布置,另外 20% 的问题将布置在下一课上,其余 40% 的问题将布置在随后的课上(Hirsch 等人,1983)。在 Hirsch 的研究和本研究中,在最初的家庭作业之后,代表特定主题的问题在第 2、4、7、12 和 21 课重新出现。因此,实验组第 1 课的家庭作业只有一个主题;第 2 课和第 3 课的家庭作业由两个主题组成;第 4 到第 6 课的家庭作业由三个主题组成。随着新主题的加入,这一模式得以延续,并应用于所有非考试、非实验室课程。如表 1 和表 2 所示,两组都布置了相同的家庭作业问题,只是作业模式不同。由于分布式练习模式的性质,随着学期的推进,实验组的家庭作业在学期初包含的问题(相对于控制组)较少,问题的数量也随之增加。在本学期晚些时候,实验组的家庭作业包含更多的问题(相对于对照组)…USAFA 定期收集学习时间数据。每次考试后,一大批学员(至少占课程总人数的 60% )匿名报告为准备考试所花费的时间(以分钟为单位)。两组花在学习上的时间大致相等(见表 5)。根据描述性数据显示,对于实验组和对照组来说,第三次考试的学习时间比任何其他考试的学习时间至少多 16%。期末考试的学习时间比任何一小时考试的学习时间至少多 68%(参见表 5)
…该处理在第一次考试中产生的效应量(F2)为 0.013,在第二次考试中为 0.029,在第四次考试中为 0.035,对期末课程百分比成绩的影响为 0.040。虽然效果似乎很小,但实验组在每一种情况下都比对照组得分高。第一次、第二次和第四次考试的平均差异为 5.13 个百分点,这对实验组的学生来说意味着大约三分之一的字母成绩的优势。此外,由实验组获得的较高的最低分数可以指示分布式练习法用于消除极低分数(参见表 3)…奇怪的是,分散练习法并没有对期末考试成绩产生[统计上]显著的影响。造成这种差异的一个可能原因是 USAFA 的政策,即免除表现最好的学生参加期末考试。在 16 名免考学生中,有 11 名来自实验组,只有 5 名来自对照组。
[41] Balch 2006 摘要:
两个心理学导论班(N = 145)参加了一个平衡的课堂实验,该实验展示了间隔效应,通过类推,证明了分散学习的好处。在听了两次集中或分散呈现的单词后,参与者回忆了这些单词,并对他们回忆的方案进行了评分,他们可靠地记住了更多分散学习的单词而不是集中学习的单词。在多项选择题测试中,测试后的分数平均约为测试前的两倍,表明了在传达内容方面的练习的有效性。学生的主观评分表明,该实验有助于说服他们相信分散学习的好处。
[42] 见 Cepeda et al 2006↩︎
[43] Commins, S., Cunningham, L., Harvey, D., and Walsh, D. (2003). “Massed but not spaced training impairs spatial memory”. Behavioural Brain Research 139, 215-223↩︎
[44] Galluccio & Rovee-Collier 2006, “Nonuniform effects of reinstatement within the time window”. Learning and Motivation, 37, 1-17.↩︎
[45] 有关许多儿童方面的应用,请参阅前面的部分;之前未被引用的是 Toppino 1993, “The spacing effect in preschool children’s free recall of pictures and words”; 但 Toppino et al 2009 在年轻人的间隔重复中增加了一些有趣的限定词:
在有意学习时,学前儿童、小学生和大学生在图像的自由回忆中表现出间隔效应。当学习只是次要方面,并且在列表呈现过程中使用了一个需要很少语义加工的浅加工任务时,年轻人仍然表现出间隔效应,但儿童总是不能做到这一点。然而,当使用精心设计的语义加工任务时,儿童在非刻意学习中确实表现出间隔效应。
[46] 另一项先前未发表的研究:Glenberg, A. M. (1979), “Component-levels theory of the effects of spacing of repetitions on recall and recognition”. Memory & Cognition, 7, 95-112.↩︎
[47] 另请参阅 Kornell et al 2010; Simone et al 2012 显示间隔的好处,但在 56-74 岁的受试者中效果减小,类似于 Jackson et al 2012 和 Maddox 2013↩︎
[48] Mammarella, N., Russo, R., & Avons, S. E. (2002). "Spacing effects in cued-memory tasks for unfamiliar faces and nonwords". Memory & Cognition, 30, 1238-1251↩︎
[49] Childers, J. B., & Tomasello, M. (2002). "Two-year-olds learn novel nouns, verbs, and conventional actions from massed or distributed exposures". Developmental Psychology, 38, 967-978↩︎
[50] eg. Fishman et al 1968↩︎
[51] 著名「10,000 小时定律」的数字可能并不像 Ericsson 和 Malcolm Gladwell 等宣传者所暗示的那样真实或重要,因为与时间对抗的专业知识具有很高的方差,来自体育运动的结果显示了更少的时间投资(见 Hambrick’s corpus,会将「刻意练习」削减到一定的规模,Ericsson 荒谬地否认了基因的强大作用和拥有天赋的必要条件,但「刻意练习」帮助天赋之人的洞悉与领悟可能是真实的。一个人也许可以做到 3000 小时,而不是 1 万小时,但一个人不会通过无意识的重复或不重复来做到这一点。↩︎
[52] Gentner, D., Loewenstein, J., & Thompson, L. (2003). “Learning and transfer: A general role for analogical encoding”. Journal of Educational Psychology, 95, 393-40↩︎
[53] 来自 Kornell et al 2010:
当要学习的项目不完全重复时,间隔的好处似乎会减少或消失(Appleton-Knapp,Bjork,&Wkins,2005)…许多研究表明,集中而非间隔可以促进归纳学习。这些研究一般采用相对简单的知觉刺激,便于实验控制 Gagné,1950;Goldstone,1996;]Kurtz&Hovland,1956](https://www.gwern.net/docs/spaced-repetition/1956-kurtz.pdf);[Whitman J.R.,&Garner,W.R.(1963年)。“Concept learning as a function of the form of internal structure”. Journal of Verbal Learning & Verbal Behavior,2,195-202])。
[54] 高错误率——表明一个人实际上并没有在一开始就学习卡片内容——似乎与间隔效应的失败有关;这里有一些证据证明当人们还不了解材料的时候,他们自然会选择集中学习。↩︎
[55] 20 年是这样的(请注意科学记数法):[0.742675,0.27044575182838654,0.15275979054767388,0.10348750000000001,7.751290630254386e-2,6.187922936397532e-2,5.161829250474865e-2,4.445884397854832e-2,3.92305555555e-2,3.5275438307530015e-2,3.219809429218694e-2,2.97.2.1740583401051353e-2,2.0995431241707652e-2,2.0342238287817983e-2]
↩︎
[56] 需要排除一种情况,就是知识单单知道就很有用,虽然不常用到——就像知识金字塔中的一块砖。参见 Wolf 文中第三页:
如果我们能说服自己记住并不重要,遗忘的问题可能不会让我们如此痛苦。也许我们学到的东西——单词、日期、公式、历史和传记细节——其实并不重要。事实是可以查到的。这就是互联网的作用。说到学习,真正重要的是事物如何结合在一起。我们掌握故事、图式、框架和范例;我们排练行话;我们在知识中畅游。
这个想法非常令人欣慰,只可惜它是错的。「那些批评死记硬背的人——他们如果读到每个词都需要拼读出来,他们怎么想?」Robert Bjork 问道,他是加州大学洛杉矶分校(UCLA)心理学系主任,也是杰出的记忆研究人员。Bjork 指出,毕竟孩子们是通过大量练习才能流畅读出每个词的,而每次我们进入新的领域,我们又变成孩子了。「记忆是逃不掉的。」他说,「一开始总需要记住事物的名字。我们都要经历这关。把这关快速了结很重要。」人脑的联想能力是个奇迹,但为了能作出联想,就必须向记忆加载数据。
[57] 参见 Stephen R. Schmidt 的网页 “Theories of Forgetting”,其中在展示不同研究中遗忘曲线的对数图线时引用了「Woodworth & Schlosbeg (1961)」。↩︎
[58] 这样巧妙地解决了这样的邮件列表毫无用处的问题(「谁能看过一次就学会单词?」)。↩︎
[59] 如此利用 Mnemosyne, 我不仅学习了名言后能用上 ,而且还有了本流水账;几天前我在一篇文章里用上了 3 到 4 句恰切的引言,这便归功于数月数年前我把他们输入到 Mnemosyne 中了。↩︎
[60] 众所周知,任何说一门语言的人理解的单词都比他们将使用或能够显式输出的单词多得多,他们的「阅读词汇量」超过了他们的「写作词汇量」;不太为人所知的是,在许多问题上,一个人即使感到不确定和无知,也能以远远高于随机的速度进行猜测,这使得心理学家有必要采用强迫选择范式。更不为人所知的是认知记忆)或「内隐记忆」(implicit Memory)的能力;这种记忆可以应用于识别图像或文本或音乐、打字、解谜等。Andrew Drucker 在 “Multiplying 10-digit numbers using Flickr: The power of recognition memory” 一书中使用视觉记忆来计算 9883603368 × 4288997768 = 42390752785149282624;他引用 Standing 1973 作为先例:
在一项被广泛引用的关于识别记忆的研究中, Standing 向参与者展示了为期 5 天多达 1 万张的照片,每张照片曝光时间为 5 秒。然后测试了他们的熟悉度,基本上如上所述。参与者显示出 83% 的成功率,这表明他们在经历磨难的过程中已经熟悉了大约 6600 张图片。其他志愿者接受了较小集合的培训,即选择 1000 张生动图像,成功率为 94% 。
人们有时会看到人们争辩说,一些东西是不安全的、不可猜测的,或者免于可能的安慰剂效果,因为它涉及太多的对象,无法明确地记忆,但正如这些例子所表明的那样,识别记忆可以很快发生,并存储惊人的大量信息。这可以用于认证(例如,见 Bojinov 等人在 2012 发表的研究、Hacker News、讨论)和消息,因为认知记忆可以被用作一种安全沟通系统。双方可以共享一套 20,000 张照片(10,000 对);要发送信息,请信使花 5 天时间挑选 10,000 张照片;然后要接收,请他识别他在 10,000 对照片中的每一张中看到了哪张照片。受试者不仅不知道二进制信息是什么或什么意思,他甚至不能描述它,因为他不记得照片了!
在 80% 的准确率下,我们甚至可以使用香农定理计算出可以委托给信使的信息比特数;计算得出上限为 5.8 kb:如果 p = 0.2(基于 80% 成功率)。那么 10000 / (1 − (p × log2 p + (1 − p) × (log2 (1 − p)))) = 5807.44。
所以我们看到 Frank Herbert 终究是对的:发送信息最安全的方式是通过使魔信使!(其缺点是内建认知记忆会严重衰退;见 Landauer 1986 调整后的估计数)。↩︎
我有多相大约一年了。(不再是这样了,我的记忆力被扼杀了。)…主要是 Anki 复习。我发现我可以做大约 2-3 天的复习环节,然后会撞上一堵不可逾越的墙。我连一张新卡都学不会,脑子一团浆糊,直到多睡了 3 个小时。然而,这会重置我的适应能力。整个影响在普通人身上没有那么明显,但也不是很明显。但是,当你已经有一个内核时,增加睡眠会更容易。在最初的睡眠剥夺之后,我没有注意到任何其他严重的精神障碍。
[62] 最近的一项综述请见 Philips et al 2013.↩︎
[63] 想必有人会把所有卡片都评个高分,比如 5 分,以免某天突然要应付 500 张卡片。↩︎
[64] 数字小的更好。↩︎
[65] 「对于Mnemosyne 2.x,Ullrich 正在开发官方的 Mnemosyne iPhone 客户端,同步会很容易。」↩︎
[67] 参见 第 4 页, Wolf 2008:
间隔效应是在实验室中发现的傲人成果之一,而且它对专业教师甚至都不易察觉,因此饶有趣味。就在 Neisser 发表了成果同一年里,Robert Bjork 与贝尔实验室的 Thomas Landauer 合作,发表了两个实验的结果,这两个实验中有 700 个本科生参加。Landauer 和 Bjork 探究了增强记忆的最佳练习时机。他们的研究结果令人印象深刻:学习某件事的最佳时机是在你即将忘记它的那一刻。然而,也许正如 Neisser 预测的那样,这项发现在现实世界中是无用的。
[68] 当我第一次了解到 SuperMemo 的时候,我已经上过一堂认知心理学的课,对艾宾浩斯的遗忘曲线相当熟悉——所以我对 SuperMemo 方法论的反应就像赫胥黎的那句话一样:「竟没想到这个,实在是太愚笨了!」↩︎
[69] 另请参阅 page 7, Wolf 2008
然而现在,当我咧开嘴笑着向围观者挥手时,在我看来,他的方法中冰冷的理性可能只是表面现象,当与真正的奖励联系在一起时,即使是无情的系统也能产生某种发自内心的吸引力。将极端记忆的成就沿着遗忘曲线重新投射出来,在未来,我们将知道得更多,将这种未来与我们今天用于学习的几分钟联系起来,沃兹尼亚克找到了一种方法,将他的气质与他的记忆结合起来。他正在让未来变得引人注目。他不仅试图学习很多东西,而且还试图用一种乌托邦式的狂喜来温暖学习过程本身。