学习的目标设定
世界各地的教育体系都试图为地球上平均智力水平的人规划出最优的课程[1]。在这一探索中,成年人运用人类的全部经验,试图为孩子优化学习目标。这种方法的问题在于,概念网络[2]中的所有知识都是在概念化[3]过程中逐层构建起来的。由概念化[3]所引发的适应过程,受到一系列人类需求、与环境(尤其是知识环境)的互动以及既定目标的共同调控。我们固然可以向孩子解释这些目标,并期望他们的适应过程能朝着这些方向发展。然而,目标本身所获得的估值[4],终将反映概念化过程自身所选择的方向。我们能做的,仅仅是播下思想的种子,播下目标的种子。为一个大脑设定一个外在目标,并指望它通过理性控制自行达成,是行不通的。如果一个目标没有深深植根于其知识估值网络[4]之中,那么在追求这个目标的过程中,就不可能调用学习内驱力[5]。
在自由学习[6]中,为一个正在发展的智慧大脑设定外在目标,几乎是不可能的。
自由探索
概念化[3]过程基于涌现[7]现象,它只能受环境和内在需求所调控。我们可以在孩子的房间里摆满书籍,却无法强迫他去阅读。所有外部控制因素都绝不能干扰整个过程的核心价值评估系统:学习内驱力[5]。对学习内驱力的干扰,将不可避免地导致大脑中不同神经网络的冲突以[8]及学习内驱力的压制[9]。其结果是,整个概念化过程都可能偏离正轨。通过奖惩手段来干预内在需求,同样会扭曲概念化过程。如果一个孩子忍饥挨饿,他会产生强烈的动机,将概念化过程引向满足身体的营养需求。然而,这类激励方式未必有助于取得高水平的智力成就。在极端情况下,我们或许能在孩子五岁时就培养出一个完美的斯巴达勇士。但是,一个将心智忙于构建「勇士之道」的大脑,在未来的人生中,恐怕很难在抽象知识[10]的殿堂里翱翔。
一旦基本需求得到满足,获取知识便成为最主要的驱动力。开放地接入全球知识网络,或许是实现高效、无偏见的概念化[3]过程中,最不带偏见的工具。在此期间,成年人可以在一旁布下诱人的「鱼饵」以激发孩子的探索。这些「鱼饵」可能是一台给未来科学家的显微镜,或是一根给未来体育明星的棒球棒。如果运气好,这些「鱼饵」可以轻轻推动孩子的发展轨迹,然而,所有的探索都必须是自由的,才能达到最优状态。
自由探索是高效概念化[3]的必要条件。其探索方向偶尔可以被幸运的激励措施所引导。
干预的危害
每当成人世界试图设定最优的教育目标时,总是忽略一个事实:所有的教育轨迹都建立在基于个体知识碎片的估值而进行的增量优化之上。所有崇高的教育目标,都很容易因为预设的学习路径中包含了过陡或过缓的台阶而毁于一旦。每一次做出次优的学习选择,学习进程就会被拖慢,学习内驱力也会被逐渐抑制。此外,强制学习[11]总是在过于陡峭的台阶上受挫,这将不可避免地导致毒性记忆[12]和对学习的憎恶[13]。
对学习过程的强制干预,必将压制学习内驱力[5],并阻碍未来的进一步探索。
学习如登山
学习内驱力[5]的运作方式是通过比较环境中的价值梯度。通过比较不同知识碎片的价值以及信息来源的学习熵[14],大脑会构建一个目标函数,以便从环境中以最优的方式选择最高效的高价值知识流。这种优化过程可能会陷入局部最优。在数学优化算法中,常需要一定程度的随机扰动。同理,学习内驱力[5]也可能会利用创造力[15]的随机性。这使得学习内驱力的引导具有非确定性。微小随机扰动的累积效应是,即使环境相同,两个完全相同的大脑在同样的学习内驱力[5]驱动下,也会产生截然不同的结果。
在一个儿童群体中,每个孩子都会找到自己独特的局部最优点。这将促成群体技能资产分布的和谐平衡。成人世界的作用应仅限于令人信服地描绘出宏伟的愿景,并为那些陷入缺乏吸引力的局部最优困境中的人提供非强制性的援助。学习内驱力[5]同时满足了局部最优和群体最优的标准。
学习内驱力[5]在探索过程中的引导,好比数学优化中的「爬山算法」。
作为最佳指引的学习内驱力
在构建高效概念网络[2]的过程中,新的知识碎片必须与已有知识相匹配(参见:拼图比喻[16])。这意味着,外部人员不可能预测哪些知识碎片能恰好匹配。互动式教学在识别这些知识碎片方面或许相当有效,然而,整个过程必须由学习内驱力[5]来主导。例如,一位导师在讲解一道数学难题的精妙之处时可能效率很高,但学习内驱力[5]可能会发出指令,要求转换到另一种学习形式或领域(例如,由于特定领域的疲劳)。
学习内驱力[5]能够(通过知识估值网络[4]))比较两块知识的价值,也能够评估信息流的价值(即其学习熵[14])。凭借这些能力,学习内驱力好比一种嗅觉,能高效地侦测出环境中的信息价值。
由于学习内驱力[5]依赖于已有的知识和独特的知识估值[4],它是不可替代的。因此,它为学习过程提供了最优的指引。
人们很容易误解「学习内驱力最优性」这一论断。它是一个高效的控制系统,负责监督知识碎片的筛选和信息渠道的选择(基于其学习熵[14])。但这并不意味着对学习内驱力[5]的依赖是绝对且封闭的。学习内驱力需要与其他驱动力(如性欲)竞争。从这个意义上说,学习选择可能是次优的,尤其是在奖励被剥夺的情况下,因为这会放大某些特定的驱动力(参见:奖励剥夺[17])。
此外,对知识或信息渠道的最优选择,并不能保证获得最优的知识。在极端情况下,知识可能是错误的,甚至导致个体死亡。学习内驱力的最优性,仅限于在学习过程中做出的选择。
学习内驱力的最优性,并不意味着决策的最优性,更不代表行为或结果的最优性。
群体最优性
在学习内驱力[5]的指导下,知识概念化[3]的涌现[7]可以比作进化中物种的涌现。最优标准保证了局部最优的轨迹,可以形成一个多样化的、平衡的生态系统。由于没有最优的物种,所以人类的知识也没有最优。
在学习内驱力[5]引导下,知识通过概念化[3]而涌现[7]的过程,堪比进化过程中物种的出现。最优性标准确保了局部最优的发展轨迹,这能促成一个多样化[18]且平衡良好的生态系统。正如不存在最优的物种一样,也不存在最优的人类知识。
正如 Georgios Zonnios 所言:
进化自然而然地朝向一个众多不同部分之间高度相互依赖的状态发展。对知识而言,这意味着个体学习者会学习与自身情境相关的内容。对社会而言,这意味着知识的方方面面会被不同的人以不同的方式所覆盖。在机会充裕、资源充足的地方,变化可能发生得非常迅速。例如,某个特定领域的劳动力严重短缺,会自然地促使个体朝该领域发展,这或许是通过增加在该领域工作的激励来实现的。
课程[1]设计者试图扮演上帝的角色,设计出一种能够最优化利用地球资源的完美单一「物种」。这种努力是徒劳的,它反而破坏了教育的崇高目标。同理,大学阶段的晚期专业分科,无异于将物种分化推迟到恐龙时代才开始。
有一个简单的爬山比喻[19],学习内驱力[5]对于直接教学的优越性。
关于学习内驱力[5]为何优于直接指导[20],有一个简单的登山比喻[19]:
比喻。为何要使用比喻?
在登山时,成年人或许能看到顶峰(目标),但孩子却能看清眼前的道路(通过学习内驱力[5])。成年人总是试图确定性地朝着视野内的顶峰前进。而孩子则可能攀登到新的高度(即达成新的发现)。看清眼前的道路确保了攀登的局部最优,也为整个登山群体带来了全局最优。这样一来,个体的攀登无需是全局最优的,也无需是确定性的。更多详情请见:学校教育的登山比喻[19]
架构的差异化
自由学习[6]的力量根植于这样一个事实:同样的抽象知识[10],可以由不同架构的概念网络[2]来表征,而这些网络具有不同的估值[4]、稳定性[21]和可提取性等特性。
不同的网络对相同的输入可能产生不同的输出。它们可能为同一个问题提供不同的解决方案。最重要的是,对于同样的佐证,它们可能倾向于采纳不同的模型。
即便网络的拓扑结构完全相同,其输出结果也取决于连接的属性和一定程度的创造性随机。而概念计算[22]的输出结果又会反馈给网络,从而导致多样化——即使初始的环境输入和大脑状态完全相同,这种多样化也是不可避免的。
例如,一位从人工智能神经网络领域转而研究大脑的科学家,可能会对大脑的运作方式产生连接主义的误解。而我,则是通过长期记忆的双组分模型[23]进入同一研究领域的,因此我立刻倾向于祖母细胞理论,这又使我更倾向于自己对大脑概念化[3]过程的理解,继而又让我更倾向于教育的差异化,最终坚定了我对自由学习[6]的热忱支持。一种按部就班的学校教育方法,会要求大家学习一本名为《大脑》的完美教科书,这样一来,就不会有相互竞争的思想流派,只会有一个由这本完美教科书所定义的「唯一真理」学派。
由于这些架构原因,学习的顺序决定了知识的分层和最终结构。学校的同质化学习,目标是相同的模式和相同的架构。现实中,由于概念网络架构的自然分化,学校教育就会崩溃。与其在分化的概念化[3]过程中逆流而上,不如让每个学生为每一个抽象的模型建立自己的语义框架[24]。这是人类创新的关键。
由于这些架构上的原因,学习的顺序决定了知识的层次和最终结构。学校的同质化学习旨在塑造相同的模型和相同的架构。而现实是,由于概念网络架构的自然分化,这种学校教育模式必然会崩塌。我们不应逆着概念化[3]过程分化的洪流而上,而应让每个学生为每一个抽象模型[25]构建自己的语义框架[24]。这才是人类创新的关键所在。
即使在初始时,环境输入、大脑状态和网络拓扑结构完全相同,概念化[3]的过程也总是趋向于分化。
电子游戏的争议
针对学习内驱力[5]最优性,最常见的反驳是:如果让孩子们自由选择,他们会整天沉迷于电子游戏[26]。
家长们说得没错,孩子们在获得自由的初期确实会沉迷游戏。但这种沉迷会因奖励的耗尽而逐渐减弱,从而提高了其他竞争性奖励的价值,如:朋友、运动、YouTube、社交媒体等。
学校才是导致这种游戏沉迷现象的首要原因。年幼的孩子可能从小看着父亲玩游戏机长大,但他们真正开始沉迷于游戏,其程度往往与学业压力成正比。到某个阶段,第二个因素可能开始发挥作用:家长时而禁止、时而限制电子设备,这种前后不一的做法制造了可变奖励[27]。这可能会螺旋式地演变成真正的成瘾,当孩子最终获得完全自由时,可能需要很长时间才能从中恢复。
即便是对游戏施加简单而一致的限制,如果这个限制相对于孩子的需求而言过于严苛,也可能适得其反。如果没有达到饱和状态,孩子总是感到意犹未尽,那么游戏的奖励价值就会因「敏化效应」而增强。这类似于口渴时只被允许喝八分饱的水,结果越喝越渴的敏化现象。这将导致其他可自由获取的奖励来源的价值被相对抑制。下一次我们口渴时,可能会更早、更激烈地去争取水喝。通过为游戏设定过窄的时间限制,即便规定执行得很一致,也可能会加剧孩子对游戏的渴望。
学习内驱力[5]的最优性,也可能像一个完美的和谐生态系统被单一的害虫物种破坏一样,遭到损害。
即便是对大脑奖励系统进行一次微小、看似理性的干预,也可能压倒学习内驱力[5]所带来的回报,从而破坏其最优性。
局部最优问题
在优化的道路上,确实存在一些铺满糖果的歧途,让孩子们在电子游戏中迷失方向。理论上,似乎可以设计出这样一个学习空间,让人类陷入某种虚拟现实的局部最优陷阱中。不过,鉴于如今网络上存在着无穷无尽的探索可能性,这样的设计不太可能实现。但这在理论上是一个有趣的思考。
假如有人真的在虚拟现实中找到了一个「假的顶峰」,那么强制教育恰恰是那种能够让这一错误发现永久流传的社会性错误。学习内驱力[5]具有部分随机性,其最优性必须从群体的视角来审视。
学习内驱力的最优性,指的是它作为知识价值和信息渠道价值的最佳比较器的能力。这并不意味着学习内驱力可以免受其他奖励(如赌博、酒精、性等)的竞争。和谐发展的关键在于自由。正是对自由的限制导致了奖励剥夺,而奖励剥夺可能引发成瘾(包括游戏成瘾)。
即便学习内驱力[5]让人陷入了局部最优的陷阱,自由探索也是摆脱困境的最佳机会,至少从整个群体的角度来看是如此。
电子电路的比喻
如果将学习内驱力[5]控制系统比作一个电子电路,那么关于其最优性的论证就会变得简单而明了。学习内驱力[5]就像一个开关。如果损坏了这个开关,整个知识网络都可能失灵。没有学习内驱力[5],知识库就无法有效扩展,也无法修复开关本身的损坏。
参见:学习内驱力的电路比喻[28]
最优控制理论
关于学习内驱力[5]这一概念及其在教育中的应用,有一个颇具讽刺意味的转折。在我长达 22 年的学校教育中,最后几次强制经历之一,便是在科技大学与 Puchalka 教授的冲突。1986 年,我终于可以按自己喜欢的方式自由学习了。解决了兵役问题后,我本可以自由退学。然而,我选择了一条所谓的「个人学习路径」来攻读计算机科学的理学硕士学位。我可以自由增删我的学习书目(参见:我如何发明了完美的学校教育[29])。但只有一个附带条件:我的新学习计划必须得到学院批准,而 Puchalka 教授同意的唯一条件是:他主讲的控制理论课程必须保留在列表上。这门课依然是必修的(如果我想获得学位)。Puchalka 教授说:「控制理论就是一切。任何工程师都不能在不理解这门学科的情况下毕业」。他说得对:控制理论主导着如此众多的科学分支,没有它,我们会在各种场合选择错误的策略。但 Puchalka 教授也错得离谱。恰恰是控制理论本身应该告诉他,你无法控制一个学生的学习内驱力[5]。
(1)一个通过概念化[3]过程学习且拥有学习内驱力[5]的大脑,与(2)它所处的环境之间的互动,正是一个连续运行的动态系统,也就是 Puchalka 教授希望我研究的那种系统。稳定而有效的控制建立在选择自由之上。学习内驱力引导系统是学习过程中的最优控制器。学习内驱力利用知识估值网络[4]作为传感器接收输入的过滤器。过滤后的信号被送入信号比较器。被控制的过程变量是环境中可用的信息渠道的学习熵[14]。系统会将其与一个基于输入价值的移动平均值推算出的学习熵期望值进行比较。当信号值低于某个水平时,学习内驱力系统便可能启动对新知识源的搜索。
只有学习内驱力[5]系统才能最大化输入信号的学习熵[14]。老师的介入则会在系统中引入控制误差。逆反心理[30]是控制器对这种误差的反应。自由是高效学习的一个必要条件。这也包括跳过控制理论课的自由。反正我迟早会回到控制理论上来的,只是会在一个合适的时间,以一种合适的背景。
如果不先在知识估值网络[4]中打下基础,你就不可能让一个学生高效地学习。更糟的是,强制会引发逆反心理[30],从而损害学习过程。1986 年,我极度渴望学习编程。我将编程置于优先地位是完全正确的。编程不仅为日后更好地理解控制理论奠定了一些基础(算法可能比微积分更直观),更重要的是,它将我引向了 SuperMemo 之路,这彻底改变了我的人生轨迹。Puchalka 教授是控制理论领域的顶尖专家,但这并没能帮助他理解学习过程的最优控制理论。我在那门考试中作弊了(大概是我一生中唯一的一次),毕业时对控制理论知之甚少,并在其后数年里对这门学科抱有负面情绪。幸运的是,对知识世界树突般的探索,必然会再次将我引向这个主题。而恰恰是控制理论,为学习内驱力[5]的最优性提供了理论支撑。老师绝不应该强迫学生学习。孩子越聪明,逆反心理[30]就越强,对自己自主权的捍卫就越激烈。三十三年后,Puchalka 教授早已退休,而我感到自己当年的选择得到了彻底的印证。他对于控制理论价值的判断是对的,但我对自己学习方式的坚持也是对的。我自己的这段经历,为我争取年轻一代教育解放的斗争增添了额外的动力:强制学校教育必须结束[31]。
原文:Optimality of the learn drive
参考
1. 课标 ./469943493.html2. 概念网络 ./266541480.html
3. 概念化 ./264989664.html
4. 知识估值网络 ./617467538.html
5. 学习内驱力 ./52990549.html
6. 自由学习 ./272543239.html
7. 涌现 ./349290940.html
8. 神经网络战争 ./359658715.html
9. 学校外驱力 ./539022457.html
10. 抽象知识 ./270927894.html
11. 学习中的强迫 ./351872034.html
12. 毒性记忆 ./67390960.html
13. 为什么孩子们讨厌学校 ./70779863.html
14. 学习熵 ./655457394.html
15. 创造力 ./450093869.html
16. 拼图游戏比喻 ./271646965.html
17. 奖励剥夺 ./597949223.html
18. 多样性 ./624245045.html
19. 爬山类比 ./66683201.html
20. 直接教学法 ./360820529.html
21. 记忆稳定性 ./559298549.html
22. 概念计算 ./304193622.html
23. 记忆的两个组成成分 ./99505568.html
24. 语义框架 ./295032009.html
25. 模型 ./560324024.html
26. 电子游戏 ./479108151.html
27. 可变奖励 ./518129740.html
28. 好奇心就像开关 ./616163443.html
29. 我如何发明完美的学校教育 ./557973703.html
30. 反抗 ./514347163.html
31. 强制教育必须结束 ./418098485.html