自 1985 年以来,Piotr Woźniak 一直在构建一个关于人类学习的模型。该模型的核心是一种内在的渴望,即通过愉快的知识整合来探索和理解世界。学习者永不停止地寻求高价值的信息,其核心由两个相互作用的模块构成:(A) 一个自适应的概念网络[1] (Concept Network),它是个体对世界不断增长的、高度网络化的语义表征;以及 (B) 一个学习内驱力[2] (Learn Drive) 系统,负责选择能塑造概念网络历史的认知行为。模块 (A) 的结构优化所带来的「乐趣」,可以被精确地识别,而这正是模块 (B) 的内在奖励。换言之,(B) 的动机,就是去学习如何创造出那些 (A) 尚不知晓但又能高效、连贯地整合进去的「有趣」信息。为了最大化未来的预期奖励,在没有外部强制的情况下,(B) 会学习越来越复杂的探索行为,这些行为能产生最初令人惊奇(但最终会变得熟悉的)高价值知识,从而使 (A) 的模型迅速优化。
注:本文是对《学习的乐趣》的一次形式化尝试。如有疑惑,推荐阅读原文。行文结构参考 Formal Theory of Creativity and Fun and Intrinsic Motivation Explains Science, Art, Music, Humor (Juergen Schmidhuber). Artificial Scientists, Artificial Artists, Developmental Robotics, Curiosity, Attention, Surprise, Novelty, Discovery, Open-Ended Learning, Formal Theory of Beauty, Creating Novel Patters
更形式化的表述: 设 C(t) 为某个主观学习者在时间 t 的概念网络的状态。设 I(t) 为在时间 t 输入的信息信号。学习者拥有一种自适应的机制,即知识估值网络[3] (Knowledge Valuation Network, KVN),用于评估任何信息 I 相对于当前概念网络 C(t) 的价值[4]。我们将信息 I 对于学习者在时间 t 的主观瞬时吸引力,即学习熵[5] (Learntropy) LE(I, (t)) 定义为:由 KVN 在给定学习者当前的前置知识、个人目标、处理速度和信道可靠性下,对 I 进行估值的输出。
我们进而将由信息 I 在时间 t 产生的内在奖励 (Intrinsic Reward),即乐趣 (Pleasure) P(I, C(t)) 定义为:学习熵的直接函数。P(I, C(t)) = f(LE(I, C(t)))。其中,当学习熵为正且显著时,该函数输出一个高价值的奖励信号(即 「哇!」因子);当学习熵为负时(例如,因解码失败[6]),它输出一个惩罚信号。学习内驱力系统在时间 t₀ 的目标是最大化 E[∑ᵀₜ=ₜ₀ P(I(t), C(t))],其中 E 是期望算子,T 是生命终点。这一目标通过学习内驱力系统选择认知行为(如注意力转移、信息搜寻)来实现。
在大脑中的实现: 该理论已通过对神经解剖学的观察得到验证。概念网络 C(t) 在生理上对应于分布在新皮质中的语义记忆网络。知识估值网络 (KVN) 是一个以眶额皮质[7] (OFC) 为中心的分布式估值电路,它整合来自情绪中枢和记忆比较器(如海马体)的输入,以计算学习熵 LE。内在奖励 P 对应于伏隔核等奖励中枢的激活。学习内驱力系统 (B) 则是驱动这一整个回路、将高 LE 信号转化为探索行为的神经机制。
该理论如何解释学习内驱力与学校外驱力的竞争: 学校系统引入了一个并行的学校外驱力[8] (School Drive) 系统,该系统对外部奖励信号 P_ext(t)(如分数、排名、避免惩罚)做出响应。学习者的总奖励函数变为 P_total = g(P_int(t), P_ext(t))。当处理强制信息 I_school 时,通常 P_int(t) ≤ 0(内在惩罚),而 P_ext(t) > 0(外部奖励)。这导致了一个神经层面的竞争性抑制[9]:为了最大化 P_total,处理外部奖励的通路必须主动抑制由学习内驱力系统产生的、指示知识不连贯的内在惩罚信号。
该理论如何解释习得性无助: 习得性无助[10]是上述竞争过程的长期渐近后果。在长期暴露于强制性的 I_school 信号下,学习内驱力系统 (B) 的神经通路因持续的抑制而发生负向适应(即相关通路变弱)。计算学习熵和产生内在奖励的能力本身会萎缩。最终,学习者将停止生成任何由内在动机[11]驱动的探索行为,即便外部强制被移除。其行为模式完全被学校外驱力系统所主导[12],从而丧失了天生的好奇心。
该理论如何解释教学的干扰与不连贯性[13]: 外部奖励信号 P_ext(t) 迫使学习者将低学习熵的信息 I_school 整合进概念网络 C(t) 中。这种整合是强制性的,违反了 KVN 的估值。这相当于在一个结构优化的树上,于一个任意的、不稳固的位置强行嫁接一个不兼容的枝条。由此产生的记忆痕迹在语义网络中是孤立的,缺乏深层连接,因此被标记为低价值。在后续的记忆优化过程(如睡眠中的突触修剪)中,这些不连贯的结构被系统识别为「噪声」并优先清除。这解释了为何在校所学知识易受干扰且在考试后迅速遗忘。
该理论如何解释拖延: 拖延是学习内驱力系统 (B) 的一种理性行为[14]。当面临一项强制性任务 I_task,KVN 会根据其与当前概念网络 C(t) 的不匹配,预测出一个低或负的学习熵,即 E[LE(I_task, C(t))] ≤ 0。因此,预期的内在奖励 E[P] 同样为零或负值。作为一个奖励最大化器,学习内驱力系统将采取最优策略,即选择执行其他能产生更高预期奖励的行为,从而推迟执行这个会引发惩罚信号的任务。
总结: 要解释人类的学习(或构建一个高效的学习系统),我们仅需几个关键要素:(1) 一个表征世界知识的动态网络结构,即概念网络;(2) 一个基于前置知识和目标的估值系统,即知识估值网络,它计算任何新信息的吸引力或学习熵;(3) 将学习熵直接转化为乐趣或痛苦的内在奖励机制;(4) 一个独立的学习内驱力系统,它将内在奖励转化为能最大化未来知识整合乐趣的行为序列。学习者被内在驱动,去不断地寻找并整合那些能使其概念网络以最令人愉快的方式生长的信息。
参考
1. 概念网络 ./266541480.html2. 学习内驱力 ./52990549.html
3. 知识估值网络 ./617467538.html
4. 知识估值 ./560852624.html
5. 学习熵 ./655457394.html
6. 解码失败惩罚 ./359921139.html
7. 位于眶额皮质的价值编码神经元 ./586408138.html
8. 学校外驱力 ./539022457.html
9. 神经网络战争 ./359658715.html
10. 习得性无助 ./575245791.html
11. 内在动机 ./26272464833.html
12. 大脑是完美的适应装置 ./630451665.html
13. 教学的连贯与干扰问题 ./359061669.html
14. 理性拖延 ./350725699.html