← 返回目录


为什么人类不进化出让自己在学习时分泌多巴胺的机制?

学校≠教育≠技能;文凭溢价=80%信号传递+20%人力资本

210 👍 / 12 💬

问题描述

如题 为何我不爱学习


知乎惯例,先问是不是,再问为什么。

首先,人类在学习时是会分泌多巴胺的。但可千万不要以为「分泌多巴胺」就是为了让学习变爽,在进化过程中让人类获得一点略微的优势。

那么,为什么它没有进化成一个让我们笼统地「享受学习」的机制呢?

因为从进化的角度看,那是一个非常低效且「偷懒」的设计。我们实际拥有的多巴胺机制要精妙得多,它不是一个简单的「奖励按钮」,而是一个精密的「教学与纠错系统」

  1. 多巴胺不是「奖励」,而是「教学信号」。 它分泌的核心目的不是让你享受学习的过程本身,而是作为一种奖励预测误差(Reward Prediction Error, RPE)信号。也就是说,它在你某个行为导致的结果超出预期时释放,告诉你:「嘿,你刚才那个特定的选择(比如判断刺激在左边并向左转)带来了意想不到的好处,这个策略值得加强。」反之,如果结果不如预期,信号减弱,告诉你这个策略需要修正。它是一个高度精确的校准和纠错系统,而不是一个模糊的「加油」信号。

  2. 这种「教学信号」是动态变化的。 在学习初期(新手阶段),你可能因为最终获得了奖励(比如喝到水)而分泌多巴胺,因为获得奖励这件事本身就是惊喜。但随着你逐渐掌握技能,奖励变得不再意外,此时多巴胺信号会前移,开始对预示奖励的线索(比如看到特定的视觉刺激)产生反应。它在不断地优化你的预测模型,而不是让你沉溺于学习行为本身。如果学习总是分泌多巴胺,你就无法建立这种精密的预测能力。

  3. 多巴胺信号是「策略特异性」的。 这项研究的关键发现是,多巴胺信号是针对特定策略的。比如,它会强化「看到 A 就做 B」这个具体的连接,而不是笼统地奖励你「正在学习」这个状态。这使得个体可以发展出多样化但系统性的学习路径(比如研究中发现的左偏、右偏、平衡策略)。如果只是一个通用的「学习多巴胺」,那我们可能都会变成千篇一律的学习者,无法形成高效的、个性化的技能策略。

所以,总结来说,进化没有给我们一个粗糙的「为学习而爽」的机制,而是给了我们一个极其精密的、基于预测和纠错的、动态调整的教学系统。这个系统通过多巴胺来精确地指导我们该加强哪条具体的神经通路,从而塑造出高效且个体化的长期学习轨迹。这远比一个简单的「学习快感」机制要高级得多。

这也意味着,如果学生在学习过程中持续感受到快乐,那么他恰恰就在一个高效的学习路径之上。如果学生在学习过程中持续感受到痛苦,说明这个学习环境是有毒的,无法让学生找到正确的策略。

参考文献

Dopamine encodes deep network teaching signals for individual learning trajectories: Cell

Cell | 多巴胺信号塑造个体长期学习轨迹的机制

彩蛋

汉化组日常深刻(但不正经)的讨论:

续:为什么有些人会变得不爱学习

因为我们从小到大接受的学校教育压制了我们大脑中自带的学习信号系统。这里需要介绍一个新概念:学习熵。

学习熵

学习熵是由学习内驱力[1]系统所决定的某个教育信号的吸引力。

有的课程很无聊,有的则让人目不转睛。学习熵从个人的角度描述各个课程的吸引力。

熵有精确的数学定义,但学习熵并非如此。其最佳衡量方式应该是,对经过分析的信号进行学习之后,个人的奖励系统所作出的反应。就像熵依赖于信息的概率一样,学习熵依赖于信息(图片、声音、语句等等)的奖励能力。其奖励能力与概率有关,但是具体估值主要依赖于知识估值网络

好的学习是有奖励的。但也有糟糕的学习。存在解码失败惩罚[2]:如果学生努力理解一条信息但失败了,他会受到惩罚。这会带来挫折感,这是厌恶学习的开始。如果学习熵低,奖励少,惩罚高,净结果可能是负的。如果我们将负面奖励信号算在内,学习熵实际上可能会是负值。一堂枯燥的讲座的学习熵可能是负的,导致学习内驱力被抑制。

知识估值较高,则学习熵也较高。这对于使人专注于知识的语义插入以实现长期记忆是必要的。学习熵提升学习内驱力,进而提升估值,估值反过来决定学习熵,构成强大的反馈循环。遗忘、习得性无助、衰老、受伤、脑力的可用性均会控制这个循环的强度。只要理性学习、良好生活,特别是要尊重自然创造力周期[3],这个循环可在学习内驱力较高的平衡状态下保持数十年。

最优信息传授

在学校教育中,我们可能设想课堂的学习熵都是最优水平,让学生能不停地赞叹喝彩,马不停蹄地记笔记。但更常见的情况是,课堂很无聊或是熵信号很高,但学习熵很低,甚至是负的。

既然最优学习熵与学生有关,老师怎么能做到向教室里的所有学生都最优地传授知识呢?这样全面地传授知识,有时几乎毫无可能,且至少也需要天才教师才能实现。大部分老师的课堂上,大部分学生不是无聊得昏昏欲睡,就是丝毫不懂抓耳挠腮。

只有少数幸运儿能通过听课学到大部分知识。对很少一部分有天分的孩子来说,老师的授课可能完全讲不出新东西,非常无聊。而对于其他孩子来说,授课内容则可能过于复杂,超出了他们的理解能力。这种情况下,他们如果勉强去理解,则可能遭受巨大的挫折。一堂关于弦论的课程,可能就跟随机打乱的一段中文一样难以理解。于是乎,听课不过是浪费时间。诺贝尔奖获得者 Carl Wieman 将课堂比作放血

为了避免负学习熵带来的挫败感,学生们会无视授课内容,就像对待我之前提到的泰语频道一样。孩子们会忽略来自老师的「静电噪音」,转向其他更适合其学习熵水平的频道(例如,桌下手机上的 facebook)。即使他们的理解力很好,老师的授课也可能并不能对他们的现有知识作出补充。如果不能生成高质量高价值的泛化,授课内容将被认为是显而易见或无关紧要的。

即使低学习熵只是偶尔发生的情况,也会使学生不再关注授课内容。过一段时间,学生们就会发展出一套过滤系统,把老师变成一个承载零熵、零学习熵的无声广播频道。再怎么提高授课质量只是徒劳——老师已经消失了!

在课堂环境中,学生通常不能将注意力集中在更好的信号上。所有的学生都会收到同样的信号,他们可能会感到同样的无聊。相比之下,在谷歌上搜索好的关键词,大脑会在恰到好处的低概率信息流中应接不暇,这些信息像拼图一样适合当前的知识树[4]。谷歌是一个非常便宜且高效的「哇!」生成器。

渐进学习中,大脑的学习熵扫描仪将挑选那些最好的频道,对其进行优先级排序,并采用完美的时机来最大化语义连接和记忆巩固。于是乎,为什么「我非常高兴我永远再不会被迫坐在学校的课桌旁!」是很容易理解的。我太喜欢学习了!

上面所有的例子都说明了,在识别什么值得学习时,信号和大脑之间的相互作用是多么错综复杂。学习的奖励是衡量学习质量的最广为人知的指标。当学生们高兴时,我们就是在正确的道路上。当学校给学生带来痛苦时,我们整个社会就是失败的。

知识的互补性和连贯性[5]的唯一可靠指标是学习内驱力[1]系统的神经网络。这就是知识不能预先打包并强加给学生的原因。

结晶比喻[4]解释了这一点。奖励系统的神经细节在学习的奖励这一节阐释。

相关文章

学习的乐趣 - 知乎4 学习内驱力 - 知乎


参考

1. 学习内驱力 ./52990549.html
2. 解码失败惩罚 ./359921139.html
3. 自然创造力周期 ./68262875.html
4. 知识结晶比喻 ./268536400.html
5. 连贯性与一致性 ./264327134.html

← 返回目录