在伪装的查询[1]一文中,我谈到了对「蓝蛋」和「红方」进行分类的任务。典型的蓝蛋是蓝色的、蛋形的、有绒毛、有弹性、不透明、在黑暗中发光,并且含有钒。典型的红方是红色的、立方体、光滑、坚硬、半透明、不发光,并且含有钯。为了简单起见,让我们暂且忘掉有弹性/坚硬和不透明/半透明这两个特征。这就为事物空间[2]留下了五个维度:颜色、形状、质地、亮度和内部成分。
假设我想创建一个人工神经网络(ANN),用观察到的蓝蛋特征来预测未观察到的特征。再假设我对人工神经网络相当天真:我读过那些让人热血沸腾的科普书,书里吹嘘神经网络是分布式的、涌现的、并行的,简直就跟人类大脑一模一样!! 但我却连在带有 Sigmoid 激活函数的非循环多层网络中,如何推导梯度下降的微分方程都不知道(这其实比听起来简单得多)。
那我可能会设计出一个类似于「网络 1」这样的神经网络。

网络 1 是用来区分蓝蛋和红方的。但因为「蓝蛋」是一个陌生且人造的概念,所以我又建了一个类似的网络 1b,用来区分人类和太空怪物;其数据输入来源于亚里士多德(「人终有一死」)和柏拉图学园(「有着宽指甲的无羽毛两足动物」)。

神经网络需要一套学习规则。一个显而易见的想法是,当两个节点经常同时被激活时,我们就应该增强它们之间的连接——这是最早被提出来的神经网络训练规则之一,也就是著名的「赫布法则」(Hebb's Rule)。
因此,如果你经常看到既是蓝色又有绒毛的东西——从而同时激活了处于正向(+)状态的「颜色」节点和处于正向(+)状态的「质地」节点——那么颜色和质地之间的连接就会增强,于是正向的颜色就能激活正向的质地,反之亦然。如果你看到一个东西是蓝色的、蛋形的、而且还含有钒,那这就会加强颜色、形状和内部成分三者之间正向的相互连接。
假设你已经看过了大量从传送带上下来的蓝蛋和红方。但现在你看到了一个长着绒毛、蛋形的,并且——倒吸一口凉气!——紫红色的东西(我们将它的「颜色」激活值设定为 −2/3)。你还没来得及测试它的亮度,或者内部成分。该预测什么呢?该预测什么呢?
这时,网络 1 里的激活值就开始来回震荡了。正向激活信号从形状流向亮度,负向激活信号从颜色流向内部成分,负向激活信号又从内部成分流向亮度……当然啦,所有这些信号都是 并行!! 且 异步!! 传递的,就像人类大脑一样……
最终,网络 1 陷入了一个稳定的状态,此时「亮度」和「内部成分」都有着极高的正向激活值。可以说这个网络「预期」(尽管它还没亲眼看到)这个物体会在黑暗中发光,并且含有钒。
看呐,即便没有任何一个明确的节点来宣称这个物体到底是不是蓝蛋,网络 1 还是展现出了这种分类行为。判断结果 隐含在整个网络之中!! 「蓝蛋性」(Bleggness)成了一个 吸引子(attractor)!!,它是从 分布式!! 学习规则中产生的 涌现行为(emergent behavior)!! 的结果。
但在现实生活中,这种网络设计——无论它听起来有多么时髦前卫——都会遇到 各种各样 的问题。循环网络并不总是能立刻稳定下来:它们可能会发生震荡,或是表现出混沌状态,或者仅仅是需要花极长的时间才能稳定。当你看到一个巨大的、黄色的、带条纹的东西时,要是你还得等上五分钟,让你那分布式的神经网络慢慢收敛到「老虎」这个吸引子上,那可绝对是件糟心事。它或许是异步的、并行的,但它绝对不是实时的。
而且还有其他问题,比如当信号在网络里来回弹射时,会导致重复计算证据[3]:如果你怀疑一个物体在暗处会发光,你的这丝怀疑就会激活「该物体含有钒」的信念,而这个信念反过来又会进一步增强「它在暗处发光」的信念。
除此之外,如果你试图把网络 1 的规模扩大,它需要 O(N²) 个连接,其中 N 是可观察特征的总数。
那么,究竟怎样才是更切实际的神经网络设计呢?
在网络 2 中,一股激活波从任意已被固定(观测到)的节点汇聚到中心节点,然后再次发散到所有未被固定(未被观测到)的节点。这意味着我们只需一步就能算出答案,而不用苦苦等待网络稳定——对于神经元放电频率只有 20Hz 的生物体来说,这是一个极其重要的要求。此外,这个网络架构的规模随节点数增长的复杂度是 O(N),而不是 O(N²)。

必须承认,有些现象在第一种网络架构下确实比在第二种下更容易被注意到。网络 1 的任意两个节点之间都有直接连接。所以,如果红色物体 从来不在 黑暗中发光,但那些红色的、长着绒毛的物体却通常带有蛋形和含有钒等其他「蓝蛋」特征,网络 1 就能很轻松地表示出这一点:它只需要在颜色和亮度之间建立一个极强的直接负向连接,同时在质地与除了亮度以外的其他所有节点之间建立更强的正向连接即可。
而且这也不能算是对「蓝蛋会发光」这一普遍规律的「特殊例外」——别忘了,在网络 1 中根本就不存在代表「蓝蛋性」的节点单元;「蓝蛋性」仅仅是作为一个吸引子,在分布式网络中涌现出来的罢了。
所以,没错,那 O(N²) 个连接确实带给了我们一点点好处。但也仅此而已了。在大多数现实世界的问题中,你极少会遇到卡在「猫」和「狗」正中间的动物,因而在这种情况下,网络 1 并没有展现出 更高 的实用价值。
(网络 1 和 网络 2 都有不易表示的事实。假设海蓝色和球形这两个特征如果同时出现,就必然意味着含有钯;但如果它们只出现其中一个而没有另一个,它们各自却又都是含有钒的极强证据。如果没有额外的节点,无论是哪种架构都很难表示这种关系。网络 1 和网络 2 都包含了对「现实环境中大概率存在哪种结构」的隐含假设;在机器学习领域,能否敏锐地察觉出这一点,是将高手与菜鸟区分开来的分水岭。)
千万别搞错:无论是网络 1 还是网络 2,都不符合真实的生物学原理。但是,我们仍然有理由做出一个合理的猜测:不管大脑实际上到底是怎么运作的,从某种意义上说,它肯定更接近网络 2 而不是网络 1。计算快、成本低、可扩展性强,在区分猫和狗时表现优异:自然选择就喜欢这种东西,就像水自然而然地沿着适应度景观(fitness landscape)的斜坡往下流一样。
把物体分类成蓝蛋或红方,并把它们扔进相应的箱子里,这看起来是一项再普通不过的任务。但如果海蓝色的物体从来不在黑暗中发光,你会注意到这一点吗?
也许会吧,前提是有人把二十个唯一的共同点就是海蓝色的物体摆在你面前,然后关掉灯,你发现这些物体一个都没发光。换句话说,除非事实明摆着拍在你脸上。也许当你看到这群被集中展示的海蓝色物体时,你的大脑会形成一个新的子类别,并在该子类别中检测出「不发光」这一特征。但如果这些海蓝色的物体混杂在一千个其他的蓝蛋和红方中间,你大概率是注意不到的。因为察觉这种规律并不像区分猫和狗那样 容易 且 直观。
或者想想这个三段论:「苏格拉底是人,人终有一死,所以苏格拉底终有一死。」亚里士多德怎么知道苏格拉底是人呢?嗯,苏格拉底没长羽毛,有着宽指甲,直立行走,说希腊语,而且,总体看来长着一副人的样子,行为举止也像人。于是,大脑一劳永逸地做出了判定:苏格拉底是人;并由此进一步推断:苏格拉底也像迄今为止观察到的所有其他人一样,终有一死。如果去探究究竟是「穿衣服」还是「使用语言」与人类的「必死性」关联更大,似乎既不容易也不直观。大脑只会简单粗暴地认为「穿衣服且使用语言的东西就是人」并且「人终有一死」。
试图一劳永逸地将事物分门别类,这种做法是否会带来认知偏差?当然会。例如,你可以去看看像邪教一般的反邪教组织[4]。
上一篇:
伪装的查询下一篇:
算法的内部感受Thoughts Memo 汉化组译制
感谢主要译者 gemini-3.1-pro,校对 Jarrett Ye
原文:Neural Categories
参考
1. 伪装的查询 ./2050519448814195814.html2. 事物空间的聚类结构 ./2050179140419072823.html
3. 虚假的因果 https://hpmor.xyz/ai2zb_33/
4. 邪教式反邪 ./2004256642078884961.html