事物空间(Thingspace)的聚类结构
原文:The Cluster Structure of Thingspace
❦
「构型空间」(configuration space)的概念,是一种将对事物的描述转化为事物位置的方法。蓝色似乎比红色「更接近」蓝绿色,但到底近多少?光盯着颜色看是很难回答这个问题的。但如果你知道 RGB 中的(比例)颜色坐标是 0:0:5、0:3:2 和 5:0:0,就会很有帮助。如果把它们画在三维图表上,就会更加直观。
同样地,你可以把知更鸟就看作是一只知更鸟——棕色的尾巴、红色的胸部、标准的知更鸟形状、空载时的最大飞行速度、它物种典型的 DNA 以及个体的等位基因。或者,你也可以把知更鸟看作构型空间中的一个点,这个空间的各个维度描述了我们所知道的、或者可能知道的关于知更鸟的一切。
一只知更鸟比病毒大,但比航空母舰小——这可以说是「体积」维度。同样,知更鸟比氢原子重,但比星系轻;这可以说是「质量」维度。不同的知更鸟在「体积」和「质量」之间会有很强的相关性,所以在这两个维度上,代表知更鸟的点会连成一条相当线性的带状区域——但由于这种相关性并非完全精确,我们确实需要将它们设为两个独立的维度。
这就是把知更鸟看作空间中的点的好处:如果你只是把知更鸟想象成可爱的拍打着翅膀的小生物,你就无法轻易看出这种线性的排列趋势。
知更鸟的 DNA 是一个高度多维的变量,但你仍然可以将其视为知更鸟在事物空间(thingspace)中位置的一部分——这是由数百万个四进制坐标组成的,每个 DNA 碱基对应一个坐标——或者可以用比这更复杂的视图来理解。知更鸟的形状和颜色(表面反射率),你同样可以认为它们是知更鸟在事物空间中位置的一部分,即便它们并非单一维度。
就像坐标点 0:0:5 包含的信息与实际的 HTML 蓝色完全一样,当我们把知更鸟看作空间中的点时,我们实际上并不应该丢失任何信息。无论我们是在脑海中描绘一只在天平上与 0.07 千克砝码平衡的知更鸟,还是想象一个质量坐标为 +70 的知更鸟点,我们对知更鸟质量的信念是完全一致的。
我们甚至可以想象一个包含更多维度的构型空间,事物的每一个独特特征都对应一个或多个维度,这样事物在这个空间中点的位置就对应了真实事物本身所包含的全部信息。这种表示甚至是相当冗余的——维度将同时包括质量、体积和密度。
如果你觉得这太异想天开,量子物理学家们使用的就是无限维的构型空间,该空间中的单个点就描述了宇宙中每个粒子的位置。所以,相比之下,我们在对「事物空间」的想象上其实已经相当保守了——事物空间中的一个点只描述了一个事物,而不是整个宇宙。
如果我们不确定知更鸟的确切质量和体积,那么我们可以在事物空间中想象出一小团云,也就是一个不确定性体积(volume of uncertainty),知更鸟就可能身处其中。这团云的密度就代表着我们对知更鸟具有该特定质量和体积的信念浓度。如果你对知更鸟的密度比对其质量和体积更有把握,那么你的概率云在密度维度上就会高度集中,并且在质量/体积子空间中集中在一条斜线周围。(事实上,因为 V D = M 这一关系,这里的「云」实际上是一个曲面。)
「辐射状范畴」(Radial categories)是认知心理学家用来描述词汇那非亚里士多德式边界的术语。处于核心位置的「母亲」怀上了孩子,生下了孩子,并抚养了孩子。那么,一个从未见过自己孩子的卵子捐献者算母亲吗?她是「基因学母亲」。如果是一个被植入外来胚胎并将其生下来的女人呢?她是「代孕母亲」。那么抚养了一个在基因上与自己无关的孩子的女人呢?哦,她是「养母」。亚里士多德式的三段论会这样推导:「人类有十根手指,Fred 只有九根手指,所以 Fred 不是人类。」但我们实际的思维方式是:「人类有十根手指,Fred 是人类,所以 Fred 是一个『九指人类』。」
正如前面所描述的那样,我们可以从内涵(intension)的角度来思考类别的辐射性——那些通常存在,但也可以缺失的属性。如果我们思考「母亲」一词的内涵,它可能就像是事物空间中散布的一团辉光,这团辉光的强度与该事物空间的体积符合「母亲」类别的程度相匹配。这种辉光集中在同时具备遗传、分娩和抚养属性的核心区域;代表卵子捐献者的空间体积也会发光,但亮度会暗一些。
或者,我们也可以从外延(extension)的角度来思考类别的辐射性。假设我们将世界上所有的鸟类都映射到事物空间中,并使用一种尽可能与人类感知相似度相吻合的距离度量方法:一只知更鸟与另一只知更鸟更相似,比起它们中的任何一只与鸽子更相似;但是知更鸟和鸽子彼此之间,比它们中任何一只与企鹅更相似,依此类推。
那么,「鸟」的所有属性的中心将会密集地分布着许多相邻的紧密聚类,包括知更鸟、麻雀、金丝雀、鸽子以及许多其他物种。鹰、隼和其他大型猛禽将占据附近的另一个聚类。企鹅会在更远的一个聚类中,鸡和鸵鸟也是如此。
最后呈现的结果,确实可能像一个天文星团:许多星系围绕着中心旋转,此外还有一些游离在外的离群星系。
或者,我们可以同时考虑认知类别「鸟」的内涵,以及它在现实世界中鸟类的外延:中心聚类的知更鸟和麻雀散发着高度典型「鸟性」的明亮光芒;属于卫星聚类的鸵鸟和企鹅则散发着非典型「鸟性」的黯淡光芒;而在几百万秒差距之外的亚伯拉罕·林肯则完全不发光。
我更喜欢最后一种可视化方式——发光的点——因为在我看来,认知内涵的结构,本就是遵循外延聚类结构而产生的。首先存在的是现实世界中的结构,也就是鸟类在事物空间上的经验分布;然后,通过观察这种分布,我们形成了一个类别,其内涵的辉光大致覆盖了这个现实结构。
这也为我们提供了另一个视角,说明为什么词汇并不是亚里士多德式的类:因为现实宇宙在经验上的聚类结构并没有那么棱角分明。一个自然聚类——即一组彼此高度相似的事物——可能并没有一套共同的必要和充分属性;没有哪一套特征是所有群组成员都有、且所有非成员都没有的。
但即使一个类别无可挽回地模糊且凹凸不平,也没有必要惊慌。如果有人说鸟类是「有羽毛的飞行物」,我不会反对。但企鹅不会飞!——好吧,没关系。常规法则总有例外;这并不是世界末日。无论在何种情况下,都不应期望定义能与事物空间的经验结构完全匹配,因为地图本身就比领土更小、更不复杂。「有羽毛的飞行物」这个定义的重点,是将听众引向鸟类聚类,而不是对存在的每一只鸟进行细致到分子级别的全面描述。
当你围绕着在事物空间中在经验层面上聚集的一组外延点画一个边界时,你可能会发现,对于你所能发明的每一个简单的内涵规则,都至少存在一个例外。
但如果一个定义在实践中运作得足够好,足以指向预期的经验聚类,那么对它提出异议,大可以被称作「吹毛求疵」。