人工加法智能

❦

试想以下场景：人类完全不知道自己到底是如何进行四则运算的。人类能数清羊有几只，能把两组数加起来，但这种能力是自然进化而来，而非后天学习所得。这种能力与生俱来，人类能加以运用，但并不知其内在机制；正如亚里士多德能看见东西，但并不知道视觉皮层的运作原理。我们所熟知的皮亚诺算数公理体系没有被发明出来。有一些哲学家正致力于形式化对数字的直觉，但他们会使用如下记号——

加起来（七，六）= 十三

他们想使用诸如此类的记号，形式化一件看起来很直白的事：把「七」加上「六」，就会得出「十三」。

在这个世界里，袖珍计算器的工作原理，是存储一张巨大的算术结果对照表；这张表由一支专业的「人工算术家」队伍手动录入，涵盖了从「零」到「一百」的初始输入值。尽管这些计算器从实用层面上来说也许有其价值，但许多哲学家认为，它们只是在模拟加法，而不是真的在做加法。机器不可能真的计数——这就是为什么人类必须先数清「十三」只羊，然后再把「十三」输入计算器。计算器只能复述预存数据，却永远无法理解这些语句的含义——如果你输入「两百加上两百」，计算器会说「错误：超出范围」；然而，只要你知道这些词具体是什么意思，那答案显然就是「四百」。（译注：本文全篇采用将计算机拟人为智慧生物的手法来进行隐喻和故事。此处「算术家（Artificial Arithmetician）」是刻意为之的拟人化表达，用以对应现实语境中的「人工智能（Artificial Intelligence）」。）

当然，也有一些哲学家不会被这种直觉轻易欺骗。数字其实是一个纯形式系统——「三十七」这个标签之所以有意义，并不是因为这些词本身具有某种内在属性，而是因为这个标签指涉了外部世界中的三十七只羊。一个数字之所以具备这种指涉属性，是因为它与其他数字之间相互关联所构成的语义网络。因此，在计算机程序中，用于表示「三十七」的语法单元（ LISP token）不需要任何内部结构——它的意义仅仅来源于指涉和关联，而不是说「三十七」本身具有某种计算属性。

至今为止，还没有人研发出「通用人工算术家」；当然，针对特定领域的「狭义人工算术家」倒是有很多，只会处理「二十」到「三十」之间的数字，诸如此类。并且，只要看看在处理「二百」这一区间的数字时，研究进展有多么缓慢，就不难发现，「通用人工算术」在短期内是不可能实现的。业内顶尖专家估计，计算器要想赶上一个十二岁人类孩子做加法的能力，至少还需要一百年。

然而，并非所有人都同意专家的预估，也不是所有人都认同关于人造算术的平庸俗见。人们经常能听到类似以下的说法：

「这是个框架问题——『二十一加』等于多少，取决于后面是『加三』还是『加四』。只要我们储入足够的算术事实，覆盖所有人都知道的那些常识，网络就能涌现出真正的加法。」（译注：框架问题（The Frame Problem）是人工智能领域的经典难题。计算机系统在处理特定任务时，难以像人类那样凭借常识自动筛选出相关信息并忽略无关信息。由于AI很难界定解决问题所需的有效上下文（即「框架」），早期的AI研究者曾试图通过为系统人工输入海量的常识与背景知识，来克服这一瓶颈。）
「但是，光靠雇佣专家手工录入，永远都不可能编入那么多的算术事实。我们需要的是一种能够『学习』的『人工算术家』，让它去学习人类在童年时通过观察一堆堆苹果所掌握的、数字之间庞大的关系网络。」
「不，我们真正需要的是一种能理解自然语言的『人工算术家』；如此一来，我们不需要显式告诉它『二十一加十六等于三十七』，它自己就能通过探索互联网来获取知识。」
「坦白说，在我看来，你们只是在努力说服自己这是个可以被解决的问题而已。你们当中没人真正理解算术是什么，所以只能在这些泛泛的论调里盲目摸索。『我们需要一个能学习 X 的人工算术家』，『我们需要一个能从互联网提取 X 的人工算术家』。我是说，这听起来很好，显得像是取得了进展，对公关也有利，因为大家都觉得自己听懂了你们提出的解决方案——但这并不会让你们更接近通用加法；充其量只是特定领域内的加法。也许我们永远都无法理解算术的本质。这个问题对人类而言实在太难了。」（译注：出自英国哲学家科林·麦金（Colin McGinn）关于人类意识的著名论断。麦金是心灵哲学中新神秘主义（New Mysterianism）流派的代表人物，他提出了认知封闭（Cognitive closure）理论，认为人类受限于自己大脑进化的局限性，永远无法理解意识的本质，解决这个问题对人类的心智而言「实在太难了」。）
「所以，要开发通用算术家，我们需要采用大自然的方式——进化。」
「自上而下的方法显然是无法产生算术能力的。我们需要自下而上，某种让算术涌现的方法。我们必须承认复杂系统的基本不可预测性。」（译注：代指现实中的连接主义，即神经网络、深度学习或演化算法。）
「你们都错了。过去制造机器算术的努力从一开始就注定徒劳，因为计算力根本不够。看看人类大脑里有多少万亿个突触，就知道计算器的查找表远远不够大。我们需要与人类大脑同等强大的计算器。按照摩尔定律，这将发生在 2031 年 4 月 27 日凌晨 4:00 到 4:30 之间。」（译注：现实中，有许多研究者（例如机器人专家汉斯·莫拉维克 Hans Moravec）曾通过估算人脑神经元和突触的数量、以及神经冲动的频率，来推算人脑的等效计算能力，如每秒进行多少次浮点运算。该论调认为，过去AI没有取得突破，仅仅是因为硬件算力不够，只要计算机的算力规模达到了人脑的突触级别，真正的智能自然就会实现。）（译注：著名未来学家雷·库兹韦尔极度推崇摩尔定律（以及他提出的广义上的“加速回报定律”），并以此预测人工智能的未来。他曾多次公开预测：人类将在 2029年制造出达到人类智力水平的AI，并在 2045年迎来“技术奇点”。）
「我相信，只要研究者把一整个完整人脑的每一个神经元都扫描进计算机，从而模拟人类进行加法的生物电路，机器算术就会被开发出来。」
「我觉得用不着扫描整个人脑。神经网络就像人脑一样，你可以在不知道它们如何做到的情况下训练它们做事。即便我们这些创造者无法理解这些程序具体是怎么算术的，我们依然可以创造出能够算术的程序。」
「但哥德尔定理表明，任何形式的系统都不可能捕捉到算术的基本属性。经典物理是可形式化的，因此要把二加二算出来，大脑一定利用了量子物理。」（译注：此段论述对应现实中诺贝尔物理学奖得主罗杰·彭罗斯（Roger Penrose）提出的理论。根据哥德尔不完备定理，人类能够理解或发现任何固定形式化系统，也就是传统计算机算法，无法证明的数学真理。因此，人类的心智活动，如算术和数学直觉，具有不可计算性；经典物理系统，包括传统的神经生物学过程，其运行规则是可计算、可形式化的（formalizable），能够被传统计算机完全模拟；因此，既然大脑能完成经典物理计算能力无法涵盖的任务，其底层机制必定超越了经典物理。彭罗斯据此推论，大脑的意识活动必定依赖于某种非计算性的量子力学现象。）
「嘿，如果人类算术简单到我们能在计算机里复现，我们就不可能数到足够大的数字，从而制造出计算机了。」（译注：出自物理学家埃默森·M·普吉（Emerson M. Pugh）：「如果人类大脑简单到我们能够理解它的程度，那么我们也会简单到根本无法理解它。」）
「你们都没听说过 John Searle 的中国计算器实验（Chinese Calculator Experiment）吗？就算你真的有一套巨大的规则，能让你把『二十一』与『十六』加起来，试想一下把所有词都翻译成中文，你就会发现其中并没有真正的加法运算。系统里根本没有任何真正的数字，只有人类用来表示数字的标签……」（译注：出自约翰·罗杰斯·瑟尔的思维实验中文屋：一个对中文一窍不通，只说英语的人关在一间只有一个开口的封闭房间中。房间里有一本用英文写成的手册，指示该如何处理收到的中文讯息及如何以中文相应地回复。房外的人不断向房间内递进用中文写成的问题。房内的人便按照手册的说明，查找合适的指示，将相应的中文字符组合成对问题的解答，并将答案递出房间。约翰·瑟尔认为，尽管房里的人可以以假乱真，让房外的人以为他说中文，但事实上他根本不懂中文。正如房中人不可能透过手册理解中文一样，计算机也不可能透过程序来获得理解力。）

这个寓言的寓意不止一个，在不同的语境下，我在讲述这个故事时想表达的寓意也有所不同。比如，它阐明了组织层级的概念——一个 CPU 能够将两个大数字相加，是因为这些数字并非不透明的黑盒对象，而是由 32 个比特组成的有序结构。

但出于克服偏见的目的，让我们从中提炼出两条寓意：

第一，相信那些无法凭借自身知识重新推导出的断言，是很危险的。
第二，试图回避对基础概念的困惑，是很危险的。

为免有人指责我在从虚构证据中做归纳，这两条教训同样可以从人工智能的真实历史中得出。

第一种危险，是「人工算术家」设备在对象层级上遇到的问题：它们像磁带录音机一样，只会播放那些系统外部生成的「知识」，而无法在内部掌握生成这些知识的过程。一个人可以告诉设备「二十一加十六等于三十七」，设备可以记录并回放这句话，甚至还能通过模式匹配，在遇到「二十一加十六」时输出「三十七！」——但设备本身无法仅凭自身生成这样的知识。

这让人不禁联想到，你相信一位物理学家告诉你「光是波」，你记录下这些迷人的词句；当有人问「光是由什么构成的？」时，你再把这些词句回放出来；然而，你无法仅凭自己推导出这一知识。

第二条寓意，是让「人工算术」研究者与指手画脚的外行都深陷其中的元层级危险——一遇到认知中令人困惑的空白，就试图绕着走；宁愿做任何其它事，唯独不愿咬紧牙关、俯身填补那个该死的知识缺口。

无论是说「这是涌现出来的！」，还是说「这是不可知的！」，这两种说法都没有承认这样一个事实：存在着某种目前人们还不具备，但其实是可以掌握的基础洞见。

如何才能知道自己什么时候能掌握一个新的基本洞见？没有什么好方法，只能正面迎战问题，学习与之相关的一切，尽可能从各种角度去研究，如此种种数年。学术界每月至少得发表一篇论文，不是追求这种东西的地方。风险投资者也不可能为此买单。大家想要的是，要么现在就把东西造出来，要么就干脆放弃，转行去做别的事。

看看上面的评论：没有一条试图去探寻那个缺失的洞见——那个能让数字不再神秘、让「二十七」不再只是黑箱的洞见。没有任何评论者意识到，他们的困难实际上源于自己头脑中的无知或困惑，而不是算术本身的内在属性。他们没有努力让那个令人困惑的东西不再令人困惑。

如果你读过 Judea Pearl 的《Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference》，1 就会明白，对于那些需要图模型来解决的难题，其背后的基本洞见是不可或缺的。（恐怕这不是什么能几句话讲清楚的东西，所以你只能自己去读这本书了。我还没见过哪篇关于贝叶斯网络的在线科普文章，能把这些原理背后的原因，或者是其数学形式必须如此的必要性讲得如此透彻；但 Pearl 的书确实精彩。）曾经有几十种「非单调逻辑」，笨拙地试图捕捉这样一种直觉：「如果我家的防盗警报响了，那可能有窃贼；但如果我随后得知我家附近发生了一次小地震，那可能就不是窃贼」。一旦掌握图模型这一洞见，你就能用数学语言准确地解释为什么一阶逻辑在这个问题上不适用，并能以一种极其紧凑的方式表达正确的解决方案，优雅地囊括进所有的常识细节。而在获取这一洞见之前，你只能不断地缝缝补补，添加越来越多的补救措施，强行让逻辑与一切看起来「显然为真」的东西相符合。

在没有取得窍门之前，你是不可能知道人造算术问题是否无解的。如果你不懂规则，你就更不可能知道那条「做任何事都必须先懂规则」的规则。于是，就会出现各种看似可能奏效的聪明点子，例如去制造一个能阅读自然语言、并从互联网下载数百万条算术断言的「人工算术家」。

然而不知为何，这些聪明点子总是行不通。不知为何，结果往往证明，你之所以「看不出任何行不通的理由」，纯粹是因为你对眼前的障碍一无所知，而不是因为障碍不存在。这就像蒙着眼睛朝远处的靶子射击——你可以盲射一次又一次，喊着：「你无法证明我打不中靶心！」但在摘下眼罩之前，你连瞄准都做不到。当「没人能证明」你珍爱的点子不对时，意味着你并没有足够的信息，去命中浩瀚的答案空间里那个小小的目标。在你确切知道你的点子会奏效之前，它就是行不通的。

回顾人工智能发展史上那些关键洞见的诞生过程，以及在这些洞见出现之前曾被提出的种种乱象中，我得出了一个重要的现实教训：当最核心的问题在于你的无知时，任何试图绕开这种无知的聪明策略，最终只会让你搬起石头砸自己的脚。

Thoughts Memo 翻译合集

人工加法智能