这是关于将心智模型付诸实践的系列文章的最后一部分。在第一部分[1]中,我描述了自己在运用芒格「建立心智模型网格」以提升决策能力的建议时所遇到的问题,然后在第二至第四部分深入分析了决策科学的文献。
我们了解到,判断与决策之间存在差异,而决策领域本身又分为经典决策理论与自然主义方法两大流派。两种方法都基本同意决策是「搜索」的一种形式;然而,经典方法强调效用最优化与理性分析,而自然主义方法则认为「满意即可」,两者一致建议你直接去积累专业知识。在第五部分[2]中,我们探讨了一些建立专业知识的方法,特别是如何从你身边的专家身上「提取」他们默会的心智模型。
第六部分,将以一些关于「实践认识论」的个人反思为本系列画上句号。我曾在本系列开篇时承诺会就此撰文,现在便是兑现之时。本文始于一个简单的问题,终于一个相当复杂的答案。那么,我们开始吧。
当有人给你建议时,你该如何在实践前评估这条建议?
显而易见,你的头脑中存在某种评估过程——毕竟,你不会全盘接受所有建议。如果你感冒时同时收获了专业医生和汽车修理工的建议,你会更倾向于听从医生的建议。
可我们面对的现实并不仅是从医生和修理工间进行选择。我们常常需要评估来自各种信息源的「真理」主张——有些来自善意的朋友,有些来自我们付费咨询的顾问,还有些则来自二手、三手的传闻,或是那些希望将毕生所学流传后世的实践者们所写的书籍。
我们能否为「何时该听取建议、何时不该」制定出更好的规则?毕竟,很多人的默认设置只是「我凭直觉相信她是对的」。一个稍好些的答案是「看看科学怎么说!」或「看看证据的权重!」但这又会将你抛入另一个棘手的困境,面对诸如「你愿意花功夫去评估一整个学术文献体系吗?」、「这个子领域的科学家们有多大可能是在用伪造结果篡改 p 值以求终身教职?」、「这个科学领域是否受到了可重复性危机的影响?」、「当代研究方法能否在排除混淆变量的情况下,测量出我希望应用到生活中的效果?」以及「对于这个自我提升的领域,科学究竟有无可说之处?」等一系列难题。
我们稍后便会发现这是个很复杂的问题。但花时间仔细思考这个问题似乎是值得的,毕竟「凭直觉行事」这个默认选项,看起来并不怎么高明。
为什么是认识论?
不过,我们先谈正事。我想,一定有人会问,一篇关于认识论的文章,出现在一个探讨如何将心智模型付诸实践的系列里,究竟是做什么?我们在一到五部分中,都在追求可操作的指导性模型,为何突然转向认识论——一个如此理论化、如此抽象的话题?
我将此文纳入本系列,有两个原因。首先,建立一个真理标准能让我在智识上保持诚实。我在第一部分写过,待系列完结时,我会为这个框架提供一个认识论基础,以便你们能用我在此提出的观点来审视我。本文便是兑现承诺之作。
修辞的力量是强大的,所以请带着批判的态度审视你所读到的一切。
其次,认识论基础之所以重要,因为它将一个完善的理论框架与纯粹的巧辩区分开来。这是什么意思?嗯,一件事听起来有说服力,不代表它就是真的。与多数事物一样,决定真伪的,不是论证的说服力,甚至不是其合理性,而是它是否与现实相符。在我们的语境下——一个关于实践的框架的语境下——决定这个框架是否为真的,是它是否对你有效。
这话说来似乎有些老生常谈,但我认为它背后支撑着一个非常重要的理念,那就是:修辞的力量是强大的,所以你不能轻易相信你所读到的一切。
我不知道你们当中多少人有过这样的经历:读完某本非虚构类书籍,完全被其中的论点所折服,结果数年后读到对该书的批判,又转而相信那篇批判才是正确的。
又或者,你读了某本书,深信不疑,但几个月后却恍然大悟,作者的论证中存在一个极其荒谬的漏洞,天哪,我当初怎么就没看出来? 我不确定你是否如此,但这在我身上时有发生,频繁到我开始觉得,自己在阅读时缺乏应有的批判能力。
我的观点是,足够聪明的作者,加上足够高超的修辞技巧,可以使文章变得极具说服力。因此,拥有一套经过明确思考的个人认识论作为心智防御,是很有裨益的。
你或许已经看出了我将要阐述的方向——我在本系列中已多次提及「以现实为师」的各种形式。但这并不适用于所有场景。例如,尽管有人持相反观点,但在经济政策这类问题上,「以现实为师」是否奏效尚不明确(你无法亲身检验各派主张,且尽管各方都引用研究论文和统计数据来支持其立场,你应意识到,从一系列研究中探求真理,远比你想象的要困难得多[3]。)
但「以现实为师」在处理实践性事务时——比如自我提升,或者评估一个心智模型实践框架时——却相当有效。因为它为你提供了一个更简单的检验方法:你亲自试试,看它是否奏效。
科学知识的认识论
在我们深入探讨如何检验实践性建议的细节之前,让我们先审视一下当今世界知识的「黄金准则」。对许多人而言,这个黄金准则就是科学知识:即那些我们通过科学方法检验过的、关于现实的知识。科学哲学,是学术界中最关注科学方法中真理本质的分支。
(「哦不,」我仿佛听到你在心里说,「他要开始谈哲学了——这玩意儿能有多大用处?」)
嗯,我会给你一个超浓缩版本。我认为,科学认识论中有两个伟大的思想对我们很有用。
第一个思想是关于证伪。你可能听说过黑天鹅的故事:在很长一段时间里,人们都以为天鹅皆白。直到有一天,威廉·德·弗拉明(Willem de Vlamingh)和他的探险队抵达澳大利亚,在天鹅河岸发现了黑天鹅,人们才恍然大悟,原来事实并非如此。
哲学家大卫·休谟(David Hume)因此评论道:「再多对白天鹅的观察,也无法推断出所有天鹅都是白色的;但只要观察到一只黑天鹅,就足以驳倒这一结论。」休谟真是个了不起的家伙,他接着还说我们永远无法真正识别现实中的因果关系,那科学还有什么意义呢?
但休谟那句名言所要揭示的,是证实与证伪之间的不对称性。再多的证实,也无法让你断定一个假说是正确的;但一次证伪,却能轻而易举地推翻它。因此,自休谟、康德和波普尔以来的科学传统,都将证伪作为其核心焦点。如今的理念是,你只能试图证伪假说,而永远无法证明它们。
你只能试图证伪假说,而永远无法证明它们。
当然,在实践中,我们确实会遵守某些默认的常识。每当我们试图挑战权威却证伪失败,这些结论会随着时间的推移而变得更「真」。这就是我们说科学传统中的所有真理都是「有条件地为真」时的含义——即,我们视其为真,直到出现某些非凡的、能够推翻它的反证。在此期间,科学家们的任务就是竭尽全力去证伪各种理论。
让我们用概率的语言来重述上一段。说某事「有条件地为真」,即是说我们永远无法百分之百地确定某事。相反,我们试图证伪我们的假说,每当证伪失败一次,我们对该假说的信念——比如从 0.6 开始——就会增加一点。最终,在反复未能找到反证之后,我们说「所有天鹅非黑即白」,但我们对此陈述的信心永远不会达到 1,或许会徘徊在 0.95 左右。如果我们发现了一群橙色的天鹅,这个信念就会骤降至接近 0。
(哈!开个玩笑,现实中根本不是这样。真实情况是,那些将整个职业生涯都押注在黑白天鹅上的科学家们,会涌向《自然》杂志的评论版,大声疾呼那些橙色的鸟根本不是天鹅,并质问大家怎能相信发表这篇论文的黄毛小子们!?科学,只在理论上是简洁的,实践中则不然。)
这个对科学认识论的粗略描绘,已足以让我们理解第二个思想:即,并非所有科学研究都生而平等。即便是对证伪性最浅显的理解也会告诉你,任何单一研究都无法代表真理;只有纵览众多研究后呈现出的宏观趋势,才能告诉我们某个假说是否「为真」。
这个概念通常被称为「证据层级」,常以以下形式呈现:

你上面看到的证据金字塔是医护专业人员最常学习的模型,它向我们展示了在对某个论断——例如「吸烟是否致癌?」或「涂防晒霜是否有害?」——做出判断时,可以使用的各种研究类型。金字塔底部是社论和专家意见,往上是机理研究(旨在揭示作用机制)、案例报告与案例研究(基本就是轶事)、横断面研究与调查(「这个人群中是否存在某种模式?」)、病例对照研究(「选取两个人群,回顾性地检验模式」)、队列研究(「选取两个在某个潜在诱因上不同的人群,前瞻性地观察他们,看是否会发生不良事件」)、随机对照试验(「设立一个对照组和一个干预组,看干预后会发生什么」),最后,在金字塔顶端,是系统性综述和元分析,它们是对众多研究结果的研究。
所以,「防晒霜有害吗?」如果你想省事,答案就是去学术文献里找一篇系统性综述,或者更好:元分析。元分析尤其被视为科学真理的黄金标准;这类研究本质上是对研究的研究——它们总结了大量论文的结果,并根据其统计功效进行加权。当然,做出一篇糟糕的元分析也是可能的,原因与零假设显著性检验可能被滥用来支撑劣质研究如出一辙。但总的来说,科学体系是我们探求真理的最佳方法。
然而,不幸的是,它的很大一部分对个人实践并非特别有用。
科学研究应用于实践的难题
假设你正在尝试设计一个招聘流程,并决定查阅学术文献以寻求指导。心理学中一个被广泛验证的结论是,尽责性和智商是工作表现的有效预测指标。那么,解决你招聘难题的答案就是设计一个能筛选出高尽责性、高智商候选人的面试流程,对吗?
嗯……不对。
这是个非常糟糕的主意——我深有体会,因为由于缺乏统计学素养,我曾经试过。反对这么做的理由有两点。第一,统计预测指标对具体个人的预测效果不佳。第二,科学往往无法为我们的特定情境提供最佳实践,因为它只关注那些效应量大到足以在相当规模的人群中被检测出来的现象。
这两个反对理由虽是针对招聘场景,但在你将科学研究应用于个人生活时也普遍适用。我发现它们与评估专家建议时所面临的挑战有某些相似之处,让我们逐一审视。
将科学研究应用于实践的第一个难题,是统计预测指标的本质。我们来谈谈智商。我们知道,智商与工作表现的相关系数在 0.45 到 0.58 之间,且在工作复杂度更高的岗位上,这种相关性更强。我们谈论的可是智商——应用心理学中证据最确凿的结论之一;过去四十年里,关于智商的研究数以千计,元分析也有数十篇可供选择。
我们能相信这些相关性吗?能。我们能用它们来根据一个智商评分预测某个人的工作表现吗?不能。
为什么?在《别为个人智商操心》一文中,斯科特·亚历山大(Scott Alexander)用收入不平等作了类比:
思考一下收入不平等:富裕家庭的孩子在人生中占有优势,贫困家庭的孩子则处于劣势。
从研究的角度看,理解这一点至关重要。一个否认出身富裕能让你占得先机的科学体系,在智识上是可耻的。知道财富会代际传承,是理解社会最基本的前提;任何因政治原因而被迫否认这一点的人,最终都会陷入无可救药的困惑,以至于干脆放弃建立一个连贯的世界观。
但从个人的角度看,出身贫寒或许不是好事,但不应让人彻底绝望。它并不意味着一个孩子该自怨自艾:「我家一年只挣 3 万美元,看来我注定要失败了,干脆别努力了。」贫困的孩子相对于富裕的孩子当然处于劣势,但这一点,恐怕她在科学家来告诉她之前早已心知肚明。如果她将关于代际收入传递的科学研究,看得比她对生活艰辛的笼统感受更权威、更具决定性——如果她偏执地记录父母的每一次加薪和奖金,认为这决定了她自己的前途——那她就是赋予了科学超出其应得的分量。
这实际上是一种非常务实的做法。
我有一位从事人工智能研究的朋友,他对智商研究的反应正是如此。他在理智上承认,智商是真实存在的,并会带来实际后果,但在个人层面上,他拒绝所有这类研究。在他的研究工作中,他假设每个人都同样聪明,科学洞见源于辛勤工作和技能积累。这样做有各种实际的好处:我相信这种心态能保护他免于毁灭性的自我怀疑,还能让他避免诸如「哦,弗兰克当然能写出那篇论文,他比我聪明」这类浅薄的解释。
「科学家关心的是真理,而实践者关心的是效用。」
这里的要点是,对于许多问题,科学关心的往往是宏观层面的真理——例如,在群体层面上的真实情况——而非对个体有效的方法。将这些研究结果作为社会层面的现实来接受,但在日常的个人发展中将其搁置一旁,是务实且完全正确的做法。我记住这一点的方式是:「科学家关心的是真理,而实践者关心的是效用。」
一个更具体的解释是,你应该预料到会发现各种表现极其出色但智商低于平均水平、尽责性得分也低的人。统计数据告诉我们这些人比较罕见,但那又如何?0.58 的相关性也仅仅解释了 34% 的变异。如果你的招聘流程只看重智商和五大性格特质测试的分数,你可能会错失多少潜在的优秀人才?而且,既然谈到这个话题,你的招聘流程,究竟应该是为了寻找智商和尽责性测试的高分者,还是为了寻找,比如说,真正的人才?
这引出了我们的第二个反对理由。由于科学研究关注的是普遍真理,大多数研究并不会提供对你在特定领域中特别有用的具体指导。以此类推,在我们的招聘问题上,你很有可能通过深思熟虑的实验,设计出比学术文献中任何方法都好得多的测试。
举个例子。我在设计公司招聘流程时,曾将调试能力作为筛选候选人的第一道关卡。这源于一个观察:一个调试能力强的程序员,未必是个伟大的程序员;但一个调试能力差的程序员,绝不可能成为一个优秀的程序员。这个道理事后说来似乎显而易见,但我们花了相当长的时间才想明白,又花了更长时间才意识到,一个调试技能评估,可以成为我们招聘漏斗顶端一个极其有效的筛选测试。
我们的调试测试,是否比智商或尽责性测试更能预测在我们这家特定公司的工作表现?是的。它是否是智商的某种替代指标?也许吧!我们能在学术文献中找到它吗?不能。
为什么会这样?你可能会想,在所有可用的知识形式中,科学理应能提供最佳答案。但它常常不能,原因有二。首先,如前所述,科学研究常关注普遍真理,而非具体的实用指导。我用「常常」这个词,是因为必须有相应的激励机制,科学界才会对你可用的事物投入大量关注——例如,药物研究,或体育科学。在这种情况下,科学为我们提供了一个了解世界可用真理的绝佳窗口。
但如果机缘不巧——如果对某些研究问题缺乏关注或资金激励,那么你应该会发现,关于该问题的可用科学研究也同样是一片空白。我的领域——软件工程——就是如此:我们绝大多数的软件工程「最佳实践」,都源于专家程序员的轶事和经验分享,他们通过书籍、博客和会议演讲,共同贡献着他们对「正确做事方式」的看法。(留给敏锐读者的思考题:我们软件工程师,生活在证据层级的哪个层次?)
招聘的例子也完美地说明了这个问题。在招聘方面,我们所拥有的只是统计预测指标:即某项特质的测量(智商、尽责性、毅力)与工作表现的某种替代指标(薪水、职级、同事评价)之间的相关性。如前所述,统计预测指标对研究目的很有用,但在个体层面则不然;我们真正想要的,是某种干预性研究,即开发一个流程,然后在干预组和对照组中实施。
然而,这还不是最糟的。科学对实践者常常无用的第二个原因是,即便有资金激励来进行「具有工具效用」的研究,也可能依然缺乏可用的建议,原因很简单:科学的发展相对缓慢。
举个例子:由于我个人有长时间工作的倾向,我一直对预防职业倦怠很感兴趣。去年年底,我决定深入研究关于职业倦怠的学术文献。当我发现该领域的文献史只有二十年时,我大吃一惊——而且该领域的前景正在好转。布坎南与康斯丁(Buchanan & Considine)在 2002 年观察到,一半的澳大利亚护士过早离职,其中大多数是由于职业倦怠。换言之,找到职业倦怠解决方案的紧迫性现在真的、真的很高,财力雄厚的医疗机构正开始推动研究人员前进。正是这种关注度和资金激励,催生了具有工具效用的科学研究——那种你我都能直接应用于生活的研究。
那么,他们发现了什么?经过二十年的研究,他们开发出了一种检测职业倦怠的测试——马斯拉奇职业倦怠量表——以及两个关于职业倦怠如何在个体中产生和发展的模型。(你可以在马斯拉奇 2016 年发表的这篇「领域现状」综述论文中读到所有细节)。但他们尚未发现一个严谨的、能预防职业倦怠的系统。
(有人相信,将这些发展模型逆向推导,能为我们的工作场所提供普适的指导。因为这些模型告诉我们职业倦怠如何一步步压垮我们的热情,从而为我们提供了阻止其发展的线索。但是!请记住我们之前关于「普适」干预措施的告诫,并牢记这在证据层级中的位置。)
然而,最让我感兴趣的,是研究中一个关注职业倦怠抵抗力训练的小分支——即,经历过职业倦怠并从中恢复的个体,日后会对职业倦怠产生更强的抵抗力。我非常希望这个研究分支能发展出有用的成果,但唯一已知的方法,就是再给它十年左右的时间让它继续发展。这,便是真理的代价。
这里的要点是,在科学知识已然存在的领域,选择深思熟虑的试错,并非一个荒谬的立场。那种「哦,我不明白你为什么不能直接把心理学家的发现应用到你的实践中」的说法过于轻率——现在,答案已不言自明:科学关心的是普遍真理,与你(或他人)通过观察和实验能得出的结论相比,它常常无法提供更好的具体指导;更糟的是,如果你一开始就基于某个科学模型来构建你对现实的认知,并坚信该模型对你独特情境的有效性远超其实际情况,那么你很可能会固守这个模型,远超其有效期限。
当然,这只是用一种非常复杂的方式在说,某些形式的知识最好从实践者那里学习——你想学武术,就去找一位师傅;你想学烹饪,就跟厨师学,而非食品科学家。当你感兴趣的是 technê(技艺)时,就不要从 epistêmê(知识)开始。
当然,我并非说科学知识对个人实践毫无用处;我认为,具有工具效用的研究显然是存在的,只要有,我们就应参考其结果。但我想说的是,理解科学知识中真理的本质至关重要,它并不能免除我们在个人现实中检验事物的必要性。如果医生给你开了阿得拉(Adderall),你发现吃了犯困——这不意味着阿得拉是无用的,或者安非他命应被归为安眠药。事实上,你甚至不该感到惊讶;统计真理告诉我们,大多数人服用阿得拉会感到兴奋;生活经验则提醒我们,个体差异是真实存在的。即便是科学证明有效的干预,有时对某些人也未必奏效。
评估轶事证据
我想,至此,一个主要结论是:在让现实为师、亲身尝试之前,你永远不知道某件事是否会奏效。但值得一问的是:如果说在应用科学研究时,个体差异已是如此大的问题,那么在处理专家意见和轶事证据时,情况又会糟糕到何种地步?
这个问题值得一问,因为生活中的大多数领域,都要求我们在远不及科学严谨标准的证据基础上行动。以我之前招聘的例子来说:在缺乏可靠科学依据的情况下,一个显而易见的做法是去和科技行业的有经验者交流,从他们那里获取可供我使用的技巧。招聘如此,学习管理难缠的下属如此,学习创办和经营公司如此,学习在实战中运用武术亦是如此。当你对「如何做」感兴趣时,你通常只有两个选择:第一,自己去实验;第二,向一位实践者请教。
那么,你该如何评估你得到的建议?你如何知道该认真听取谁的意见,又该对谁的意见打折扣?
我愿为实践者们提出一个替代性的证据层级。在寻求建议时,请根据以下金字塔来评判建议的价值:

金字塔顶端,是你已在自己的生活中检验过的建议。正如我在本系列中反复强调的:「以现实为师!」你只有在亲身检验之后,才能真正知道一条建议是否有效;就像医生只有在病人开始服药后,才能真正知道一种药物是否奏效。在实际行动之前,一个人所能拥有的,只是对干预措施奏效可能性的判断。
金字塔第二层,是来自那些可信且与负面后果利益攸关的实践者的建议。「可信度」是我在本系列前文介绍过的一个技巧:它最初由对冲基金经理瑞·达利欧在其著作《原则》中提出,是一种评估专业知识的方法。
其理念如下——在向他人寻求建议时,对他们的建议赋予适当的权重:
- 此人必须有至少三次相关的成功经验。这降低了他们成功的偶然性。
- 在被追问时,他们必须能对其方法给出可信的解释。这增加了你从他们那里获取有用信息的可能性。
如果一位专家满足这两项要求,你便可认为他们是「可信的」。达利欧接着建议了一套基于可信度的沟通方案:如果你在与一个比你更可信的人交谈,闭嘴,多提问;如果你在与一个可信度相当的人交谈,你可以进行辩论;如果你在与一个可信度较低的人交谈,花最少的时间听取他们的意见,万一他们真的提出了你未曾考虑过的反对意见;否则,就直接忽略他们的观点。
第二个要求是,如果一位专家在其领域中需要风险共担(skin in the game),那么他便更可信。这个想法我「偷」自纳西姆·尼古拉斯·塔勒布的《风险共担》一书——该书的核心论点是,与那些无需承担风险的专家相比,需要承担下行风险的专家,在其判断和决策中会更为审慎。
例如,新加坡的外交官几乎都是「现实主义者」,因为他们在评估世界时输不起(一旦惹恼了更强大的邻国……而他们所有的邻国都比他们强大,这个城邦就完蛋了);而在美国,国务院的官员则可以持有更多意识形态驱动的外交政策理念。这并非我个人观察——我得承认,我深受我在新加坡外交部的朋友们的影响;然而,我总觉得新加坡对世界事务的看法比许多其他国家更为深刻。
关于这个理念的完整论证,我将留给塔勒布,但我想说,这个规则在我的经验中似乎是成立的。纯属巧合的是,在《原则》的开篇,达利欧就讲述了 2008 年金融危机后,他被各大央行请去巡回交流的故事。达利欧的基金开发出了能预测金融危机的模型,而管理央行的经济学家们则没有。一个代入塔勒布身份的「激进分子」可能会说,达利欧需要风险共担,而普通的央行行长则不需要。这个原则是否放之四海而皆准,留给敏锐的读者自行思考。
译注:这里没有证据证明预测模型的产生直接与风险共担挂钩,无法证明两者的两者因果关系。故作者借这一身份提出猜想。
第三层,在那些既可信又需风险共担的建议之下,是「仅仅」可信的人的建议。专家意见依然优于非专家意见,我们应尽可能地寻求专业人士的建议。我认为,现在是时候讨论一下人们对达利欧的可信度原则最大的异议之一了。
当我向人们介绍达利欧的可信度指标时,他们常常对「应该忽略可信度较低者的意见」这一想法感到不满。「那不就是诉诸人身吗?」他们说。「一个观点或论证,应该根据其自身的优劣来评估,而不是根据提出者的可信度。」
我认为,这是达利欧可信度规则中最反直觉的推论。传统上,我们被教导要对事不对人;任何形式为「某人是 X,因此他的论证是错的」的论证,都是坏的,因为它犯了诉诸人身的谬误。相反,「好的」反驳应攻击论证的逻辑结构或其前提。
但请思考一下你向朋友征求建议的常识性场景。假设你想请教游泳技巧,你去找了三位朋友。你会更重视谁的建议:Tom,一位竞技游泳选手;Jasmine,一位业余游泳爱好者;还是 Ben,一个旱鸭子?你很可能会特别留意 Tom 和 Jasmine 的建议,而忽略(或严重打折)本的任何言论。
在实践性事务上,可信度至关重要。仅仅因为本的论证听起来有说服力、辞藻华丽,并不能改变他从未用现实检验过它的事实。别误会,我并非说 Ben 一定错了——天知道,他或许是对的。但他也同样可能是错的,而如果你和大多数实践者一样,你没有那么多时间去检验他提出的每一个断言。常识性的做法,是采纳那些看起来更可信的人的建议,同时心里清楚,这建议对你未必奏效。我们可以说,你正在为每一条建议赋予一个概率评级,而这个评级与建议者的可信度挂钩。
我开始写这篇文章时,并未预料到会为达利欧可信度原则的二阶推论——诉诸人身——进行辩护。但后来我意识到:这不是关于辩论,而是关于找出什么方法有效。你不必非得和谁辩论;你只需在头脑中用这个规则,来代替你目前凭直觉做出的判断。而且或许值得提醒的是,面对低可信度的建议,你不必做出非黑即白的评判。达利欧建议的方案是,你「只需花最少的精力评估其所言……以防他们提出了你未曾考虑过的异议」。或者,用贝叶斯术语来说:将该异议记在心上,但赋予其一个较低的置信度。
为什么可信度原则有效?我认为,因为它认识到,单凭论证无法确定真理。这是本文开篇「修辞的力量是强大的」这一观察的推论——我想,对于我们中那些不得不在组织层面做出决策并承担其后果的人来说,这一点在某种程度上是显而易见的。想一想:你是否曾面临过这样一种情况,即有多个同样合理、听起来都极具说服力的选项,但却不清楚哪个是最佳选择?在许多组织中,当走到这一步时,最有效的方法不是无休止地辩论,而是商定一个能够证伪其中一个或另一个论证的测试,然后付诸实施,看哪个能在现实的检验中存活下来。
从「你不能仅凭论证来评估建议」得出的逻辑结论是,你必须使用一个不同的度量标准来衡量上述论证的有效性。最好的检验是对照现实。次好的检验是寻找对照现实的替代指标——比如在特定领域中的行动记录。这,就是可信度原则奏效的根本原因——它扮演了现实的替代指标,其形式是:「这个人真的实践过吗?」如果没有,那么忽略他的观点,或许是合理的。
金字塔的较低层次
在可信度之下,我们进入了更模糊的领域。我提出的证据层级的第四层,是来自实际尝试过该建议的人的建议。这虽不如「在领域中成功的可信专家」,但仍优于「对自己没试过的方法夸夸其谈的随机路人」。
来自这个层次的实践者的建议依然有用,因为你们可以相互交流实施心得。一个尝试过将某项知识付诸实践的人,很可能对实施过程中遭遇的挑战也有一些洞见。这些心得是有用的,就像案例研究一样——它们记录了什么方法在何种情境下奏效了。
研究这个层次的实践者的建议还有一个额外的好处:如果你自己没时间实施某项干预,你可以去检验那个人的结果。回头去找那个自助博主或某个人,问一句:「嘿,你那个刻意练习的实验,结果怎么样了?」这并不费事。我偶尔会发现,花 15 分钟与愿意分享的实践者进行 Skype 通话,探究他们经验的结果,是值得的。
我提出的层级的最后一个、也是最低的一个阶梯,是合理的论证。这是最低层次的证据形式,因为——如我前述——一个论证的说服力,不应影响你对其真实性的判断。
一些朋友向我指出,一个论证的结构至少应该是逻辑自洽的——即,论证应避免逻辑谬误,并具有有效的论证形式。如果一个论证连这个基本检验都通不过,它肯定不可能是正确的吧?
我认为这个观点有一定道理,但我也认为,从研究一个论证的内部一致性中能获得的益处相对较少。换言之,我认为,对于某个给定的建议,如果存在一个廉价的检验方法,那么直接去进行检验,几乎总是比无休止地思索其潜在效用要好。
运气与其他混淆变量
此时,你可能已准备跳起来指出:「依赖这个证据层级有什么用?你请教的那位专家可能只是运气好!」
是的,运气是一个合理的异议!像运气这样的混淆变量,是我们在处理轶事证据时面临的最大难题之一。我们没有科学方法所带来的严谨性,无法将变量相互分离。
(应对运气问题,也是达利欧的可信度标准要求三次成功的原因之一,以降低实践者成功的偶然性。)
但为何只谈运气?毕竟,在轶事证据中,运气并非唯一的混淆变量。还有:
- 基因。专家可能拥有某些基因差异,使他们更容易做到他们所做之事。
- 文化环境。专家给你的建议,可能只在他们的文化——无论是组织文化还是社会文化——中有效。
- 必备的子技能。「专家的诅咒」指的是,当一位专家忘记了当新手的感受,给出的建议若缺乏一系列必备的子技能便无法奏效——而这些技能,专家早已在多年前掌握,以至于忘却了。
- 情境差异。专家可能在一个完全不同的情境中操作——例如,来自选股领域的建议,可能无法直接套用到经营企业上。
- 外部优势。声誉、人脉网络等等。
假设你从一位可信且需风险共担的人那里得到了一些建议——这在我提出的实践证据层级中是第二高的可信度。你尝试将建议付诸实践,却发现它行不通。你会得出什么结论?
浅薄的看法是,结论要么是建议本身有缺陷,要么是专家并不可信,要么是某个混淆变量在作祟。例如,你可能会说:「哦,那方法对比尔·盖茨有用,但对我是行不通的——盖茨运气好。」
面对如此众多的混淆变量,一个实践者该怎么办?难道就此束手无策,说根本没法知道一条建议是否有用吗?难道就此放弃寻求任何建议吗?
不,当然不是!你还有更好的选择,我想用本文余下的篇幅来论证这一点。
我在这篇文章中悄悄植入的一个理念,是为某个信念陈述赋予一个概率评级。例如,在文章前面关于证伪的部分,我提到我们可以设定一个对假说的初始信念(关于天鹅颜色,我说或许从 0.6 开始),然后随着收集更多证据而增加或减少这个信念。有人称此为「贝叶斯更新」,我想建议,我们可以将这个思路应用于我们的实践性实验。
举个近期的例子:几个月前,我总结了卡尔·纽波特(Cal Newport)的《深度工作》,并开始系统地将书中的理念应用于我的生活。我发现,纽波特的「从专注中休息,而非从分心中休息」的方法尤其难以实施——我试了一两天,然后就故态复萌。
我开始实验时,认为纽波特是可信的——毕竟,他提到自己正是运用书中的技巧,才得以在相对年轻时获得终身教职。我对该技巧能在我身上奏效的初始信心,大约是 0.8。
在将他的技巧付诸检验并失败后,我坐下来思考那些混淆变量:
- 运气:纽波特是运气好吗?我不这么认为。运气与这个技巧的适用性关系不大。
- 基因:纽波特是否有基因优势,让他能专注更久?这有可能。感谢双胞胎研究,我们知道自我控制有其遗传基础——如果我们以这项元分析为据,遗传因素能解释约 60% 的差异。
- 必备的子技能:纽波特是否已建立了必备的子技能?这也很有可能。纽波特过去在麻省理工学院做博士后研究员时,已有长期的专注力训练史。或许存在某些我必须先培养的中间实践或习惯,才能成功地尝试他的技巧。
- 情境差异:纽波特也可能受益于他的工作环境。他曾说,进行深度工作的能力,是将优秀的学者与其同行区分开来的关键。这可能为他提供了一种他人所不具备的激励顺风车。
- 外部优势:我想不出纽波特在运用这个技巧时,可能利用了哪些外部优势。
在此必须指出,我并没有认定其中任何一个原因是确定的。有太多的混淆变量需要考虑,所以我只是在生成不同的合理解释,而非下定论。这些合理解释各自都附有一个置信度评级;随着我不断调整这个技巧以适应我的独特情况,我的意图是相应地更新我对每种解释的概率估计。这些解释作为潜在的假说而存在——我本质上是在问:「为什么这对我不奏效,我必须做出哪些改变才能让它奏效?」
无论我成功与否,我永远不会确切知道为什么纽波特的技巧对他有效而对我无效。我将永远只有一些怀疑……用那些概率判断来衡量。这是一个相当重要的观点:作为一名实践者,我通常只关心什么对我有效。我很少会对诸如「为何某个技巧对甲有效而对乙无效」这类更宏大的真理感兴趣。我认为,这一点,恰恰支持了建立个人认识论的必要性:当你在处理样本量为一的效应时,对真理的标准可以更低。
如果这是一种贝叶斯更新,那么更新发生在何时?答案是,它发生在应用的过程中。在我尝试应用纽波特技巧的过程中,我获得了一条重要的信息:我现在知道,如果不加修改,纽波特的「从专注中休息」的建议不太可能对我奏效。我将不得不对其进行大幅调整。这次更新是负面的——我对这个特定技巧的总体信心,现在降到了 0.7。
前路是清晰的:我可以继续尝试实验纽波特的技巧——或者,当我的信心降至……比如说 0.5 以下时,我可以将这条建议束之高阁。不过,在达到那个水平之前,还有很多变体可以尝试。我可以先尝试建立一些更简单的、关于自我控制的子技能;或者我可以尝试冥想来提升专注力;我可以清理工作空间中的干扰物,或者将纽波特的技巧与番茄工作法结合。即便我失败了,搁置了纽波特的技巧,我也可能在数年后,从另一位实践者那里偶然发现一种成功的变体,然后决定将这个技巧从我的心智货架上取下,再试一次。
这个例子的要点是,混淆变量是我们作为实践者必须应对的常态。我们没有科学方法的奢侈,也没有更严谨知识形式的清晰。我们只有我们的直觉,并通过试错来更新它们。但即便是直觉,只要经过恰当的校准,也可以是有用的。
结语
我在此呈现了一套在过去七年左右指导我实践的个人认识论。我发现它对我个人很有用,并且我相信其大部分内容是将常识明确化。但我也知道,这套认识论远未完成;这只是我第一次尝试在一篇文章中将其完整地阐述出来。
总结如下:
- 以现实为师。这既适用于科学知识,也适用于轶事证据。
- 当探索研究文献时,请记住,科学关心的是真理,未必是对你有用之物。
- 当评估轶事证据时,根据一个实践证据层级来衡量建议的权重。
- 当用现实检验建议时,在迭代过程中运用某种形式的贝叶斯更新,以滤除任何案例研究中固有的混淆变量。
如果我要将这个「将心智模型付诸实践」的框架,压缩成一句激励人心的话,我会说,整个框架可以通过对真理的个人追求来重构——而在实践的语境下,这个真理具象化为这样一个问题:「我能做什么来让自己变得更好?什么才是真正【对我】有效的?」
现在,你或许已经注意到了这套认识论的元认知层面。
如果我们将我在这篇文章中建立的真理标准,应用于我选择发表它的这个系列本身,会发生什么?
答案是:我的框架,对你而言,不应特别有说服力。在我目前实践的任何领域,我都不具备「可信度」:我建立过两个成功的、规模均在 50 人以下的组织;我只有一次商业上的成功。要达到达利欧所要求的成功水平,我至少还需十年。
然而,我可以向你保证的是,本系列中的一切——除一个例外*——都经过了个人实践的检验。我目前正将这套实践认识论应用于我自己的生活。我曾「误入歧途」数年,进行 LessWrong 所推荐的那种认知理性训练。我至今仍偶尔有进行理性选择分析的冲动——即便我知道这种分析在不规律的领域才最有效。并且,在过去的三年里,我一直致力于追求潜移默化的、来自专业知识的心智模型。
*唯一的例外是第五部分介绍的关键决策法。在写作之时,我对该方法仅有两个月的实践经验。
我为本系列的行文修辞花费了大量心血。在处理抽象概念时,我运用了叙事来引导读者;我试图总结了判断与决策文献中那些最无争议、最成熟的发现,而理性研究正是建立在这些发现之上。但你不应相信我写的任何一个字。事实上,我甚至要说,你的信念程度,应主要取决于你用现实检验过的东西。用李小龙的话说:吸收有用的,抛弃无用的,加入你独有的。用贝叶斯术语来说:我所说的一切,都应被视为一个置信度远低于 1 的断言。
或许这有些言重了。但话又说回来,或许休谟自有其道理。归根结底,并无真理,除非是你为自己所发现的那个。
我希望你觉得这个系列有用。
Thoughts Memo 汉化组译制
感谢主要译者 gemini-2.5-pro,校对 Horla lu、Jarrett Ye,嵌字 nano-banana-pro
作者:Cedric Chin
原文:A Personal Epistemology of Practice - Commoncog
初版于 2019 年 3 月 6 日,最后更新于 2023 年 6 月 5 日。
参考
1. 将心智模型付诸实践的框架(一):芒格的演讲 ./1964071787571713115.html2. 将心智模型付诸实践(五):技能提取 ./1992962400983478398.html
3. 提防只看一项研究的人 ./797254796.html