科学脱胎于哲学。在我们拥有哥白尼的行星表或牛顿的运动方程之前,我们就有了亚里士多德的修辞学。尽管那种中世纪的自然哲学是错误的,但它依然能做出有用的预测。
在我围绕着消费品和教育的职业生涯中,我观察到了一种常见的决策失误模式:对数据的过度痴迷——希望表现得科学化——并伴随着对哲学的否定。
在某些领域,如制造业、交通运输和航空,这种痴迷是有益的。但在消费品、教育等许多涉及人性的其他领域,对数据的痴迷会引发不易察觉的错误,并扭曲我们真正的目标。更糟的是,这种痴迷剥夺了我们通过哲学、直觉和故事获得真正有意义的洞见的机会,而这些洞见还无法通过量化系统完全解释。
这种危险潜伏在尚未被系统化的领域中。当涉及到人的问题时,我们缺乏类似牛顿运动方程的公理。实际上:我们甚至不知道对应的方程应该衡量什么。即使我们知道,我们可能也没有能够测量这些量的仪器。有没有可能存在一些有用地描述这些现象的方程呢?我认为可能,但我也不确定我们是否能确定这一点。
在我们在这些领域构建更有力的解释性理论之前,我们必须尊重哲学的作用,并警惕扮演科学家的危险。
什么都测了,什么也没测
我们来谈谈测验分数。
你是否曾经在某个课程中取得了不错的分数——比如说,微积分——但后来感觉自己并不真正理解其中的原理?你能按照学到的步骤解决类似你们课堂上处理过的问题,但你无法解释为什么它们有效,或者在新的情境中应用它们?这种体验似乎普遍存在!
那么:在教育系统中做决策时,你有多信任测验分数?
在教育和设计等领域,我们只能测量一些间接的代理指标:页面点击、网站停留时间、测试分数的变化、问卷调查回应等等。然后我们试图用这些测量结果来做决策。
这就像是在扭动一根杆子,这个杆子连接着一套复杂的齿轮,这套齿轮又连接着我们想要测量的东西,而这个东西又以神秘的方式连接着我们实际正在测量的东西。
当我们并未真正理解我们真正想要了解的内容与这些代理指标之间的映射关系时,我们很容易忽视重要的结果。
在 Kumon* 花费大量时间做活页练习题可能会让一个孩子在算术上变得很棒,但这对他们的好奇心有何影响?对他们长大后自主学习的欲望又有何影响?(*译注:一家日本教培机构,其补习方式以做题为主。)
当 Spotify 默认让你接收吵闹的推送通知(「披头士乐队现已上线 Spotify!」),他们可能会提高某种参与度,但同时也会惹恼他们的用户。这种烦恼可能不会在任何仪表盘上显示出来:也许用户会以完全相同的方式继续使用该服务,但当第二年爆发一些公关丑闻时,他们可能就不那么愿意站在 Spotify 的一边了。
因为我们不了解这种映射,我们不得不做出更多的猜测。而每一次猜测,都有可能我们看到了一些纯粹偶然的结果。只有在考虑到所有尝试过的假设时,统计假设检验才有意义。
另外,有时人们甚至不会去猜测,而只是在数据中寻找规律。如果你在足够大的数据集中寻找模式,你肯定会找到一些的!
(来自 Randall Munroe 的 XKCD 的 Significant)
我们知道,相关不代表因果。有时,你会偶然发现强烈的相关性——就像上面的漫画中那样:数据表明,这种蓝色让用户参与度最高!
但这只是随机噪声,如果你再用那种蓝色重新着色更多元素,你实际上并不会让任何人更开心,也许除了你所在社区中的那些自以为是的人。
另一个危险在于,你发现的相关性可能在掩盖更重要的底层现象。
假设你希望用户先在你的社交平台上分享他们的大新闻。你无法直接策略这个,但你有一个代理指标:那些帖子中附带的照片有 EXIF 数据,记录了它们拍摄的时间。你决定你希望将照片拍摄与分享的时间间隔最小化。
为了弄清下一步该怎么做,你在用户行为日志中寻找相关性。假设你发现照片上传速度与用户立即分享大新闻照片的可能性之间存在强烈的相关性。你告诉你的工程师要专注于优化上传时间!
你上线了优化后的照片上传器......但你在测量的指标中并未看到任何好处。结果,你并非偶然看到这种相关性:你看到它是因为「拥有更快上传速度的人们可以付得起更好的流量」,这意味着他们更可能在外出时上传照片,而不是等到他们使用免费 WiFi 时。
照片上传时间本身只是真正根本原因的一个代理指标。
即使我们非常确定没有任何潜在的原因或后果,我们仔细地考虑了所有的假设,我们也必须记住,这些都是我们正在优化的代理指标。随着情况的变化,这些代理指标与你真正的目标之间的联系可能会减弱——甚至逆转!
如果你的饮食中缺乏维生素 C,那么服用少量维生素 C 可以预防疾病。但这并不意味着你应该寻求百倍的效益而服用百倍的剂量(就像诺贝尔奖双料得主莱纳斯·卡尔·鲍林所做的那样):你将看不到任何边际效益,而只会把所有的维生素 C 拉出来。
在最糟糕的情况下,过度关注这些代理指标可能会产生反向激励。假设你想让学生在生活中为解决具有挑战性的问题做好准备。确实,将学校缺勤天数降至最低可能有助于实现这一目标——但超过了某一个度,其他因素将起主导作用。
如果你过于激进地优化学校的零缺勤天数,你可能会轻易地逆转这种相关性,扰乱学生的家庭生活,或者创造出一种使学生厌恶他们专制学校的氛围。
如果你是产品制造者,总使用时长可能看起来是一个很好的客户喜爱度的代理指标。但是如果你对这个指标看得过于重,你可能会因为帮助客户在比以前更短的时间内完成某项任务而受到惩罚。
在这些领域中吹捧数据还有一个更微妙的问题——这是我的研究伙伴 May-Li Khoe 一再耐心解释给我的。如果你试图通过对商业成果产生最大影响来设计一些具有人性意义的东西,你很可能会最终得到的是几乎没有人性意义的东西......这反过来可能会损害你正在衡量的长期商业成果。
同理,「应试教育」正如你所预期的那样,把课堂上的好奇心和参与性吸干了。
Frank Lantz 在关于游戏设计的演讲中精彩地涵盖了这个问题(此引用在 33:30 处;感谢 Bret Victor 的指点):
这就是量化、数据驱动的游戏设计的困境……所以,这里有个类比:想象你有一个朋友,他在社交方面有困难……「我不知道我做错了什么。我去约会,我带了一个温度计,这样我就可以测量他们的皮肤温度。我带了一个卡尺,这样我就可以测量他们的瞳孔,看看它什么时候在扩张和收缩……」关键是,即使这些都是预测某人性兴奋度的正确测量指标,也没有关系。如果你带了一个温度计和卡尺去约会,你就不可能上床……
那么。
想象一下,两位老师在提高班级考试成绩上有完全相同的测量影响。他们在培养自信的思想家上产生同样影响的可能性有多大?
你决定调整某个变量,因为在过去,它与产品使用量的增加高度相关。你认为这种改变更有可能为用户解决一个有意义的问题的可能性有多大?
无法衡量的意义
我们已经看到,以与我们真正目标之间关系模糊的间接测量为主来做决策存在着许多危险。然而,伟大的教师和设计师确实在这些未被系统化的领域中高效地工作!
他们有洞见;他们有直觉。这些都来自于他们对领域内在哲学的内化,这些哲学来自于经验、观察和故事。是的,他们的哲学并不完美;并且,他们也不能一定给你一套卡尺,让你可以用来做出自己的决策。
但是,如果你询问关于一个特定的学生互动,或者一个特定的产品细节,他们通常可以事后解释为什么他们的哲学会推动他们往某个方向走。多听一些,你也许能建立一些自己的直觉。
这不仅仅是运气或某种确认偏误——这些专家的品味有一种潜在的一贯性。即使你和他们都不能量化描述他们是如何做他们正在做的事情,这一点也是明显可见的。即使没有仪表板和 A/B 测试,优秀的老师也会以他人一贯认可的方式一贯地成为优秀的老师。当然,我们可能需要观察一段时间才能看到一个专家是否始终能提供洞见,而不是偶然——这就是知识工作者面试如此困难的原因!——但显然,有些专家的想法比其他人的更一贯地成功。
这种一贯性就是意义所在。
你怎么知道你的房子存在?毕竟,你并没有直接感受到它:你与它的接触是通过各种模糊的视觉处理和你自己的错误记忆来传递的。它存在,是因为它可靠地出现在它上次出现的位置。它存在,是因为当你在它的内部时,你始终能看到相同的图像,影子角度的改变符合你对季节的预期。它存在,是因为其他人可以和你谈论你的房子,并说出一些经过曲折的听觉系统解读的话,这些话不知为何和你自己模糊的感知相吻合。它存在,是因为你的手指可以感觉到门上房号的形状,这与你记忆中很久以前签署的租赁合同上的形状相吻合。
同样的逻辑告诉我们,当一个专家一贯做出公认的成功决策,并且可以用符合直觉的修辞解释他们的哲学时,那里可能真的有点东西。
你的房子是更系统化的——我们可以精确地测量它的高度,绘制蓝图,预测它的质量——但是,在我们拥有这些工具之前,社会仍然可以有效地谈论房子。在我们发现这些工具(和我们想用它们提问的问题!)之前,我们只有传统、专业知识、修辞、哲学。如果我们以平衡的怀疑和好奇心去倾听,这些都可以是强大的工具。
假装衡量意义
其实我没必要这么强烈地说教。在实践中,我们通常无法忽视领域哲学和专家直觉。
有意义的哲学就是有意义的——所以即使我们声称要抛弃它,我们的直觉往往还是与我们的决策紧密相连。
我经常在产品决策中看到这一点。例如,有人可能由于各种哲学上的原因,认为注册墙会降低产品的质量,但他们向外界解释这个决策的方式,是引用某一产品博客上关于这个主题的 A/B 测试的数据。
这些数据并不是他们决定放弃注册墙的原因。它只是他们给别人(通常也是给自己)的解释,说明为何他们做出了这个决策。这种行为在某种程度上是对科学的致敬......同时又违背了科学的核心原则。
在教育领域,人们非常热衷于成长性思维干预。大致的想法是:如果你能说服一个孩子,让他相信智力可以通过练习和努力来增长(就像他们的肌肉一样),那么他们在学校的表现实际上会更好。
最近对这个领域的干预措施的热情源于一系列由斯坦福大学的 Carol Dweck 和她的团队进行的随机对照试验。这些干预措施可能是有效的!但是:这个领域的定量结果在实际中的效应大小上相当适中。
仅凭这些研究无法解释这个话题所引起的热情程度;这其实反映了人们对这些干预措施的预先存在的直觉信念的强烈程度。问题在于,当教育界讨论这个话题时,主要通过这些研究来为成长性思维干预找理由。
这种有目的的推理扭曲了决策对话。我们应该用这样的临时数据来支持——而不是取代——我们的哲学。
当两个人在一个未系统化的领域中对某个问题在哲学上有分歧,但只允许定量的论证,他们最终会通过比他们自己的信念更弱的数据来进行代理人战争。更糟的是:如果我们真的发明了这些领域的强大预测系统,我们需要保持我们的科学智慧,不被事后的矫饰污染。
我希望大家能明白,我并不是在呼吁我们放弃数据和系统性思考。这种科学主义的痴迷其实是一种合理的防御机制!毕竟,在精确测量出现之前,物理学家曾用修辞进行辩论,我们最后得出的结论是燃素理论(也就是说,物质燃烧是因为它们含有一种名为燃素的元素;物质燃烧时燃素被释放到空气中;物质不能在罐子里燃烧是因为那里的空气不能吸收更多的燃素)。
在没有可靠系统的领域,我们无法通过测量来理解。
在这些领域建立系统是一个关键项目,而且可以取得进步。元分析和多质多法检验确实帮助我们奠定了一些基础。然而,在领域系统还在建设中时,我们必须小心不要过于依赖它们。它们还不具备结构上的稳定性。
直觉、哲学和专业知识提供了各种有用的临时解释。如果我们随着时间的推移监控它们的预测,我们将发现局限所在,我们的理论将会发展。在此过程中,我们将发现规律,融入临时的系统性概念,并且灵活地发展我们的信念,无论证据如何,我们都会选择最好的。
喜悦、归属感和赋权可能存在于这个图片中的「定性黑箱」里,但我们仍然可以为它们的产生提供解释。这些解释可能会涉及可测量的输入和输出。但如果我们坚持通过,比如说,参与时间和净推荐值来解释喜悦,我们将得到我们活该得到的喜悦。
Thoughts Memo 汉化组译制
感谢主要译者 GPT-4、校对 Jarrett Ye、Alan Xu
原文:Square Signals : Exalting data, missing meaning (andymatuschak.org)