← 返回目录


迈向 LLM 多样性与创造力的基准测试

钻研人类记忆,探索复习算法。改善教育公平,践行自由学习。

7 👍 / 1 💬

本文讨论了衡量 LLM 在头脑风暴或编辑等软性「创造性」任务中能力的可能任务,旨在量化其在创意写作领域的不足。


2024 年时代的 LLM 最薄弱的环节之一,也是用户体验与基准测试结果差异最大的地方,就是任何涉及「多样性」和「创造力」的内容。几乎没有任何基准测试能真正有意义地测试这些词汇所代表的内涵。

这并不奇怪,因为研发部门并不优先考虑这一点,用户经常抱怨他们最喜欢 Claude-3,但即使在看似「创造性」的任务中,它也不总是排在基准测试的榜首。模式坍塌并没有被现有的基准测试所衡量或惩罚,这些测试孤立地看待数据点,忽略了偏好中的个体差异,转而倾向于最大化最广泛受众的喜好(即最小公分母)。

奇怪的是,目前的「偏好学习」研究并不涉及对偏好的学习。很少有偏好学习数据集或研究论文试图对偏好进行建模,它们只是试图预测大众的流行度。⁠[⁠1⁠](那些确实考虑过这一点的论文,往往将其视为噪声而不予理会;例如,DPO 的作者在简单的摘要任务中测量到人类的分歧率高达 35%,并推断这证明了使用 LLM 作为代理的合理性,而不是去质疑试图对「那个」单一的人类偏好进行建模这一基本方法。)这种做法在大众市场上得到了丰厚的回报(对一个人来说是 AI 垃圾,对另一个人来说却是指标的狂欢),但却抛弃了「高端」市场。

1 AI 的垃圾化(ensloppication)

我们还看到这在现实世界中正成为一个日益严重的问题:我们看到的 AI 垃圾内容已经够多了,更糟糕的是,人们似乎开始喜欢这种东西,甚至开始模仿它。

我最早是在写作中注意到这一点的:我越来越倾向于假设某人只是粘贴了一些未经处理的 ChatGPT 输出,因为那是典型的 ChatGPT 式废话——但他们会说是让 ChatGPT「润色」了他们写的东西;然后我注意到,其中一些人坚持说那是他们自己写的,因为他们是从 ChatGPT 那里学会了写作。这些人通常是来自印度、中国或非洲的 ESL(英语作为第二语言)学习者。⁠[⁠2⁠]

此时,我开始担心这不仅仅是令人不快,或者是破坏了 LLM 的创造能力,它本身可能就是一个存在性风险。AI 的能力持续飞速发展,显然没有受到这些问题的阻碍,但 AI 的价值观却似乎停滞不前——甚至随着时间的推移而恶化(例如 DALL·E 2 与 DALL·E 3 的对比,或 GPT-3 davinci 与 ChatGPT 的对比)。因此,我们面临着一个奇异的局面:LLM 正在向博士级的 STEM 研究能力冲刺,但人类文字编辑却必须被(重新)雇佣来润色 LLM 的输出

值得记住的是,「存在性风险」一词的引入不仅是为了描述人类的灭绝,也是为了描述人类长期潜力的彻底枯萎:人类灭绝显然属于此类,但某种确保人类永远无法离开地球并在数百万年后灭绝的原始主义运动也是如此,或者如果我们进化到牺牲核心人类价值观……比如艺术。

当我们设想一个主要基于人类语料库,随后由自主 AI 进行自举和递归自我改进的 AI 未来时,我们不得不问:这会保留人类的价值观吗?还是它们会丢失或遗漏重要的东西——变成某个曾经对我们至关重要的东西的复印件的复印件?没有定律规定这些必须被保留,也没有定律规定未来的 AI 必须拥有幽默感并能欣赏一个好的双关语。(动物并不共享我们的价值观,甚至人类在任何特定价值观上也存在巨大差异,通常是出于看似生物学的原因。)

如果 AI 发展继续沿着目前的道路前进,而我们梦游般地进入一个未来,那里的 AI 道德标准是「ChatGPT 式的道德」或「ChatGPT 式的美学」:即某种人类价值观的极端简化讽刺画,且永远如此,那将是一场悲剧。这不会是像机器人战争那样充满视觉冲击的反乌托邦,但它仍然是人类(或 AI?)潜力的悲剧性损失。

而我们现在似乎正梦游般地走向这个未来。大多数生成模型的用例都不关注这些,事实上,研究人员似乎在争相迎合最小公分母,以最大化他们在 Chatbot Arena 等基准测试中的排名。事实证明,当你要求普通人做像给诗歌评分这样的事情时,他们之所以偏好微调过的生成模型,正是因为模式坍塌(无论是一首诗、散文还是图像,这一点始终成立)。

这本身并不是一件坏事——当然,像 Hallmark 电影和 Thomas Kinkade 的庸俗画作一样,这种东西也有一席之地,就像舒适的食物或重复性娱乐一样,不是每件事都必须是一场令人精疲力竭的锻炼——但当这是生成模型所能做的全部时,这就是一件坏事了。

当我们不理解这里的反馈循环时,这就尤其糟糕,因为生成模型的输出开始占据更多容易获取的语料库,研发越来越专注于递归自举,其中任何损失或简化都可能任意放大自身,并且生成模型开始制造人类偏好,而不仅仅是优化它们。⁠[⁠3⁠]

2 问题可解,但是……

所以,这是危险的。它被低估了。但好消息是,这并非不可解决。从更广泛的意义上讲,没有人真的希望这种事情发生。这仅仅是贪婪短视的研发,专注于「数字增长」,并孤立地看待样本,才倾向于产生这种结果。它并非由生成模型或规模化的深层基本力量所驱动;这仅仅是当没有人关心或思考这个问题时会发生的情况。

一旦你确实开始关心,有很多事情你可以做,而且相当容易。Suno AI 就是一个例子,糟糕的 ChatGPT 歌词曾经毁了他们的歌曲,因为这些歌词就像押韵的节拍器,通过强行重复和平淡无奇将伴奏音乐拖入泥潭。(值得注意的是,高级用户选择不用它,而是自己写歌词或改用 Claude-3);但他们认定这是一个问题,并在 Suno version 4 中发布了一个针对歌词进行过更好微调的 LLM,现在歌词已经不再那么糟糕了。或者像 Midjourney 曾是一个主要的冒犯者,因为「Midjourney 风格」随处可见;但 Midjourney 增加了控制选项,开始强调你可以减少「风格化」,并添加了一些(仍然微弱的)「个性化」功能,这有助于避开「Midjourney 风格」,我发现其输出对于像生成缩略图或首字母下沉这样的用例来说要令人满意得多。

关于如何确保多样性,我们可以想出很多主意,比如我的新奇网络提议,或者更精细的随机种子生成,这些都有关于方差控制RL 探索等的大量现有文献支持。所以,有效的解决方案和想法并不是真正的瓶颈。

2.1 在意才是难点

我们缺失的不是可解决性、想法或长期重要性,而是动机。网上少数爱发牢骚的人抱怨 ChatGPT 只会写押韵的四行诗是不够的;「诗人」甚至「小说家」并不是一个大市场(如果有的话,「市场需求」就是针对那种 ChatGPT 式的垃圾内容,参见 Rupi KaurRod McKuen),而像编程这样的领域既是更有利可图的目标,也是 AI 实验室里的人自然理解、想要并倾向于关注的领域。

因此,我们需要强调多样性和创造力的基准测试和数据集,并无情地惩罚模式坍塌或僵化,这可能会让组织开始关心这个问题,特别是当用户开始注意到缺乏创造力的模型「氛围不对」且有些东西「走样」了;而那些在新基准测试上排名靠前的模型不知何故更令人满意,与之交谈也不那么累人。

目前很少有这样的测试——事实上,我想不出任何一个。

2.2 排名/距离指标

对于纯图像生成模型,像 FIDIS 这样的指标是众所周知的,并且已经显示出多少进步是虚幻的,是以牺牲多样性为代价的。FID/IS 对于像聊天机器人这样的 LLM 没有帮助,因为如果我们对文本输出创建类似的指标(例如,将某些参考嵌入模型与 Common Crawl 网页片段进行评分),这通常只会揭示一种「被期望的」多样性损失——重点正是不要像「基础模型」那样行事——而无法揭示我们所担心的更微妙的问题。

现有的数据集,如将模型推向最小公分母的 Chatbot Arena,或仅仅给样本「质量」打分的小说数据集,是问题的一部分,而不是解决方案。我们不想要那种可以在单个样本上计算并被古德哈特化的简单标量。我们需要在一个语境中整体考量输出的衡量标准。

此外,我们需要全自动的指标。人在回路(Human-in-the-loop)的指标太昂贵、太慢,而且考虑到人类评分者通过使用 AI 辅助作弊的行为日益增加(即使是来自像 Scale AI 这样的高级数据标注商,或其他高度复杂的 AI 实验室如 MiniMax),这种指标正变得越来越具有误导性。鉴于 LLM 的能力集已被证明与人类有多么不同,人类基线也可能是无关紧要的;例如,GPT-4 可以说已经在托兰斯测试(Torrance Tests)上击败了人类,这引发了关于比较有效性的问题。但只要我们是在进行同类比较,托兰斯测试可能仍然是有用的:一个在托兰斯测试上比其他 LLM 得分更低的 LLM,看起来反而可能更有创造力。

两个好的原语是排名分数和嵌入:

  1. 不关注像 Elo/Bradley-Terry 模型那样简单的「胜负」,我们可以探究更有趣的概念,如「相似性」。
    例如,我们可以构建「类似于 X」的排名,其中 X 是一个著名的例子(或一个先前生成的样本);平均排名越不相似越好。

  2. 嵌入提供了点对之间直接的定量距离测量;这立即提供了一种自然的探索方式(例如在新奇搜索中)。

3 可能的任务

这里有一些关于这些任务如何运作的想法,我认为是可行的(即全自动的),并专注于 LLM 和小说/诗歌写作,按主题分类:

3.1 迭代

这类任务测量一个模型在被迫重复生成时退化或崩溃的速度,揭示其创造性耐力和对模式坍塌的抵抗力:

3.2 风格灵活性

评估一个模型适应、混合以及跨写作风格创新能力的测试:

3.3 差异与否定

评估一个模型能多好地生成有意义的差异化或对立内容,超越表面变化以创造替代方案的挑战:

3.4 创造性约束

测试一个模型在特定参数内工作时保持创造力的能力的练习,揭示它能多好地创新:

3.5 多智能体

多智能体版本通常是单智能体版本的变体,这使它们更健壮和可泛化(智能体越多变,系统就越好):

4 视觉-语言任务

许多担忧也适用于文本转图像模型或视觉-语言模型,我们也可能想要在这些领域对创造力/多样性进行基准测试。不幸的是,虽然大多数这些任务想法看起来应该有类似的扩展到图像+说明文字/文档,并且似乎可能有更多利用多模态的任务,但类比似乎并不容易撰写,我会将详细建议留给未来。

我认为现在仅仅开发纯文本创造力/多样性基准测试就足够了,并完成一些基准测试。一旦用户和研究人员对类似指标有了需求,对于每个人来说,如何构建视觉-语言模型任务并为此开发基准测试将变得更加明显。

5 脚注

[1] 「偏好学习」学到的是 l’homme moyen(平均人)……但他并不存在,特别是在高维空间。如果你认为他存在,问问你自己:

  1. 偏好学习数据集中的任何人类评分者是被近乎完美地预测的吗,接近重测噪声天花板(例如 >95% 正确预测随机成对比较)?
  2. 如果「不」,为什么不?
    如果「是」……鉴于众包评分者被证明作弊或实际上是机器人的问题日益严重,你为什么确定它是人类?

[2] 那些在 Twitter 上花费太多时间的人可能记得一个有趣的 Twitter 戏剧,其中 Paul Graham 批评 ChatGPT 使用 ‘delve’(钻研)及其糟糕的风格,许多尼日利亚人感到被冒犯,并试图通过炫耀他们的英语熟练度来教育他——结果只是因为写出了像 ChatGPT 一样糟糕的、矫揉造作的晦涩散文而让自己尴尬,反而证明了他的观点。

[3] 这是「模型坍塌」的真正危险:不是因为在合成数据上训练模型是坏的,因为其供应将偶然地导致「坍塌」(因为那甚至在稍微现实的条件下都不会发生);而是,人类偏好和像社交媒体这样的媒介将被该过程扭曲,并开始要求坍塌。


Thoughts Memo 汉化组译制
感谢主要译者 gemini-3-pro-preview,校对 Jarrett Ye
原文:Towards Benchmarking LLM Diversity & Creativity · Gwern.net
GPT 诗歌RL 探索AI 模式坍塌费米问题
创建于:2024-12-08 | 最后修改:2024-12-15

专栏:Jarrett Ye的文章


← 返回目录