← 返回目录


大模型都证明了只会写代码死路一条

钻研人类记忆,探索复习算法。改善教育公平,践行自由学习。

79 👍 / 3 💬

今天考了考大模型一道编程题,其实这道题我 2025 年 2 月就试过了,当时的一众推理模型全军覆没。现在 2026 年了,我一时兴起,又想测一遍现在的 agent 模型,没想到编码特化的 codex 实现的效果非常搞笑,发出来给大家乐呵乐呵。

测试工具:copilot-cli(用这个是因为同时支持 Claude 和 Codex,并且送了我不少额度)

提示词:

Create me a 3d cone rolling on a ground. You can use html, css, js.

(出处:你都有哪些压箱底的测试题,是目前的推理模型做不出来的?

参赛选手:GPT-5.2-Codex (xhigh)、GPT-5.3-Codex (xhigh)、GPT-5.4 (xhigh)、Claude Opus 4.6 (high)

GPT-5.2-Codex (xhigh)

GPT-5.3-Codex (xhigh)

GPT-5.4 (xhigh)

Claude Opus 4.6 (high)

结语

好吧标题只是抖个机灵,实际上应该还是模型能力提升了,和是不是编码特化关系不大。毕竟去年一众推理模型也写不对。国内的模型我没测,大家感兴趣可以自测一下。感觉现在模型能力真是日新月异啊。


专栏:杂项


← 返回目录