今天考了考大模型一道编程题,其实这道题我 2025 年 2 月就试过了,当时的一众推理模型全军覆没。现在 2026 年了,我一时兴起,又想测一遍现在的 agent 模型,没想到编码特化的 codex 实现的效果非常搞笑,发出来给大家乐呵乐呵。
测试工具:copilot-cli(用这个是因为同时支持 Claude 和 Codex,并且送了我不少额度)
提示词:
Create me a 3d cone rolling on a ground. You can use html, css, js.(出处:你都有哪些压箱底的测试题,是目前的推理模型做不出来的?)
参赛选手:GPT-5.2-Codex (xhigh)、GPT-5.3-Codex (xhigh)、GPT-5.4 (xhigh)、Claude Opus 4.6 (high)
GPT-5.2-Codex (xhigh)

GPT-5.3-Codex (xhigh)

GPT-5.4 (xhigh)

Claude Opus 4.6 (high)

结语
好吧标题只是抖个机灵,实际上应该还是模型能力提升了,和是不是编码特化关系不大。毕竟去年一众推理模型也写不对。国内的模型我没测,大家感兴趣可以自测一下。感觉现在模型能力真是日新月异啊。