大模型都证明了只会写代码死路一条

今天考了考大模型一道编程题，其实这道题我 2025 年 2 月就试过了，当时的一众推理模型全军覆没。现在 2026 年了，我一时兴起，又想测一遍现在的 agent 模型，没想到编码特化的 codex 实现的效果非常搞笑，发出来给大家乐呵乐呵。

测试工具：copilot-cli（用这个是因为同时支持 Claude 和 Codex，并且送了我不少额度）

提示词：

Create me a 3d cone rolling on a ground. You can use html, css, js.

参赛选手：GPT-5.2-Codex (xhigh)、GPT-5.3-Codex (xhigh)、GPT-5.4 (xhigh)、Claude Opus 4.6 (high)

GPT-5.2-Codex (xhigh)

好吧标题只是抖个机灵，实际上应该还是模型能力提升了，和是不是编码特化关系不大。毕竟去年一众推理模型也写不对。国内的模型我没测，大家感兴趣可以自测一下。感觉现在模型能力真是日新月异啊。