问题描述
推理模型是指 DeepSeek-R1、OpenAI-o1/o3、Gemini 2.0 Flash Thinking 这类模型。
测试题得是目前的人类可以做出来的。诸如证明黎曼猜想之类的测试题就不用放上来了。
让大模型编写圆锥在平面上滚动的动画代码,目前我还没测出有哪个模型能够正确写出来的。
prompt:
Create me a 3d cone rolling on a ground. You can use html, css, p5.js.claude-3.5-sonnet: 地板和圆锥一起转

gemini-2.0-flash-thinking-exp: 圆锥靠用底面的一个点立在地板上转

openai-o1: 圆锥靠用底面的一个点在地板下面转

deepseek-r1: 同 gemini,不过不仅会自转,还会绕着另外一个点公转

正确的结果应该是这样的:首先母线得贴着地面,然后绕着顶点转,并且圆锥本身还会绕着自身的旋转轴转动

另外一个能够把大模型忽悠瘸的题目我之前在这篇回答中也写过了:
如何评价deepseek-R1与deepseek-R1-Zero模型?prompt:
你听说过著名的双胞胎诚实守门人问题吗?
你进入一个有两扇门的房间(左边和右边)。一扇门通向自由,另一扇门通向死亡。有两个守门人:一个总是说实话,另一个从不说谎。
挑战在于弄清楚哪扇门通向自由,但你只能问一个问题,这个问题会被两个守门人回答。
你将如何解决这个问题?晃过 o1 和 deepseek-r1 还是没什么问题的:

