展开推理,看看 ChatGPT 如何推理这个问题
Posted: Tue Mar 18, 2025 4:48 am
OpenAI 的 o1 模型基于 GPT-4o,DeepSeek-R1 基于 DeepSeek-V3,Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash。Anthropic 和 xAI 甚至懒得想出新名字:Claude 3.7 Sonnet 和 Grok 3 是也可以思考的常规模型。(不管怎样,这很可能是获胜的方法;OpenAI 已经在谈论结合 GPT-4.5 和 o3 功能的 GPT-5。)
克劳德文物
所有这些推理模型都是经过训练的 LLM,可以更多地思考提示并推理问题,而不是仅仅根据训练回答最明显的答案。
推理模型如何发挥作用?
每个推理模型仍然依赖于转换器、注意力、神经网络、预训练以及使 AI 真正有用的所有其他技术进步。如果您不熟悉这些概念,请查看ChatGPT 的工作原理以深入了解 - 但如果您只是想了解推理模型的基础知识,这并不是必需的。
在 Zapier 上构建自动化系统
了解方法
最重要的是要知道,LLM 是超级自动完成引擎。人们做了很多工作来抽象化这一事实,使它们更加有用,但从最简单的意义上讲,如果你给 LLM 提出“谁穿短裤?”的问题,它实际上会回答“我们穿短裤。”
法学硕士生倾向于重复他们的训练材料,这是《纽约时报》起诉 OpenAI 的依据,但它也是大量人工智能错误和幻觉的罪魁祸首。长期以来,如果你问法学硕士生,“一吨羽毛和一吨羽毛哪个更重?”他会自信地回答,一吨羽毛和一吨砖头的重量是一样的。
ChatGPT 响应不正确
为了解决这个问题,我们使用了一种名为“思 华人澳洲数据 维链(CoT) 推理”的快速工程技术。该技术的想法是,通过告诉人工智能“一步一步思考”或提示它回答如何生成答案,它不会只用最明显的答案来回答;相反,它会充分考虑指令。令人震惊的是,它实际上非常有效。
告诉人工智能“一步一步解释你的推理”,它就会得到正确的答案。
推理模型也做着同样的事情——它们的工作原理是采用基础模型,并用强化学习对其进行训练,以便用 CoT 推理来应对一切。当你问问题时,它会在思考时说“推理……”之类的话。然后,一旦它回答,它就会告诉你它思考了多长时间并给你答案。
它仍在进行 CoT 推理,但隐藏了用户的思维链。在下图中,您可以看到聊天机器人告诉我它“推理”了 1 分 15 秒,但它将推理的细节保留在可折叠部分后面。
ChatGPT 表示它推理了 1 分 15 秒,但隐藏了推理过程
当你打开折叠页时,它会列出正在采取的步骤 - 它只是总结了 CoT。
克劳德文物
所有这些推理模型都是经过训练的 LLM,可以更多地思考提示并推理问题,而不是仅仅根据训练回答最明显的答案。
推理模型如何发挥作用?
每个推理模型仍然依赖于转换器、注意力、神经网络、预训练以及使 AI 真正有用的所有其他技术进步。如果您不熟悉这些概念,请查看ChatGPT 的工作原理以深入了解 - 但如果您只是想了解推理模型的基础知识,这并不是必需的。
在 Zapier 上构建自动化系统
了解方法
最重要的是要知道,LLM 是超级自动完成引擎。人们做了很多工作来抽象化这一事实,使它们更加有用,但从最简单的意义上讲,如果你给 LLM 提出“谁穿短裤?”的问题,它实际上会回答“我们穿短裤。”
法学硕士生倾向于重复他们的训练材料,这是《纽约时报》起诉 OpenAI 的依据,但它也是大量人工智能错误和幻觉的罪魁祸首。长期以来,如果你问法学硕士生,“一吨羽毛和一吨羽毛哪个更重?”他会自信地回答,一吨羽毛和一吨砖头的重量是一样的。
ChatGPT 响应不正确
为了解决这个问题,我们使用了一种名为“思 华人澳洲数据 维链(CoT) 推理”的快速工程技术。该技术的想法是,通过告诉人工智能“一步一步思考”或提示它回答如何生成答案,它不会只用最明显的答案来回答;相反,它会充分考虑指令。令人震惊的是,它实际上非常有效。
告诉人工智能“一步一步解释你的推理”,它就会得到正确的答案。
推理模型也做着同样的事情——它们的工作原理是采用基础模型,并用强化学习对其进行训练,以便用 CoT 推理来应对一切。当你问问题时,它会在思考时说“推理……”之类的话。然后,一旦它回答,它就会告诉你它思考了多长时间并给你答案。
它仍在进行 CoT 推理,但隐藏了用户的思维链。在下图中,您可以看到聊天机器人告诉我它“推理”了 1 分 15 秒,但它将推理的细节保留在可折叠部分后面。
ChatGPT 表示它推理了 1 分 15 秒,但隐藏了推理过程
当你打开折叠页时,它会列出正在采取的步骤 - 它只是总结了 CoT。