跳转到内容
输入关键词后按 Enter 打开第一个结果。

大模型推理:知识体系图谱

大模型推理(LLM Reasoning)是指大语言模型通过多步骤、结构化的思考过程解决复杂问题的能力——包括数学证明、逻辑演绎、因果推断、规划决策等。它与简单的”模式匹配”不同,要求模型在生成最终答案前进行中间推理

Kahneman 的双系统理论是常用的类比框架:

  • System 1(快思考):直觉式、模式驱动的直接输出
  • System 2(慢思考):逐步推理、搜索与回溯的深度思考

LLM 推理增强的核心目标就是让模型更像 System 2 运作。

维度符号推理概率推理LLM 推理
代表定理证明器、Prolog贝叶斯网络、概率图模型Transformer + 推理增强
推理方式严格规则、确定性概率传播、近似推断生成式推理链、启发式搜索
优势可证正确、可解释处理不确定性灵活、可扩展、通用
劣势难以处理模糊性需要显式建模可能产生幻觉推理

LLM 推理的独特之处在于混合性——它既不是纯粹的符号逻辑,也不是经典的概率推断,而是在大规模语言知识之上通过生成式过程进行推理,兼具灵活性与不稳定性。


LLM 推理增强方法可分为三个层级,从浅到深依次为:

无需修改模型,通过设计提示模板引导推理。

  • Chain-of-Thought (CoT)(Wei et al., 2022):通过少样本示例引导模型逐步推理,是推理增强的奠基工作
  • Zero-shot CoT(Kojima et al., 2022):仅需添加 “Let’s think step by step” 即可激发推理
  • CoT-SC(Wang et al., 2023):生成多条推理链,通过多数投票选择答案
  • Tree-of-Thought (ToT)(Yao et al., 2023):将推理建模为树状搜索,支持多路径探索与回溯
  • Graph-of-Thought (GoT)(Besta et al., 2023):图结构推理,支持推理路径的合并与细化
  • Least-to-Most(Zhou et al., 2022):先将复杂问题分解为子问题,再逐个解决
  • Self-Refine / Reflexion(2023):迭代自我改进,基于语言反馈修正推理

优点:零成本、即插即用。缺点:效果受限于基础模型能力,推理链质量不可控。

通过训练数据或训练策略直接增强模型的推理能力。

  • Instruction Tuning for Reasoning:在推理数据上进行指令微调(如 MetaMath、MathInstruct),让模型学会推理的”格式”
  • RLHF/DPO for Reasoning:用偏好优化(人类或 AI 反馈)来提升推理链质量
  • Process Reward Models (PRM):不只评估最终答案,还逐步评估推理过程的每一步正确性
  • STaR(Zelikman et al., 2022):Self-Taught Reasoner,模型生成推理链后筛选正确答案进行自训练
  • DeepSeek-R1 / GRPO(2025):用群组相对策略优化(GRPO)激发推理能力,展示了”顿悟时刻”

关键洞察:推理数据的质量远比数量重要。R1 证明了纯 RL 可以在不依赖大量标注数据的情况下激发推理能力。

从模型架构和推理时计算角度进行根本性变革。

  • Test-time Compute Scaling(OpenAI o1/o3, 2024-2025):推理时动态分配计算量,让模型”想更久”以解决更难的问题。o3 在 ARC-AGI 上突破 87%
  • MCTS-guided Decoding:将蒙特卡洛树搜索引入解码过程,在推理步骤间进行搜索与评估
  • Speculative Reasoning(2024-2025):用小模型快速生成候选推理链,大模型验证筛选,提升推理效率
  • AlphaProof(DeepMind, 2024):神经符号系统,将 LLM 与形式证明引擎结合,达到 IMO 金牌水平
  • Quiet-STaR(2024):让模型在所有 token 上隐式进行推理,而非仅在特定任务上

核心趋势:推理能力从”训练时固定”转向”推理时弹性”,计算量成为推理能力的可调节维度。


模型可能生成逻辑上看似合理但实际上错误的推理链。这是最危险的失败模式——比直接给错答案更难检测,因为推理过程看起来”很对”。

更长的推理链不一定意味着更好的推理。研究发现:

  • 模型可能产生”冗余推理”——用更多步骤重复相同观点
  • 过度推理反而可能导致错误累积
  • 推理链的结构性长度更重要

训练数据中可能包含评估基准的答案,导致模型在 benchmark 上表现虚高。这一问题在开源数据和广泛使用的基准上尤为严重。

模型在训练分布内表现优秀,但面对结构新颖的问题时可能失败——它可能只是记住了推理模式,而非真正理解推理。


基准类型难度说明
GSM8K数学★★☆小学数学应用题,已成为基础基准
MATH数学★★★竞赛数学题,覆盖代数、几何、数论等
AIME 2024数学★★★★美国数学邀请赛,高难度
ARC-AGI抽象推理★★★★视觉抽象推理,测试泛化能力
GPQA科学★★★★研究生水平的科学问答
Frontier Math数学★★★★★前沿数学研究级问题,难度极高
BBH通用★★★BIG-Bench Hard,多领域推理
HumanEval代码★★★代码生成与推理

评估的关键挑战:如何区分真正的推理和模式匹配? 当前社区正在探索更鲁棒的评估方法,包括分布外测试和对抗性基准。


当 LLM 进行”逐步推理”时,它到底在做什么?是在内部模拟某种符号演算?还是在高级语言模式上做统计外推?这一问题尚未有定论。

Searle 的”中文房间”论证在新语境下再次被提出:模型可以输出正确的推理链,但它是否”理解”这些推理?或者它只是极其擅长预测”合理推理”的下一个 token?

Test-time compute scaling 展示了令人兴奋的缩放趋势,但:

  • 是否存在推理能力的”天花板”?
  • 如何高效分配推理计算预算?
  • 小模型能否通过推理时计算追上大模型?

即使模型在 99% 的情况下推理正确,那 1% 的”幻觉推理”如何检测和修正?在安全关键场景(医疗、法律、自动驾驶)中,这一问题尤为紧迫。


入门:CoT 原始论文 → GSM8K / MATH 基准体验
进阶:ToT / GoT → PRM → DeepSeek-R1 技术报告
深入:o1/o3 推理范式 → AlphaProof → Test-time Compute Scaling 理论
前沿:Absolute Zero → SAGE → 推理的形式化理论