大模型推理:知识体系图谱
一、核心概念
Section titled “一、核心概念”什么是 LLM 推理?
Section titled “什么是 LLM 推理?”大模型推理(LLM Reasoning)是指大语言模型通过多步骤、结构化的思考过程解决复杂问题的能力——包括数学证明、逻辑演绎、因果推断、规划决策等。它与简单的”模式匹配”不同,要求模型在生成最终答案前进行中间推理。
Kahneman 的双系统理论是常用的类比框架:
- System 1(快思考):直觉式、模式驱动的直接输出
- System 2(慢思考):逐步推理、搜索与回溯的深度思考
LLM 推理增强的核心目标就是让模型更像 System 2 运作。
与传统推理的区别
Section titled “与传统推理的区别”| 维度 | 符号推理 | 概率推理 | LLM 推理 |
|---|---|---|---|
| 代表 | 定理证明器、Prolog | 贝叶斯网络、概率图模型 | Transformer + 推理增强 |
| 推理方式 | 严格规则、确定性 | 概率传播、近似推断 | 生成式推理链、启发式搜索 |
| 优势 | 可证正确、可解释 | 处理不确定性 | 灵活、可扩展、通用 |
| 劣势 | 难以处理模糊性 | 需要显式建模 | 可能产生幻觉推理 |
LLM 推理的独特之处在于混合性——它既不是纯粹的符号逻辑,也不是经典的概率推断,而是在大规模语言知识之上通过生成式过程进行推理,兼具灵活性与不稳定性。
二、推理方法分层
Section titled “二、推理方法分层”LLM 推理增强方法可分为三个层级,从浅到深依次为:
2.1 Prompt-level:提示级推理
Section titled “2.1 Prompt-level:提示级推理”无需修改模型,通过设计提示模板引导推理。
- Chain-of-Thought (CoT)(Wei et al., 2022):通过少样本示例引导模型逐步推理,是推理增强的奠基工作
- Zero-shot CoT(Kojima et al., 2022):仅需添加 “Let’s think step by step” 即可激发推理
- CoT-SC(Wang et al., 2023):生成多条推理链,通过多数投票选择答案
- Tree-of-Thought (ToT)(Yao et al., 2023):将推理建模为树状搜索,支持多路径探索与回溯
- Graph-of-Thought (GoT)(Besta et al., 2023):图结构推理,支持推理路径的合并与细化
- Least-to-Most(Zhou et al., 2022):先将复杂问题分解为子问题,再逐个解决
- Self-Refine / Reflexion(2023):迭代自我改进,基于语言反馈修正推理
优点:零成本、即插即用。缺点:效果受限于基础模型能力,推理链质量不可控。
2.2 Training-level:训练级推理
Section titled “2.2 Training-level:训练级推理”通过训练数据或训练策略直接增强模型的推理能力。
- Instruction Tuning for Reasoning:在推理数据上进行指令微调(如 MetaMath、MathInstruct),让模型学会推理的”格式”
- RLHF/DPO for Reasoning:用偏好优化(人类或 AI 反馈)来提升推理链质量
- Process Reward Models (PRM):不只评估最终答案,还逐步评估推理过程的每一步正确性
- STaR(Zelikman et al., 2022):Self-Taught Reasoner,模型生成推理链后筛选正确答案进行自训练
- DeepSeek-R1 / GRPO(2025):用群组相对策略优化(GRPO)激发推理能力,展示了”顿悟时刻”
关键洞察:推理数据的质量远比数量重要。R1 证明了纯 RL 可以在不依赖大量标注数据的情况下激发推理能力。
2.3 Architecture-level:架构级推理
Section titled “2.3 Architecture-level:架构级推理”从模型架构和推理时计算角度进行根本性变革。
- Test-time Compute Scaling(OpenAI o1/o3, 2024-2025):推理时动态分配计算量,让模型”想更久”以解决更难的问题。o3 在 ARC-AGI 上突破 87%
- MCTS-guided Decoding:将蒙特卡洛树搜索引入解码过程,在推理步骤间进行搜索与评估
- Speculative Reasoning(2024-2025):用小模型快速生成候选推理链,大模型验证筛选,提升推理效率
- AlphaProof(DeepMind, 2024):神经符号系统,将 LLM 与形式证明引擎结合,达到 IMO 金牌水平
- Quiet-STaR(2024):让模型在所有 token 上隐式进行推理,而非仅在特定任务上
核心趋势:推理能力从”训练时固定”转向”推理时弹性”,计算量成为推理能力的可调节维度。
三、推理的局限
Section titled “三、推理的局限”3.1 幻觉推理
Section titled “3.1 幻觉推理”模型可能生成逻辑上看似合理但实际上错误的推理链。这是最危险的失败模式——比直接给错答案更难检测,因为推理过程看起来”很对”。
3.2 推理长度 ≠ 推理质量
Section titled “3.2 推理长度 ≠ 推理质量”更长的推理链不一定意味着更好的推理。研究发现:
- 模型可能产生”冗余推理”——用更多步骤重复相同观点
- 过度推理反而可能导致错误累积
- 推理链的结构性比长度更重要
3.3 Benchmark 污染
Section titled “3.3 Benchmark 污染”训练数据中可能包含评估基准的答案,导致模型在 benchmark 上表现虚高。这一问题在开源数据和广泛使用的基准上尤为严重。
3.4 泛化困境
Section titled “3.4 泛化困境”模型在训练分布内表现优秀,但面对结构新颖的问题时可能失败——它可能只是记住了推理模式,而非真正理解推理。
四、评估体系
Section titled “四、评估体系”| 基准 | 类型 | 难度 | 说明 |
|---|---|---|---|
| GSM8K | 数学 | ★★☆ | 小学数学应用题,已成为基础基准 |
| MATH | 数学 | ★★★ | 竞赛数学题,覆盖代数、几何、数论等 |
| AIME 2024 | 数学 | ★★★★ | 美国数学邀请赛,高难度 |
| ARC-AGI | 抽象推理 | ★★★★ | 视觉抽象推理,测试泛化能力 |
| GPQA | 科学 | ★★★★ | 研究生水平的科学问答 |
| Frontier Math | 数学 | ★★★★★ | 前沿数学研究级问题,难度极高 |
| BBH | 通用 | ★★★ | BIG-Bench Hard,多领域推理 |
| HumanEval | 代码 | ★★★ | 代码生成与推理 |
评估的关键挑战:如何区分真正的推理和模式匹配? 当前社区正在探索更鲁棒的评估方法,包括分布外测试和对抗性基准。
五、开放问题
Section titled “五、开放问题”推理的本质是什么?
Section titled “推理的本质是什么?”当 LLM 进行”逐步推理”时,它到底在做什么?是在内部模拟某种符号演算?还是在高级语言模式上做统计外推?这一问题尚未有定论。
LLM 能否真正”理解”逻辑?
Section titled “LLM 能否真正”理解”逻辑?”Searle 的”中文房间”论证在新语境下再次被提出:模型可以输出正确的推理链,但它是否”理解”这些推理?或者它只是极其擅长预测”合理推理”的下一个 token?
推理的上界在哪里?
Section titled “推理的上界在哪里?”Test-time compute scaling 展示了令人兴奋的缩放趋势,但:
- 是否存在推理能力的”天花板”?
- 如何高效分配推理计算预算?
- 小模型能否通过推理时计算追上大模型?
即使模型在 99% 的情况下推理正确,那 1% 的”幻觉推理”如何检测和修正?在安全关键场景(医疗、法律、自动驾驶)中,这一问题尤为紧迫。
六、推荐学习路径
Section titled “六、推荐学习路径”入门:CoT 原始论文 → GSM8K / MATH 基准体验进阶:ToT / GoT → PRM → DeepSeek-R1 技术报告深入:o1/o3 推理范式 → AlphaProof → Test-time Compute Scaling 理论前沿:Absolute Zero → SAGE → 推理的形式化理论