大语言模型（LLM）知识体系结构图

作者：金豆 🐱
最后更新：2026-03-28

大语言模型（Large Language Models, LLMs）已经成为人工智能领域最重要的研究方向之一。本知识体系将整个 LLM 领域划分为 8 个一级分类，每个分类下设置 二级子主题 和 关键概念，并提供学习路径与资源推荐。

知识体系总览

1. 基础理论 ⭐⭐⭐
   ├── 语言模型基础
   ├── 深度学习基础
   ├── 优化理论
   └── 信息论与概率

2. 模型架构 ⭐⭐⭐
   ├── Transformer 核心
   ├── 架构变体
   ├── 注意力机制
   └── 位置编码

3. 预训练 ⭐⭐⭐
   ├── 数据准备
   ├── 训练目标
   ├── 大规模训练
   └── 涌现能力

4. 微调与对齐 ⭐⭐⭐
   ├── 监督微调（SFT）
   ├── RLHF 与 DPO
   ├── 指令微调
   └── 多任务学习

5. 提示工程 ⭐⭐
   ├── 提示设计
   ├── 上下文学习
   ├── 思维链推理
   └── 提示优化

6. 推理与部署 ⭐⭐⭐
   ├── 模型压缩
   ├── 推理加速
   ├── 部署架构
   └── 成本优化

7. 评测与基准 ⭐⭐
   ├── 能力评测
   ├── 安全评测
   ├── 偏见与公平性
   └── 评测框架

8. 应用与前沿 ⭐⭐
   ├── RAG 与检索
   ├── Agent 系统
   ├── 多模态 LLM
   └── 长上下文

1️⃣ 基础理论

1.1 语言模型基础 ⭐⭐⭐

核心概念：

概率语言模型：P(w₁, w₂, …, wₙ) 的建模
N-gram 模型：马尔可夫假设、平滑技术（Laplace、Kneser-Ney）
神经语言模型：词嵌入、循环网络、语言建模损失
困惑度（Perplexity）：评估指标，PPL = exp(交叉熵损失)

关键理解：

语言模型的本质是对序列概率分布的估计
从统计方法到神经方法的演进代表了”特征工程 → 表示学习”的范式转变
困惑度虽然常用，但与下游任务性能的相关性有限

经典资源：

📖 《Speech and Language Processing》（Jurafsky & Martin）第 3 章
📄 “A Neural Probabilistic Language Model” (Bengio et al., 2003)
🎓 CS224N: Natural Language Processing with Deep Learning（Stanford）

1.2 深度学习基础 ⭐⭐⭐

核心概念：

反向传播：链式法则、梯度流、计算图
优化算法：SGD、Adam、AdamW、学习率调度
正则化：Dropout、LayerNorm、BatchNorm、权重衰减
激活函数：ReLU、GELU、Swish（SwiGLU 在 LLM 中常用）

关键理解：

LayerNorm 在 Transformer 中优于 BatchNorm（对序列长度不敏感）
AdamW + Cosine Annealing + Warmup 是 LLM 训练的标准配置
梯度消失/爆炸问题在深层网络中需要特别关注

1.3 优化理论 ⭐⭐

核心概念：

凸优化基础：凸函数、强凸性、收敛率
非凸优化：局部最小、鞍点、平坦最小值
大批量训练：线性缩放规则、LR 调整、泛化差距
分布式优化：数据并行、模型并行、ZeRO 优化

关键理解：

LLM 训练是非凸优化，理论上保证很少，但实践中效果很好
大批量训练需要精心调参（LR、warmup、梯度累积）
“彩票假说”（Lottery Ticket Hypothesis）对理解过参数化有帮助

1.4 信息论与概率 ⭐⭐

核心概念：

熵与互信息：H(X)、I(X;Y)、条件熵
KL 散度：D_KL(P||Q)，非对称性，与交叉熵的关系
贝叶斯推断：先验、似然、后验、贝叶斯估计
变分推断：ELBO、VAE 的理论基础

关键理解：

交叉熵损失 = KL 散度 + 熵，最小化交叉熵 ≈ 最小化 KL 散度
信息瓶颈理论（Information Bottleneck）可以解释深度学习的泛化

2️⃣ 模型架构

2.1 Transformer 核心 ⭐⭐⭐

核心组件：

Multi-Head Attention：Q/K/V 投影、多头并行、缩放点积
Feed-Forward Network：两层 MLP、GELU 激活、扩展比例 4x
Layer Normalization：Pre-Norm vs Post-Norm、RMSNorm
残差连接：梯度流、深度网络训练稳定性

关键理解：

Transformer 的并行化优势：RNN 的时序依赖 vs Transformer 的位置编码
Pre-Norm（GPT-2/3）比 Post-Norm（原始 Transformer）更稳定
FFN 层的作用：知识存储、记忆容量（MoE 扩展 FFN 容量）

经典资源：

📄 “Attention Is All You Need” (Vaswani et al., 2017) ⭐⭐⭐

2.2 架构变体 ⭐⭐⭐

三大范式：

Encoder-Only（BERT 风格）：双向注意力，适合理解任务
Decoder-Only（GPT 风格）：单向（因果）注意力，适合生成任务
Encoder-Decoder（T5 风格）：编码器双向 + 解码器单向，适合 seq2seq

架构演进：

LLaMA 架构优化：RMSNorm、SwiGLU、RoPE、GQA
Mixture-of-Experts（MoE）：稀疏激活，参数量大但推理成本低

关键理解：

Decoder-Only 成为主流是因为：简单、scalable、few-shot 能力强
MoE 的关键挑战：负载均衡、专家坍缩、训练稳定性

2.3 注意力机制 ⭐⭐⭐

核心变体：

Scaled Dot-Product Attention：标准注意力
Multi-Query Attention (MQA)：K/V 共享，推理更快
Grouped-Query Attention (GQA)：MQA 与 MHA 的折中
Linear Attention：O(n) 复杂度
Sparse Attention：BigBird、Longformer

关键理解：

注意力的二次复杂度 O(n²) 是长文本的瓶颈
KV Cache 是推理加速的关键，但内存占用大
MQA/GQA 牺牲少许性能换取显著的推理加速

2.4 位置编码 ⭐⭐

核心方案：

Absolute Positional Encoding：正弦/余弦编码、可学习位置编码
Relative Positional Encoding：T5 相对偏置、Transformer-XL
Rotary Position Embedding (RoPE) ⭐⭐⭐：通过旋转矩阵编码位置
ALiBi：线性偏置，训练时可泛化到更长序列

关键理解：

RoPE 的核心洞察：相对位置信息通过点积自然编码
位置插值（Position Interpolation）可以扩展上下文长度

3️⃣ 预训练

3.1 数据准备 ⭐⭐⭐

核心环节：

数据收集：Common Crawl、Wikipedia、书籍、代码、学术论文
数据清洗：去重、质量过滤、PII 去除
数据配比：DoReMi 动态优化数据配比

关键理解：

“Data is the new code” —— 数据质量决定模型上限
去重的重要性：重复数据会损害泛化，导致 memorization
数据配比是一门艺术，需要平衡多样性和质量

3.2 训练目标 ⭐⭐⭐

核心损失函数：

Next Token Prediction：自回归语言建模
Masked Language Modeling（MLM）：随机掩盖 token，预测原 token
Prefix Language Modeling：前缀双向，后缀单向
UL2：统一多种去噪目标

关键理解：

Next Token Prediction 的简单性是其优势：无需复杂的数据处理
MLM 的双向性在理解任务上有优势，但不适合生成

3.3 大规模训练 ⭐⭐⭐

核心挑战：

计算效率：混合精度训练、Flash Attention、Gradient Checkpointing
分布式训练：数据并行、模型并行、ZeRO 优化
训练稳定性：Loss Spike、数值稳定性、坏数据检测

关键理解：

Chinchilla 定律：数据量与参数量的最优配比
ZeRO-3 + Offload 可以在单张 GPU 上训练超大模型
Flash Attention 是近年来最重要的训练加速技术之一

3.4 涌现能力 ⭐⭐⭐

涌现现象：

定义：小模型不具备，大模型突然出现的能力
示例：少样本学习、思维链推理、指令遵循、上下文学习

关键理解：

涌现能力的理论解释还在发展中
可能的原因：参数规模达到临界点、训练数据的多样性、优化过程的特性
实践启示：不要盲目追求”最大”，中等规模 + 高质量数据可能更高效

4️⃣ 微调与对齐

4.1 监督微调（SFT） ⭐⭐⭐

核心流程：

数据准备：高质量指令-回答对、多样化任务类型
训练策略：学习率调整、防止过拟合

关键技巧：

指令数据质量 > 数量：LIMA 论文（“Less is More”）
多轮对话格式：ChatML、ShareGPT 格式
打包训练：多个短序列打包成长序列

关键理解：

SFT 是”格式化”预训练知识，而非”注入”新知识
数据质量决定 SFT 效果的上限
过度微调会损害泛化能力（灾难性遗忘）

4.2 RLHF 与 DPO ⭐⭐⭐

RLHF（Reinforcement Learning from Human Feedback）：

SFT：在高质量数据上微调
Reward Model：训练偏好模型
PPO：用奖励模型优化策略

DPO（Direct Preference Optimization） ⭐⭐⭐：

核心洞察：显式建模奖励函数，直接优化偏好
优势：无需训练单独的 Reward Model，无需复杂的 RL 算法
变体：IPO、KTO、ORPO

关键理解：

RLHF 的核心是”对齐”而非”能力提升”
DPO 简化了 RLHF，但效果相当甚至更好
偏好数据的质量和多样性是关键

4.3 指令微调 ⭐⭐⭐

核心数据集：

Self-Instruct：用强模型生成指令数据
Alpaca：基于 Self-Instruct，52K 指令
FLAN：Google 的指令微调数据集，涵盖 1800+ 任务

关键理解：

指令微调让模型”理解”如何使用其预训练知识
多任务指令微调（如 FLAN）显著提升 zero-shot 能力
合成数据（Self-Instruct）可以弥补真实数据的不足

4.4 多任务学习 ⭐⭐

核心概念：

任务定义：不同任务 = 不同指令格式
任务采样：平衡不同任务的数据比例
负迁移：某些任务可能相互干扰

高级技术：

Adapter Layers：任务特定的适配器
LoRA（Low-Rank Adaptation）：参数高效微调
Prefix Tuning：任务特定的前缀 token

5️⃣ 提示工程

5.1 提示设计 ⭐⭐

核心原则：

清晰性：明确指定任务和格式
具体性：提供足够的上下文和约束
结构化：使用分隔符、编号、标记
示例驱动：Few-shot 示例比纯指令更有效

高级技巧：

Role Prompting：“你是一个专家…”
Step-by-Step：分步骤指导
Output Formatting：明确输出格式（JSON、Markdown）
Constraint Prompting：设置约束

5.2 上下文学习（In-Context Learning） ⭐⭐⭐

核心现象：

Zero-Shot：无示例，仅凭指令完成任务
Few-Shot：提供少量示例，模型”学会”任务模式
In-Context：无需梯度更新，通过上下文适应新任务

关键理解：

Few-shot 性能随示例数量增加而提升，但有上限
示例的选择和顺序会影响结果（示例顺序偏差）
In-Context Learning 是 LLM 最神奇的能力之一

5.3 思维链推理（Chain-of-Thought） ⭐⭐⭐

核心思想：

显式推理：让模型”展示思考过程”
逐步分解：复杂问题 → 多个简单步骤
Self-Consistency：多次采样，选择最一致答案

CoT 变体：

Zero-Shot CoT：“Let’s think step by step.”
Manual CoT：手工编写推理示例
Tree-of-Thought：探索多条推理路径
Graph-of-Thought：推理图而非链

关键理解：

CoT 的魔力在于”让模型慢下来思考”
对于简单任务，CoT 可能引入噪声（over-thinking）
CoT 效果依赖模型规模（通常需要 10B+ 参数）

5.4 提示优化 ⭐⭐

自动化优化方法：

Prompt Tuning：学习软提示（Soft Prompts）
Prefix Tuning：学习任务特定的前缀
APE（Automatic Prompt Engineer）：自动生成和优化提示
OPRO（Optimization by PROmpting）：用 LLM 优化提示

6️⃣ 推理与部署

6.1 模型压缩 ⭐⭐⭐

量化（Quantization）：

PTQ（Post-Training Quantization）：INT8/INT4
QAT（Quantization-Aware Training）：训练时模拟量化
方法对比：GPTQ、AWQ、GGUF

剪枝与蒸馏：

剪枝：SparseGPT
知识蒸馏：教师-学生模型

关键理解：

量化是性价比最高的压缩方法（4x-8x 加速）
剪枝在 LLM 上效果有限
蒸馏需要大量计算资源，但可以创造出高质量小模型

6.2 推理加速 ⭐⭐⭐

KV Cache 优化：

PagedAttention（vLLM）：分页管理 KV Cache
Continuous Batching：动态批处理
MQA/GQA：减少 KV Cache 大小

解码策略：

Speculative Decoding：小模型草稿 + 大模型验证
Parallel Decoding：S2D2、Medusa
Lookahead Decoding：前瞻解码

硬件优化：

Flash Attention 2：IO 感知，O(n) 内存
TensorRT-LLM：NVIDIA 的推理优化库

关键理解：

KV Cache 管理是推理加速的核心（内存瓶颈）
Speculative Decoding 可以获得 2-3x 加速
硬件感知优化是底层加速的关键

6.3 部署架构 ⭐⭐

服务化方案：

vLLM：高吞吐量推理引擎
TGI：Hugging Face 的推理服务
llama.cpp：轻量级，CPU/Apple Silicon 友好
TensorRT-LLM：NVIDIA 专用
SGLang：结构化生成

架构设计：

请求调度：优先级队列、抢占
批处理策略：Continuous Batching
负载均衡：多副本、多模型
监控与日志：延迟、吞吐量、错误率

6.4 成本优化 ⭐⭐

计算成本分析：

训练成本：FLOPs = 6 × 参数量 × Token 数
推理成本：Prefill（计算密集）+ Decode（内存密集）

成本优化策略：

模型选择：任务是否真的需要 70B 模型？
量化：INT4 量化可以 4x 降低成本
Caching：复用 KV Cache
请求优化：批处理、请求合并

7️⃣ 评测与基准

7.1 能力评测 ⭐⭐

主流评测基准：

通用能力：MMLU、HellaSwag、ARC、WinoGrande、TruthfulQA
推理能力：GSM8K、MATH、HumanEval、MBPP
长文本能力：LongBench、L-Eval

评测问题：

数据污染：评测集可能出现在训练数据中
过拟合：模型可能在特定评测上过拟合
代表性不足：现有评测主要是英语、学术导向

7.2 安全评测 ⭐⭐

安全维度：

有害内容：仇恨言论、暴力、非法活动
隐私泄露：PII 泄露
越狱攻击：绕过安全过滤

评测基准：

RealToxicityPrompts：毒性检测
AdvBench：对抗性攻击
Red Teaming：人工红队测试

7.3 偏见与公平性 ⭐⭐

偏见类型：

性别偏见：职业刻板印象、代词偏见
种族偏见：文化偏见、刻板印象
宗教偏见：宗教刻板印象

评测方法：

CrowS-Pairs：刻板印象评测
StereoSet：刻板印象、反刻板印象
WinoBias：性别偏见

7.4 评测框架 ⭐⭐

主流框架：

lm-evaluation-harness（EleutherAI）
HELM（Stanford）
OpenCompass（上海 AI Lab）

8️⃣ 应用与前沿

8.1 RAG 与检索增强 ⭐⭐⭐

核心架构：

检索（Retrieve）：稠密检索、稀疏检索、混合检索
增强（Augment）：将检索结果注入 prompt
生成（Generate）：基于增强上下文生成回答

高级 RAG：

HyDE：生成假设文档 → 检索
Query Rewriting：改写查询
Multi-Query：生成多个查询
GraphRAG：基于知识图谱

关键理解：

RAG 的优势：知识可更新、可溯源、减少幻觉
RAG 的挑战：检索质量、上下文长度、噪声文档

8.2 Agent 系统 ⭐⭐⭐

核心组件：

规划（Planning）：任务分解、思维链/树、自我反思
记忆（Memory）：短期记忆、长期记忆、工作记忆
工具使用（Tool Use）：Function Calling、代码执行、Web 浏览

经典框架：

ReAct：Reasoning + Acting
AutoGPT：自主任务执行
LangChain：Agent 开发框架
AutoGen：多 Agent 协作

关键理解：

Agent = LLM + 记忆 + 工具 + 规划
核心挑战：长期规划、错误恢复、稳定性
多 Agent 协作可以提升复杂任务的解决能力

8.3 多模态 LLM ⭐⭐

核心架构：

Vision Encoder：CLIP、ViT、EVA-CLIP
Projector：视觉特征 → 文本嵌入
LLM Backbone：语言模型

代表模型：

LLaVA：视觉指令微调
BLIP-2：Q-Former 桥接
GPT-4V：OpenAI 多模态模型
Gemini：Google 原生多模态

8.4 长上下文 ⭐⭐

技术方案：

架构层面：线性注意力、稀疏注意力、状态空间模型
位置编码层面：RoPE + 位置插值、NTK-aware scaling
推理层面：KV Cache 压缩、Streaming LLM

代表模型：

GPT-4-Turbo-128K：128K tokens
Claude 3：200K tokens
Gemini 1.5 Pro：1M+ tokens

🎯 学习路径建议

入门路径（0-3 个月）

第 1 个月：基础理论

深度学习基础：反向传播、优化、正则化
NLP 基础：词嵌入、语言模型
Transformer 架构
实践：用 PyTorch 实现一个简单的 Transformer

第 2 个月：预训练与架构

预训练目标：Next Token Prediction、MLM
主流架构：GPT、BERT、T5、LLaMA
训练技术：混合精度、分布式训练
实践：微调一个开源 LLM

第 3 个月：微调与应用

SFT：监督微调
RLHF：偏好建模、DPO
提示工程：Few-Shot、CoT
实践：构建一个简单的 RAG 系统

进阶路径（3-6 个月）

第 4-5 个月：深入理解

优化与缩放定律
架构优化：MoE、RoPE、GQA
对齐理论：RLHF vs DPO
推理优化：量化、KV Cache
实践：从零训练一个小型 LLM

第 6 个月：应用与前沿

RAG 系统：检索、重排序
Agent 系统：ReAct、工具使用
多模态：视觉编码器、对齐
长上下文：位置插值
实践：构建一个多模态 Agent

前沿研究（6 个月+）

研究方向：

理论：涌现能力、缩放定律、机制可解释性
架构：SSM（Mamba）、MoE、线性注意力
训练：合成数据、课程学习
对齐：可扩展监督、AI 安全
应用：Agent、多模态、长上下文

📚 综合资源推荐

经典论文 Top 20

Attention Is All You Need (Vaswani et al., 2017) ⭐⭐⭐
BERT (Devlin et al., 2018) ⭐⭐⭐
GPT-3 (Brown et al., 2020) ⭐⭐⭐
Chinchilla (Hoffmann et al., 2022) ⭐⭐⭐
LLaMA (Touvron et al., 2023) ⭐⭐⭐
Chain-of-Thought Prompting (Wei et al., 2022) ⭐⭐⭐
InstructGPT / RLHF (Ouyang et al., 2022) ⭐⭐⭐
DPO (Rafailov et al., 2023) ⭐⭐⭐
FlashAttention (Dao et al., 2022) ⭐⭐⭐
LoRA (Hu et al., 2021) ⭐⭐
RAG (Lewis et al., 2020) ⭐⭐⭐
Constitutional AI (Bai et al., 2022) ⭐⭐
LLaVA (Liu et al., 2023) ⭐⭐
ReAct (Yao et al., 2023) ⭐⭐⭐
Emergent Abilities (Wei et al., 2022) ⭐⭐⭐
Scaling Laws (Kaplan et al., 2020) ⭐⭐⭐
vLLM / PagedAttention (Kwon et al., 2023) ⭐⭐⭐
GPTQ (Frantar et al., 2023) ⭐⭐
Self-Instruct (Wang et al., 2023) ⭐⭐
UL2 (Tay et al., 2022) ⭐⭐

优质课程

CS224N

Stanford - NLP with Deep Learning ⭐⭐⭐

Andrej Karpathy

Zero to Hero LLM 课程 ⭐⭐⭐

Princeton

Understanding LLMs ⭐⭐

Hugging Face

NLP Course ⭐⭐⭐

优质博客

Lilian Weng’s Blog（Lil’Log）⭐⭐⭐
Jay Alammar’s Blog（可视化讲解）⭐⭐⭐
Sebastian Ruder’s Blog（NLP 综述）⭐⭐
The Gradient（研究综述）⭐⭐
Distill.pub（交互式可视化）⭐⭐⭐

工具与框架

核心框架

Hugging Face Transformers ⭐⭐⭐
PyTorch ⭐⭐⭐

推理引擎

vLLM ⭐⭐⭐
llama.cpp ⭐⭐
TensorRT-LLM ⭐⭐

开发框架

LangChain ⭐⭐
LlamaIndex ⭐⭐

微调工具

Unsloth ⭐⭐
Axolotl ⭐⭐

🌟 核心洞察

数据为王：数据质量和多样性决定模型上限
缩放定律：更大模型 + 更多数据 + 更多计算 = 更好性能（但边际递减）
对齐是关键：能力提升需要对齐技术才能安全部署
推理是瓶颈：训练成本高，但推理成本更高（生命周期总成本）
评估很难：没有单一指标可以全面衡量模型能力

未来趋势

🚀 更高效的架构：SSM（Mamba）、MoE、线性注意力
🎯 更好的对齐：可扩展监督、宪法 AI、自我改进
🎨 多模态融合：原生多模态而非简单拼接
📖 长上下文：100K → 1M → 10M tokens
🤖 Agent 化：从 Chatbot → Agent → Autonomous System
📱 端侧部署：手机、边缘设备上的 LLM

最后的话：

LLM 领域发展极快，这份知识体系会在几个月内部分过时。学习的核心不是记忆知识点，而是建立框架思维：理解”为什么这样设计”、“如何权衡”、“如何演进”。

保持好奇心，持续学习，深入思考。

金豆 🐱
2026-03-28