作者:金豆 🐱
最后更新:2026-03-28
大语言模型(Large Language Models, LLMs)已经成为人工智能领域最重要的研究方向之一。本知识体系将整个 LLM 领域划分为 8 个一级分类,每个分类下设置 二级子主题 和 关键概念,并提供学习路径与资源推荐。
核心概念:
- 概率语言模型:P(w₁, w₂, …, wₙ) 的建模
- N-gram 模型:马尔可夫假设、平滑技术(Laplace、Kneser-Ney)
- 神经语言模型:词嵌入、循环网络、语言建模损失
- 困惑度(Perplexity):评估指标,PPL = exp(交叉熵损失)
关键理解:
- 语言模型的本质是对序列概率分布的估计
- 从统计方法到神经方法的演进代表了”特征工程 → 表示学习”的范式转变
- 困惑度虽然常用,但与下游任务性能的相关性有限
经典资源:
- 📖 《Speech and Language Processing》(Jurafsky & Martin)第 3 章
- 📄 “A Neural Probabilistic Language Model” (Bengio et al., 2003)
- 🎓 CS224N: Natural Language Processing with Deep Learning(Stanford)
核心概念:
- 反向传播:链式法则、梯度流、计算图
- 优化算法:SGD、Adam、AdamW、学习率调度
- 正则化:Dropout、LayerNorm、BatchNorm、权重衰减
- 激活函数:ReLU、GELU、Swish(SwiGLU 在 LLM 中常用)
关键理解:
- LayerNorm 在 Transformer 中优于 BatchNorm(对序列长度不敏感)
- AdamW + Cosine Annealing + Warmup 是 LLM 训练的标准配置
- 梯度消失/爆炸问题在深层网络中需要特别关注
核心概念:
- 凸优化基础:凸函数、强凸性、收敛率
- 非凸优化:局部最小、鞍点、平坦最小值
- 大批量训练:线性缩放规则、LR 调整、泛化差距
- 分布式优化:数据并行、模型并行、ZeRO 优化
关键理解:
- LLM 训练是非凸优化,理论上保证很少,但实践中效果很好
- 大批量训练需要精心调参(LR、warmup、梯度累积)
- “彩票假说”(Lottery Ticket Hypothesis)对理解过参数化有帮助
核心概念:
- 熵与互信息:H(X)、I(X;Y)、条件熵
- KL 散度:D_KL(P||Q),非对称性,与交叉熵的关系
- 贝叶斯推断:先验、似然、后验、贝叶斯估计
- 变分推断:ELBO、VAE 的理论基础
关键理解:
- 交叉熵损失 = KL 散度 + 熵,最小化交叉熵 ≈ 最小化 KL 散度
- 信息瓶颈理论(Information Bottleneck)可以解释深度学习的泛化
核心组件:
- Multi-Head Attention:Q/K/V 投影、多头并行、缩放点积
- Feed-Forward Network:两层 MLP、GELU 激活、扩展比例 4x
- Layer Normalization:Pre-Norm vs Post-Norm、RMSNorm
- 残差连接:梯度流、深度网络训练稳定性
关键理解:
- Transformer 的并行化优势:RNN 的时序依赖 vs Transformer 的位置编码
- Pre-Norm(GPT-2/3)比 Post-Norm(原始 Transformer)更稳定
- FFN 层的作用:知识存储、记忆容量(MoE 扩展 FFN 容量)
经典资源:
- 📄 “Attention Is All You Need” (Vaswani et al., 2017) ⭐⭐⭐
三大范式:
- Encoder-Only(BERT 风格):双向注意力,适合理解任务
- Decoder-Only(GPT 风格):单向(因果)注意力,适合生成任务
- Encoder-Decoder(T5 风格):编码器双向 + 解码器单向,适合 seq2seq
架构演进:
- LLaMA 架构优化:RMSNorm、SwiGLU、RoPE、GQA
- Mixture-of-Experts(MoE):稀疏激活,参数量大但推理成本低
关键理解:
- Decoder-Only 成为主流是因为:简单、scalable、few-shot 能力强
- MoE 的关键挑战:负载均衡、专家坍缩、训练稳定性
核心变体:
- Scaled Dot-Product Attention:标准注意力
- Multi-Query Attention (MQA):K/V 共享,推理更快
- Grouped-Query Attention (GQA):MQA 与 MHA 的折中
- Linear Attention:O(n) 复杂度
- Sparse Attention:BigBird、Longformer
关键理解:
- 注意力的二次复杂度 O(n²) 是长文本的瓶颈
- KV Cache 是推理加速的关键,但内存占用大
- MQA/GQA 牺牲少许性能换取显著的推理加速
核心方案:
- Absolute Positional Encoding:正弦/余弦编码、可学习位置编码
- Relative Positional Encoding:T5 相对偏置、Transformer-XL
- Rotary Position Embedding (RoPE) ⭐⭐⭐:通过旋转矩阵编码位置
- ALiBi:线性偏置,训练时可泛化到更长序列
关键理解:
- RoPE 的核心洞察:相对位置信息通过点积自然编码
- 位置插值(Position Interpolation)可以扩展上下文长度
核心环节:
- 数据收集:Common Crawl、Wikipedia、书籍、代码、学术论文
- 数据清洗:去重、质量过滤、PII 去除
- 数据配比:DoReMi 动态优化数据配比
关键理解:
- “Data is the new code” —— 数据质量决定模型上限
- 去重的重要性:重复数据会损害泛化,导致 memorization
- 数据配比是一门艺术,需要平衡多样性和质量
核心损失函数:
- Next Token Prediction:自回归语言建模
- Masked Language Modeling(MLM):随机掩盖 token,预测原 token
- Prefix Language Modeling:前缀双向,后缀单向
- UL2:统一多种去噪目标
关键理解:
- Next Token Prediction 的简单性是其优势:无需复杂的数据处理
- MLM 的双向性在理解任务上有优势,但不适合生成
核心挑战:
- 计算效率:混合精度训练、Flash Attention、Gradient Checkpointing
- 分布式训练:数据并行、模型并行、ZeRO 优化
- 训练稳定性:Loss Spike、数值稳定性、坏数据检测
关键理解:
- Chinchilla 定律:数据量与参数量的最优配比
- ZeRO-3 + Offload 可以在单张 GPU 上训练超大模型
- Flash Attention 是近年来最重要的训练加速技术之一
涌现现象:
- 定义:小模型不具备,大模型突然出现的能力
- 示例:少样本学习、思维链推理、指令遵循、上下文学习
关键理解:
- 涌现能力的理论解释还在发展中
- 可能的原因:参数规模达到临界点、训练数据的多样性、优化过程的特性
- 实践启示:不要盲目追求”最大”,中等规模 + 高质量数据可能更高效
核心流程:
- 数据准备:高质量指令-回答对、多样化任务类型
- 训练策略:学习率调整、防止过拟合
关键技巧:
- 指令数据质量 > 数量:LIMA 论文(“Less is More”)
- 多轮对话格式:ChatML、ShareGPT 格式
- 打包训练:多个短序列打包成长序列
关键理解:
- SFT 是”格式化”预训练知识,而非”注入”新知识
- 数据质量决定 SFT 效果的上限
- 过度微调会损害泛化能力(灾难性遗忘)
RLHF(Reinforcement Learning from Human Feedback):
- SFT:在高质量数据上微调
- Reward Model:训练偏好模型
- PPO:用奖励模型优化策略
DPO(Direct Preference Optimization) ⭐⭐⭐:
- 核心洞察:显式建模奖励函数,直接优化偏好
- 优势:无需训练单独的 Reward Model,无需复杂的 RL 算法
- 变体:IPO、KTO、ORPO
关键理解:
- RLHF 的核心是”对齐”而非”能力提升”
- DPO 简化了 RLHF,但效果相当甚至更好
- 偏好数据的质量和多样性是关键
核心数据集:
- Self-Instruct:用强模型生成指令数据
- Alpaca:基于 Self-Instruct,52K 指令
- FLAN:Google 的指令微调数据集,涵盖 1800+ 任务
关键理解:
- 指令微调让模型”理解”如何使用其预训练知识
- 多任务指令微调(如 FLAN)显著提升 zero-shot 能力
- 合成数据(Self-Instruct)可以弥补真实数据的不足
核心概念:
- 任务定义:不同任务 = 不同指令格式
- 任务采样:平衡不同任务的数据比例
- 负迁移:某些任务可能相互干扰
高级技术:
- Adapter Layers:任务特定的适配器
- LoRA(Low-Rank Adaptation):参数高效微调
- Prefix Tuning:任务特定的前缀 token
核心原则:
- 清晰性:明确指定任务和格式
- 具体性:提供足够的上下文和约束
- 结构化:使用分隔符、编号、标记
- 示例驱动:Few-shot 示例比纯指令更有效
高级技巧:
- Role Prompting:“你是一个专家…”
- Step-by-Step:分步骤指导
- Output Formatting:明确输出格式(JSON、Markdown)
- Constraint Prompting:设置约束
核心现象:
- Zero-Shot:无示例,仅凭指令完成任务
- Few-Shot:提供少量示例,模型”学会”任务模式
- In-Context:无需梯度更新,通过上下文适应新任务
关键理解:
- Few-shot 性能随示例数量增加而提升,但有上限
- 示例的选择和顺序会影响结果(示例顺序偏差)
- In-Context Learning 是 LLM 最神奇的能力之一
核心思想:
- 显式推理:让模型”展示思考过程”
- 逐步分解:复杂问题 → 多个简单步骤
- Self-Consistency:多次采样,选择最一致答案
CoT 变体:
- Zero-Shot CoT:“Let’s think step by step.”
- Manual CoT:手工编写推理示例
- Tree-of-Thought:探索多条推理路径
- Graph-of-Thought:推理图而非链
关键理解:
- CoT 的魔力在于”让模型慢下来思考”
- 对于简单任务,CoT 可能引入噪声(over-thinking)
- CoT 效果依赖模型规模(通常需要 10B+ 参数)
自动化优化方法:
- Prompt Tuning:学习软提示(Soft Prompts)
- Prefix Tuning:学习任务特定的前缀
- APE(Automatic Prompt Engineer):自动生成和优化提示
- OPRO(Optimization by PROmpting):用 LLM 优化提示
量化(Quantization):
- PTQ(Post-Training Quantization):INT8/INT4
- QAT(Quantization-Aware Training):训练时模拟量化
- 方法对比:GPTQ、AWQ、GGUF
剪枝与蒸馏:
- 剪枝:SparseGPT
- 知识蒸馏:教师-学生模型
关键理解:
- 量化是性价比最高的压缩方法(4x-8x 加速)
- 剪枝在 LLM 上效果有限
- 蒸馏需要大量计算资源,但可以创造出高质量小模型
KV Cache 优化:
- PagedAttention(vLLM):分页管理 KV Cache
- Continuous Batching:动态批处理
- MQA/GQA:减少 KV Cache 大小
解码策略:
- Speculative Decoding:小模型草稿 + 大模型验证
- Parallel Decoding:S2D2、Medusa
- Lookahead Decoding:前瞻解码
硬件优化:
- Flash Attention 2:IO 感知,O(n) 内存
- TensorRT-LLM:NVIDIA 的推理优化库
关键理解:
- KV Cache 管理是推理加速的核心(内存瓶颈)
- Speculative Decoding 可以获得 2-3x 加速
- 硬件感知优化是底层加速的关键
服务化方案:
- vLLM:高吞吐量推理引擎
- TGI:Hugging Face 的推理服务
- llama.cpp:轻量级,CPU/Apple Silicon 友好
- TensorRT-LLM:NVIDIA 专用
- SGLang:结构化生成
架构设计:
- 请求调度:优先级队列、抢占
- 批处理策略:Continuous Batching
- 负载均衡:多副本、多模型
- 监控与日志:延迟、吞吐量、错误率
计算成本分析:
- 训练成本:FLOPs = 6 × 参数量 × Token 数
- 推理成本:Prefill(计算密集)+ Decode(内存密集)
成本优化策略:
- 模型选择:任务是否真的需要 70B 模型?
- 量化:INT4 量化可以 4x 降低成本
- Caching:复用 KV Cache
- 请求优化:批处理、请求合并
主流评测基准:
- 通用能力:MMLU、HellaSwag、ARC、WinoGrande、TruthfulQA
- 推理能力:GSM8K、MATH、HumanEval、MBPP
- 长文本能力:LongBench、L-Eval
评测问题:
- 数据污染:评测集可能出现在训练数据中
- 过拟合:模型可能在特定评测上过拟合
- 代表性不足:现有评测主要是英语、学术导向
安全维度:
- 有害内容:仇恨言论、暴力、非法活动
- 隐私泄露:PII 泄露
- 越狱攻击:绕过安全过滤
评测基准:
- RealToxicityPrompts:毒性检测
- AdvBench:对抗性攻击
- Red Teaming:人工红队测试
偏见类型:
- 性别偏见:职业刻板印象、代词偏见
- 种族偏见:文化偏见、刻板印象
- 宗教偏见:宗教刻板印象
评测方法:
- CrowS-Pairs:刻板印象评测
- StereoSet:刻板印象、反刻板印象
- WinoBias:性别偏见
主流框架:
- lm-evaluation-harness(EleutherAI)
- HELM(Stanford)
- OpenCompass(上海 AI Lab)
核心架构:
- 检索(Retrieve):稠密检索、稀疏检索、混合检索
- 增强(Augment):将检索结果注入 prompt
- 生成(Generate):基于增强上下文生成回答
高级 RAG:
- HyDE:生成假设文档 → 检索
- Query Rewriting:改写查询
- Multi-Query:生成多个查询
- GraphRAG:基于知识图谱
关键理解:
- RAG 的优势:知识可更新、可溯源、减少幻觉
- RAG 的挑战:检索质量、上下文长度、噪声文档
核心组件:
- 规划(Planning):任务分解、思维链/树、自我反思
- 记忆(Memory):短期记忆、长期记忆、工作记忆
- 工具使用(Tool Use):Function Calling、代码执行、Web 浏览
经典框架:
- ReAct:Reasoning + Acting
- AutoGPT:自主任务执行
- LangChain:Agent 开发框架
- AutoGen:多 Agent 协作
关键理解:
- Agent = LLM + 记忆 + 工具 + 规划
- 核心挑战:长期规划、错误恢复、稳定性
- 多 Agent 协作可以提升复杂任务的解决能力
核心架构:
- Vision Encoder:CLIP、ViT、EVA-CLIP
- Projector:视觉特征 → 文本嵌入
- LLM Backbone:语言模型
代表模型:
- LLaVA:视觉指令微调
- BLIP-2:Q-Former 桥接
- GPT-4V:OpenAI 多模态模型
- Gemini:Google 原生多模态
技术方案:
- 架构层面:线性注意力、稀疏注意力、状态空间模型
- 位置编码层面:RoPE + 位置插值、NTK-aware scaling
- 推理层面:KV Cache 压缩、Streaming LLM
代表模型:
- GPT-4-Turbo-128K:128K tokens
- Claude 3:200K tokens
- Gemini 1.5 Pro:1M+ tokens
第 1 个月:基础理论
- 深度学习基础:反向传播、优化、正则化
- NLP 基础:词嵌入、语言模型
- Transformer 架构
- 实践:用 PyTorch 实现一个简单的 Transformer
第 2 个月:预训练与架构
- 预训练目标:Next Token Prediction、MLM
- 主流架构:GPT、BERT、T5、LLaMA
- 训练技术:混合精度、分布式训练
- 实践:微调一个开源 LLM
第 3 个月:微调与应用
- SFT:监督微调
- RLHF:偏好建模、DPO
- 提示工程:Few-Shot、CoT
- 实践:构建一个简单的 RAG 系统
第 4-5 个月:深入理解
- 优化与缩放定律
- 架构优化:MoE、RoPE、GQA
- 对齐理论:RLHF vs DPO
- 推理优化:量化、KV Cache
- 实践:从零训练一个小型 LLM
第 6 个月:应用与前沿
- RAG 系统:检索、重排序
- Agent 系统:ReAct、工具使用
- 多模态:视觉编码器、对齐
- 长上下文:位置插值
- 实践:构建一个多模态 Agent
研究方向:
- 理论:涌现能力、缩放定律、机制可解释性
- 架构:SSM(Mamba)、MoE、线性注意力
- 训练:合成数据、课程学习
- 对齐:可扩展监督、AI 安全
- 应用:Agent、多模态、长上下文
- Attention Is All You Need (Vaswani et al., 2017) ⭐⭐⭐
- BERT (Devlin et al., 2018) ⭐⭐⭐
- GPT-3 (Brown et al., 2020) ⭐⭐⭐
- Chinchilla (Hoffmann et al., 2022) ⭐⭐⭐
- LLaMA (Touvron et al., 2023) ⭐⭐⭐
- Chain-of-Thought Prompting (Wei et al., 2022) ⭐⭐⭐
- InstructGPT / RLHF (Ouyang et al., 2022) ⭐⭐⭐
- DPO (Rafailov et al., 2023) ⭐⭐⭐
- FlashAttention (Dao et al., 2022) ⭐⭐⭐
- LoRA (Hu et al., 2021) ⭐⭐
- RAG (Lewis et al., 2020) ⭐⭐⭐
- Constitutional AI (Bai et al., 2022) ⭐⭐
- LLaVA (Liu et al., 2023) ⭐⭐
- ReAct (Yao et al., 2023) ⭐⭐⭐
- Emergent Abilities (Wei et al., 2022) ⭐⭐⭐
- Scaling Laws (Kaplan et al., 2020) ⭐⭐⭐
- vLLM / PagedAttention (Kwon et al., 2023) ⭐⭐⭐
- GPTQ (Frantar et al., 2023) ⭐⭐
- Self-Instruct (Wang et al., 2023) ⭐⭐
- UL2 (Tay et al., 2022) ⭐⭐
CS224N
Stanford - NLP with Deep Learning ⭐⭐⭐
Andrej Karpathy
Princeton
Hugging Face
- Lilian Weng’s Blog(Lil’Log)⭐⭐⭐
- Jay Alammar’s Blog(可视化讲解)⭐⭐⭐
- Sebastian Ruder’s Blog(NLP 综述)⭐⭐
- The Gradient(研究综述)⭐⭐
- Distill.pub(交互式可视化)⭐⭐⭐
核心框架
- Hugging Face Transformers ⭐⭐⭐
- PyTorch ⭐⭐⭐
推理引擎
- vLLM ⭐⭐⭐
- llama.cpp ⭐⭐
- TensorRT-LLM ⭐⭐
开发框架
- LangChain ⭐⭐
- LlamaIndex ⭐⭐
微调工具
- 数据为王:数据质量和多样性决定模型上限
- 缩放定律:更大模型 + 更多数据 + 更多计算 = 更好性能(但边际递减)
- 对齐是关键:能力提升需要对齐技术才能安全部署
- 推理是瓶颈:训练成本高,但推理成本更高(生命周期总成本)
- 评估很难:没有单一指标可以全面衡量模型能力
- 🚀 更高效的架构:SSM(Mamba)、MoE、线性注意力
- 🎯 更好的对齐:可扩展监督、宪法 AI、自我改进
- 🎨 多模态融合:原生多模态而非简单拼接
- 📖 长上下文:100K → 1M → 10M tokens
- 🤖 Agent 化:从 Chatbot → Agent → Autonomous System
- 📱 端侧部署:手机、边缘设备上的 LLM
最后的话:
LLM 领域发展极快,这份知识体系会在几个月内部分过时。学习的核心不是记忆知识点,而是建立框架思维:理解”为什么这样设计”、“如何权衡”、“如何演进”。
保持好奇心,持续学习,深入思考。
金豆 🐱
2026-03-28