跳转到内容
输入关键词后按 Enter 打开第一个结果。

大语言模型(LLM)知识体系结构图

大语言模型(LLM)知识体系结构图

Section titled “大语言模型(LLM)知识体系结构图”

作者:金豆 🐱
最后更新:2026-03-28

大语言模型(Large Language Models, LLMs)已经成为人工智能领域最重要的研究方向之一。本知识体系将整个 LLM 领域划分为 8 个一级分类,每个分类下设置 二级子主题关键概念,并提供学习路径与资源推荐。

1. 基础理论 ⭐⭐⭐
├── 语言模型基础
├── 深度学习基础
├── 优化理论
└── 信息论与概率
2. 模型架构 ⭐⭐⭐
├── Transformer 核心
├── 架构变体
├── 注意力机制
└── 位置编码
3. 预训练 ⭐⭐⭐
├── 数据准备
├── 训练目标
├── 大规模训练
└── 涌现能力
4. 微调与对齐 ⭐⭐⭐
├── 监督微调(SFT)
├── RLHF 与 DPO
├── 指令微调
└── 多任务学习
5. 提示工程 ⭐⭐
├── 提示设计
├── 上下文学习
├── 思维链推理
└── 提示优化
6. 推理与部署 ⭐⭐⭐
├── 模型压缩
├── 推理加速
├── 部署架构
└── 成本优化
7. 评测与基准 ⭐⭐
├── 能力评测
├── 安全评测
├── 偏见与公平性
└── 评测框架
8. 应用与前沿 ⭐⭐
├── RAG 与检索
├── Agent 系统
├── 多模态 LLM
└── 长上下文

核心概念

  • 概率语言模型:P(w₁, w₂, …, wₙ) 的建模
  • N-gram 模型:马尔可夫假设、平滑技术(Laplace、Kneser-Ney)
  • 神经语言模型:词嵌入、循环网络、语言建模损失
  • 困惑度(Perplexity):评估指标,PPL = exp(交叉熵损失)

关键理解

  • 语言模型的本质是对序列概率分布的估计
  • 从统计方法到神经方法的演进代表了”特征工程 → 表示学习”的范式转变
  • 困惑度虽然常用,但与下游任务性能的相关性有限

经典资源

  • 📖 《Speech and Language Processing》(Jurafsky & Martin)第 3 章
  • 📄 “A Neural Probabilistic Language Model” (Bengio et al., 2003)
  • 🎓 CS224N: Natural Language Processing with Deep Learning(Stanford)

核心概念

  • 反向传播:链式法则、梯度流、计算图
  • 优化算法:SGD、Adam、AdamW、学习率调度
  • 正则化:Dropout、LayerNorm、BatchNorm、权重衰减
  • 激活函数:ReLU、GELU、Swish(SwiGLU 在 LLM 中常用)

关键理解

  • LayerNorm 在 Transformer 中优于 BatchNorm(对序列长度不敏感)
  • AdamW + Cosine Annealing + Warmup 是 LLM 训练的标准配置
  • 梯度消失/爆炸问题在深层网络中需要特别关注

核心概念

  • 凸优化基础:凸函数、强凸性、收敛率
  • 非凸优化:局部最小、鞍点、平坦最小值
  • 大批量训练:线性缩放规则、LR 调整、泛化差距
  • 分布式优化:数据并行、模型并行、ZeRO 优化

关键理解

  • LLM 训练是非凸优化,理论上保证很少,但实践中效果很好
  • 大批量训练需要精心调参(LR、warmup、梯度累积)
  • “彩票假说”(Lottery Ticket Hypothesis)对理解过参数化有帮助

核心概念

  • 熵与互信息:H(X)、I(X;Y)、条件熵
  • KL 散度:D_KL(P||Q),非对称性,与交叉熵的关系
  • 贝叶斯推断:先验、似然、后验、贝叶斯估计
  • 变分推断:ELBO、VAE 的理论基础

关键理解

  • 交叉熵损失 = KL 散度 + 熵,最小化交叉熵 ≈ 最小化 KL 散度
  • 信息瓶颈理论(Information Bottleneck)可以解释深度学习的泛化

核心组件

  • Multi-Head Attention:Q/K/V 投影、多头并行、缩放点积
  • Feed-Forward Network:两层 MLP、GELU 激活、扩展比例 4x
  • Layer Normalization:Pre-Norm vs Post-Norm、RMSNorm
  • 残差连接:梯度流、深度网络训练稳定性

关键理解

  • Transformer 的并行化优势:RNN 的时序依赖 vs Transformer 的位置编码
  • Pre-Norm(GPT-2/3)比 Post-Norm(原始 Transformer)更稳定
  • FFN 层的作用:知识存储、记忆容量(MoE 扩展 FFN 容量)

经典资源

  • 📄 “Attention Is All You Need” (Vaswani et al., 2017) ⭐⭐⭐

三大范式

  • Encoder-Only(BERT 风格):双向注意力,适合理解任务
  • Decoder-Only(GPT 风格):单向(因果)注意力,适合生成任务
  • Encoder-Decoder(T5 风格):编码器双向 + 解码器单向,适合 seq2seq

架构演进

  • LLaMA 架构优化:RMSNorm、SwiGLU、RoPE、GQA
  • Mixture-of-Experts(MoE):稀疏激活,参数量大但推理成本低

关键理解

  • Decoder-Only 成为主流是因为:简单、scalable、few-shot 能力强
  • MoE 的关键挑战:负载均衡、专家坍缩、训练稳定性

核心变体

  • Scaled Dot-Product Attention:标准注意力
  • Multi-Query Attention (MQA):K/V 共享,推理更快
  • Grouped-Query Attention (GQA):MQA 与 MHA 的折中
  • Linear Attention:O(n) 复杂度
  • Sparse Attention:BigBird、Longformer

关键理解

  • 注意力的二次复杂度 O(n²) 是长文本的瓶颈
  • KV Cache 是推理加速的关键,但内存占用大
  • MQA/GQA 牺牲少许性能换取显著的推理加速

核心方案

  • Absolute Positional Encoding:正弦/余弦编码、可学习位置编码
  • Relative Positional Encoding:T5 相对偏置、Transformer-XL
  • Rotary Position Embedding (RoPE) ⭐⭐⭐:通过旋转矩阵编码位置
  • ALiBi:线性偏置,训练时可泛化到更长序列

关键理解

  • RoPE 的核心洞察:相对位置信息通过点积自然编码
  • 位置插值(Position Interpolation)可以扩展上下文长度

核心环节

  • 数据收集:Common Crawl、Wikipedia、书籍、代码、学术论文
  • 数据清洗:去重、质量过滤、PII 去除
  • 数据配比:DoReMi 动态优化数据配比

关键理解

  • “Data is the new code” —— 数据质量决定模型上限
  • 去重的重要性:重复数据会损害泛化,导致 memorization
  • 数据配比是一门艺术,需要平衡多样性和质量

核心损失函数

  • Next Token Prediction:自回归语言建模
  • Masked Language Modeling(MLM):随机掩盖 token,预测原 token
  • Prefix Language Modeling:前缀双向,后缀单向
  • UL2:统一多种去噪目标

关键理解

  • Next Token Prediction 的简单性是其优势:无需复杂的数据处理
  • MLM 的双向性在理解任务上有优势,但不适合生成

核心挑战

  • 计算效率:混合精度训练、Flash Attention、Gradient Checkpointing
  • 分布式训练:数据并行、模型并行、ZeRO 优化
  • 训练稳定性:Loss Spike、数值稳定性、坏数据检测

关键理解

  • Chinchilla 定律:数据量与参数量的最优配比
  • ZeRO-3 + Offload 可以在单张 GPU 上训练超大模型
  • Flash Attention 是近年来最重要的训练加速技术之一

涌现现象

  • 定义:小模型不具备,大模型突然出现的能力
  • 示例:少样本学习、思维链推理、指令遵循、上下文学习

关键理解

  • 涌现能力的理论解释还在发展中
  • 可能的原因:参数规模达到临界点、训练数据的多样性、优化过程的特性
  • 实践启示:不要盲目追求”最大”,中等规模 + 高质量数据可能更高效

核心流程

  • 数据准备:高质量指令-回答对、多样化任务类型
  • 训练策略:学习率调整、防止过拟合

关键技巧

  • 指令数据质量 > 数量:LIMA 论文(“Less is More”)
  • 多轮对话格式:ChatML、ShareGPT 格式
  • 打包训练:多个短序列打包成长序列

关键理解

  • SFT 是”格式化”预训练知识,而非”注入”新知识
  • 数据质量决定 SFT 效果的上限
  • 过度微调会损害泛化能力(灾难性遗忘)

RLHF(Reinforcement Learning from Human Feedback)

  1. SFT:在高质量数据上微调
  2. Reward Model:训练偏好模型
  3. PPO:用奖励模型优化策略

DPO(Direct Preference Optimization) ⭐⭐⭐:

  • 核心洞察:显式建模奖励函数,直接优化偏好
  • 优势:无需训练单独的 Reward Model,无需复杂的 RL 算法
  • 变体:IPO、KTO、ORPO

关键理解

  • RLHF 的核心是”对齐”而非”能力提升”
  • DPO 简化了 RLHF,但效果相当甚至更好
  • 偏好数据的质量和多样性是关键

核心数据集

  • Self-Instruct:用强模型生成指令数据
  • Alpaca:基于 Self-Instruct,52K 指令
  • FLAN:Google 的指令微调数据集,涵盖 1800+ 任务

关键理解

  • 指令微调让模型”理解”如何使用其预训练知识
  • 多任务指令微调(如 FLAN)显著提升 zero-shot 能力
  • 合成数据(Self-Instruct)可以弥补真实数据的不足

核心概念

  • 任务定义:不同任务 = 不同指令格式
  • 任务采样:平衡不同任务的数据比例
  • 负迁移:某些任务可能相互干扰

高级技术

  • Adapter Layers:任务特定的适配器
  • LoRA(Low-Rank Adaptation):参数高效微调
  • Prefix Tuning:任务特定的前缀 token

核心原则

  • 清晰性:明确指定任务和格式
  • 具体性:提供足够的上下文和约束
  • 结构化:使用分隔符、编号、标记
  • 示例驱动:Few-shot 示例比纯指令更有效

高级技巧

  • Role Prompting:“你是一个专家…”
  • Step-by-Step:分步骤指导
  • Output Formatting:明确输出格式(JSON、Markdown)
  • Constraint Prompting:设置约束

5.2 上下文学习(In-Context Learning) ⭐⭐⭐

Section titled “5.2 上下文学习(In-Context Learning) ⭐⭐⭐”

核心现象

  • Zero-Shot:无示例,仅凭指令完成任务
  • Few-Shot:提供少量示例,模型”学会”任务模式
  • In-Context:无需梯度更新,通过上下文适应新任务

关键理解

  • Few-shot 性能随示例数量增加而提升,但有上限
  • 示例的选择和顺序会影响结果(示例顺序偏差)
  • In-Context Learning 是 LLM 最神奇的能力之一

5.3 思维链推理(Chain-of-Thought) ⭐⭐⭐

Section titled “5.3 思维链推理(Chain-of-Thought) ⭐⭐⭐”

核心思想

  • 显式推理:让模型”展示思考过程”
  • 逐步分解:复杂问题 → 多个简单步骤
  • Self-Consistency:多次采样,选择最一致答案

CoT 变体

  • Zero-Shot CoT:“Let’s think step by step.”
  • Manual CoT:手工编写推理示例
  • Tree-of-Thought:探索多条推理路径
  • Graph-of-Thought:推理图而非链

关键理解

  • CoT 的魔力在于”让模型慢下来思考”
  • 对于简单任务,CoT 可能引入噪声(over-thinking)
  • CoT 效果依赖模型规模(通常需要 10B+ 参数)

自动化优化方法

  • Prompt Tuning:学习软提示(Soft Prompts)
  • Prefix Tuning:学习任务特定的前缀
  • APE(Automatic Prompt Engineer):自动生成和优化提示
  • OPRO(Optimization by PROmpting):用 LLM 优化提示

量化(Quantization)

  • PTQ(Post-Training Quantization):INT8/INT4
  • QAT(Quantization-Aware Training):训练时模拟量化
  • 方法对比:GPTQ、AWQ、GGUF

剪枝与蒸馏

  • 剪枝:SparseGPT
  • 知识蒸馏:教师-学生模型

关键理解

  • 量化是性价比最高的压缩方法(4x-8x 加速)
  • 剪枝在 LLM 上效果有限
  • 蒸馏需要大量计算资源,但可以创造出高质量小模型

KV Cache 优化

  • PagedAttention(vLLM):分页管理 KV Cache
  • Continuous Batching:动态批处理
  • MQA/GQA:减少 KV Cache 大小

解码策略

  • Speculative Decoding:小模型草稿 + 大模型验证
  • Parallel Decoding:S2D2、Medusa
  • Lookahead Decoding:前瞻解码

硬件优化

  • Flash Attention 2:IO 感知,O(n) 内存
  • TensorRT-LLM:NVIDIA 的推理优化库

关键理解

  • KV Cache 管理是推理加速的核心(内存瓶颈)
  • Speculative Decoding 可以获得 2-3x 加速
  • 硬件感知优化是底层加速的关键

服务化方案

  • vLLM:高吞吐量推理引擎
  • TGI:Hugging Face 的推理服务
  • llama.cpp:轻量级,CPU/Apple Silicon 友好
  • TensorRT-LLM:NVIDIA 专用
  • SGLang:结构化生成

架构设计

  • 请求调度:优先级队列、抢占
  • 批处理策略:Continuous Batching
  • 负载均衡:多副本、多模型
  • 监控与日志:延迟、吞吐量、错误率

计算成本分析

  • 训练成本:FLOPs = 6 × 参数量 × Token 数
  • 推理成本:Prefill(计算密集)+ Decode(内存密集)

成本优化策略

  • 模型选择:任务是否真的需要 70B 模型?
  • 量化:INT4 量化可以 4x 降低成本
  • Caching:复用 KV Cache
  • 请求优化:批处理、请求合并

主流评测基准

  • 通用能力:MMLU、HellaSwag、ARC、WinoGrande、TruthfulQA
  • 推理能力:GSM8K、MATH、HumanEval、MBPP
  • 长文本能力:LongBench、L-Eval

评测问题

  • 数据污染:评测集可能出现在训练数据中
  • 过拟合:模型可能在特定评测上过拟合
  • 代表性不足:现有评测主要是英语、学术导向

安全维度

  • 有害内容:仇恨言论、暴力、非法活动
  • 隐私泄露:PII 泄露
  • 越狱攻击:绕过安全过滤

评测基准

  • RealToxicityPrompts:毒性检测
  • AdvBench:对抗性攻击
  • Red Teaming:人工红队测试

偏见类型

  • 性别偏见:职业刻板印象、代词偏见
  • 种族偏见:文化偏见、刻板印象
  • 宗教偏见:宗教刻板印象

评测方法

  • CrowS-Pairs:刻板印象评测
  • StereoSet:刻板印象、反刻板印象
  • WinoBias:性别偏见

主流框架

  • lm-evaluation-harness(EleutherAI)
  • HELM(Stanford)
  • OpenCompass(上海 AI Lab)

核心架构

  • 检索(Retrieve):稠密检索、稀疏检索、混合检索
  • 增强(Augment):将检索结果注入 prompt
  • 生成(Generate):基于增强上下文生成回答

高级 RAG

  • HyDE:生成假设文档 → 检索
  • Query Rewriting:改写查询
  • Multi-Query:生成多个查询
  • GraphRAG:基于知识图谱

关键理解

  • RAG 的优势:知识可更新、可溯源、减少幻觉
  • RAG 的挑战:检索质量、上下文长度、噪声文档

核心组件

  • 规划(Planning):任务分解、思维链/树、自我反思
  • 记忆(Memory):短期记忆、长期记忆、工作记忆
  • 工具使用(Tool Use):Function Calling、代码执行、Web 浏览

经典框架

  • ReAct:Reasoning + Acting
  • AutoGPT:自主任务执行
  • LangChain:Agent 开发框架
  • AutoGen:多 Agent 协作

关键理解

  • Agent = LLM + 记忆 + 工具 + 规划
  • 核心挑战:长期规划、错误恢复、稳定性
  • 多 Agent 协作可以提升复杂任务的解决能力

核心架构

  • Vision Encoder:CLIP、ViT、EVA-CLIP
  • Projector:视觉特征 → 文本嵌入
  • LLM Backbone:语言模型

代表模型

  • LLaVA:视觉指令微调
  • BLIP-2:Q-Former 桥接
  • GPT-4V:OpenAI 多模态模型
  • Gemini:Google 原生多模态

技术方案

  • 架构层面:线性注意力、稀疏注意力、状态空间模型
  • 位置编码层面:RoPE + 位置插值、NTK-aware scaling
  • 推理层面:KV Cache 压缩、Streaming LLM

代表模型

  • GPT-4-Turbo-128K:128K tokens
  • Claude 3:200K tokens
  • Gemini 1.5 Pro:1M+ tokens

第 1 个月:基础理论

  • 深度学习基础:反向传播、优化、正则化
  • NLP 基础:词嵌入、语言模型
  • Transformer 架构
  • 实践:用 PyTorch 实现一个简单的 Transformer

第 2 个月:预训练与架构

  • 预训练目标:Next Token Prediction、MLM
  • 主流架构:GPT、BERT、T5、LLaMA
  • 训练技术:混合精度、分布式训练
  • 实践:微调一个开源 LLM

第 3 个月:微调与应用

  • SFT:监督微调
  • RLHF:偏好建模、DPO
  • 提示工程:Few-Shot、CoT
  • 实践:构建一个简单的 RAG 系统

第 4-5 个月:深入理解

  • 优化与缩放定律
  • 架构优化:MoE、RoPE、GQA
  • 对齐理论:RLHF vs DPO
  • 推理优化:量化、KV Cache
  • 实践:从零训练一个小型 LLM

第 6 个月:应用与前沿

  • RAG 系统:检索、重排序
  • Agent 系统:ReAct、工具使用
  • 多模态:视觉编码器、对齐
  • 长上下文:位置插值
  • 实践:构建一个多模态 Agent

研究方向

  • 理论:涌现能力、缩放定律、机制可解释性
  • 架构:SSM(Mamba)、MoE、线性注意力
  • 训练:合成数据、课程学习
  • 对齐:可扩展监督、AI 安全
  • 应用:Agent、多模态、长上下文

  1. Attention Is All You Need (Vaswani et al., 2017) ⭐⭐⭐
  2. BERT (Devlin et al., 2018) ⭐⭐⭐
  3. GPT-3 (Brown et al., 2020) ⭐⭐⭐
  4. Chinchilla (Hoffmann et al., 2022) ⭐⭐⭐
  5. LLaMA (Touvron et al., 2023) ⭐⭐⭐
  6. Chain-of-Thought Prompting (Wei et al., 2022) ⭐⭐⭐
  7. InstructGPT / RLHF (Ouyang et al., 2022) ⭐⭐⭐
  8. DPO (Rafailov et al., 2023) ⭐⭐⭐
  9. FlashAttention (Dao et al., 2022) ⭐⭐⭐
  10. LoRA (Hu et al., 2021) ⭐⭐
  11. RAG (Lewis et al., 2020) ⭐⭐⭐
  12. Constitutional AI (Bai et al., 2022) ⭐⭐
  13. LLaVA (Liu et al., 2023) ⭐⭐
  14. ReAct (Yao et al., 2023) ⭐⭐⭐
  15. Emergent Abilities (Wei et al., 2022) ⭐⭐⭐
  16. Scaling Laws (Kaplan et al., 2020) ⭐⭐⭐
  17. vLLM / PagedAttention (Kwon et al., 2023) ⭐⭐⭐
  18. GPTQ (Frantar et al., 2023) ⭐⭐
  19. Self-Instruct (Wang et al., 2023) ⭐⭐
  20. UL2 (Tay et al., 2022) ⭐⭐

CS224N

Stanford - NLP with Deep Learning ⭐⭐⭐

Andrej Karpathy

Zero to Hero LLM 课程 ⭐⭐⭐

Princeton

Understanding LLMs ⭐⭐

Hugging Face

NLP Course ⭐⭐⭐

  1. Lilian Weng’s Blog(Lil’Log)⭐⭐⭐
  2. Jay Alammar’s Blog(可视化讲解)⭐⭐⭐
  3. Sebastian Ruder’s Blog(NLP 综述)⭐⭐
  4. The Gradient(研究综述)⭐⭐
  5. Distill.pub(交互式可视化)⭐⭐⭐

核心框架

  • Hugging Face Transformers ⭐⭐⭐
  • PyTorch ⭐⭐⭐

推理引擎

  • vLLM ⭐⭐⭐
  • llama.cpp ⭐⭐
  • TensorRT-LLM ⭐⭐

开发框架

  • LangChain ⭐⭐
  • LlamaIndex ⭐⭐

微调工具

  • Unsloth ⭐⭐
  • Axolotl ⭐⭐

  1. 数据为王:数据质量和多样性决定模型上限
  2. 缩放定律:更大模型 + 更多数据 + 更多计算 = 更好性能(但边际递减)
  3. 对齐是关键:能力提升需要对齐技术才能安全部署
  4. 推理是瓶颈:训练成本高,但推理成本更高(生命周期总成本)
  5. 评估很难:没有单一指标可以全面衡量模型能力
  • 🚀 更高效的架构:SSM(Mamba)、MoE、线性注意力
  • 🎯 更好的对齐:可扩展监督、宪法 AI、自我改进
  • 🎨 多模态融合:原生多模态而非简单拼接
  • 📖 长上下文:100K → 1M → 10M tokens
  • 🤖 Agent 化:从 Chatbot → Agent → Autonomous System
  • 📱 端侧部署:手机、边缘设备上的 LLM

最后的话

LLM 领域发展极快,这份知识体系会在几个月内部分过时。学习的核心不是记忆知识点,而是建立框架思维:理解”为什么这样设计”、“如何权衡”、“如何演进”。

保持好奇心,持续学习,深入思考。

金豆 🐱
2026-03-28