AI 技术

AI 技术 🔥 核心章节

💡 核心要点

AI 技术章节覆盖从 Transformer 原理到生产级 AI 应用的完整知识链。核心主线是：LLM 基础 → 应用技术（Prompt / Embedding / RAG）→ Agent 智能体 → 工程实践（训练 / 推理优化 / 架构设计）。理解每一层解决什么问题、怎么衔接，比孤立背概念更有用。面试中能画出 AI 应用的全景图并说清每一层的职责，就已经展示了系统理解。

全局视角：AI 应用的完整技术栈

理解 AI 技术的最好方式是跟踪一个用户提问从输入到回答的完整过程：

用户输入（自然语言）
  ↓
Prompt 工程（System Prompt + 上下文组装）
  ↓ 是否需要外部知识？
  ├── 是 → RAG 检索增强
  │     ├── Embedding 模型 → 向量化
  │     ├── 向量数据库 → 语义检索
  │     ├── Reranking → 精排
  │     └── 上下文注入 Prompt
  ├── 是否需要执行动作？
  │     └── Agent → 规划 → 工具调用 → 反思循环
  └── 否 → 直接调用 LLM
  ↓
LLM 推理（Transformer → 自注意力 → 解码生成）
  ├── KV Cache 加速
  ├── 量化 / 推测解码优化
  └── 安全护栏（Guardrails）
  ↓
流式输出 → 前端渲染 → 用户看到回答

AI 知识体系全景

┌─────────────────────────────────────────────────────┐
│                   AI 面试与实战                       │
│  (面试准备策略 / 全栈 AI 实战 / AI 系统设计)           │
├─────────────────────────────────────────────────────┤
│                AI 工程实践                            │
│  (模型训练 / 推理优化 / 评估对齐 / 应用架构)            │
├─────────────────────────────────────────────────────┤
│          AI Agent              │   RAG 系统           │
│  (ReAct / Tool Use /           │  (检索 / 向量数据库 / │
│   Memory / MCP)                │   Rerank / 评估)      │
├─────────────────────────────────────────────────────┤
│               LLM 应用技术                            │
│  (Prompt Engineering / Embedding / 向量数据库)         │
├─────────────────────────────────────────────────────┤
│                   LLM 基础                            │
│  (Transformer / 自注意力 / Tokenization / 解码策略)     │
├─────────────────────────────────────────────────────┤
│                   AI 概述                             │
│  (发展历程 / 弱AI-AGI / ML分类 / Scaling Laws)         │
└─────────────────────────────────────────────────────┘

从下往上理解：

AI 概述是背景知识——理解 AI 发展脉络和当前所处阶段
LLM 基础是核心——Transformer 架构、注意力机制、解码策略
应用技术是工具箱——Prompt Engineering 调优输出，Embedding 连接语义空间，向量数据库存储知识
RAG & Agent是高级应用——RAG 让 LLM 连接外部知识，Agent 让 LLM 具备行动能力
工程实践是生产化——训练、推理优化、架构设计、评估对齐
面试实战是综合运用——系统设计题、项目表达、能力展示

核心概念速查

概念	一句话解释	为什么重要
Transformer	基于自注意力机制的序列模型，抛弃了 RNN 的顺序限制	所有现代 LLM 的基础架构
Self-Attention	让每个 token 关注序列中所有其他 token，捕捉长距离依赖	理解 LLM 能力的核心
KV Cache	缓存已计算的 Key/Value，避免重复计算	推理加速的第一手段
Embedding	将文本映射到高维向量空间，语义相近的文本距离接近	RAG 和语义搜索的基础
RAG	检索外部知识 + 注入 Prompt，解决 LLM 知识截断和幻觉问题	企业级 AI 应用的主流架构
Agent	LLM + 规划 + 工具调用 + 记忆，从"回答问题"进化到"完成任务"	AI 应用的下一个范式
RLHF	用人类反馈训练奖励模型，再优化 LLM 的输出偏好	让 LLM 从"能说话"到"说人话"
LoRA	冻结原始权重，只训练低秩增量矩阵	低成本微调的事实标准
量化	降低模型权重精度（FP16→INT4），减少显存和计算量	让大模型能在消费级硬件运行
Function Calling	LLM 输出结构化的函数调用指令，由系统执行	Agent 调用工具的核心机制

面试中 AI 题的特点

AI 面试题有三个层次：

层次	问法	考查重点	举例
概念层	"XX 是什么"	知不知道这个技术	"什么是 RAG？"
原理层	"XX 怎么实现的"	理不理解底层机制	"Transformer 的注意力机制怎么工作的？"
设计层	"设计一个 XX 系统"	能不能落地	"设计一个企业知识库问答系统"

回答策略：

先说"是什么"——一句话定义（如 "RAG 是检索增强生成，让 LLM 基于外部知识回答问题"）
再说"怎么做"——核心流程（如 "用户查询 → Embedding → 向量检索 → Rerank → 注入 Prompt → LLM 生成"）
最后说"有什么坑"——实战经验（如 "分块策略影响检索质量，Rerank 能显著提升准确率"）

学习技巧与直觉培养

技巧一：理解"为什么有这个东西"比"怎么用"更重要

每个技术的存在都是为了解决一个具体痛点：

技术	解决的痛点
Transformer / Self-Attention	RNN 无法并行 + 长距离依赖丢失
Prompt Engineering	LLM 输出质量取决于输入质量 → 系统化调优方法
Embedding + 向量数据库	关键词搜索无法捕捉语义 → 语义相似度检索
RAG	LLM 知识有截断日期 + 会产生幻觉 → 注入实时外部知识
Agent	LLM 只能生成文本 → 让它能规划、使用工具、完成任务
LoRA / QLoRA	全量微调成本太高 → 低秩适配，用 1% 参数量达到接近效果
量化	模型太大放不进显存 → 降低精度换空间
KV Cache	自回归解码每步重复计算 → 缓存避免冗余
RLHF / DPO	预训练模型不懂人类偏好 → 用反馈信号对齐
Guardrails	LLM 可能输出有害内容 → 安全护栏过滤

技巧二：对比学习

很多概念成对出现，对比记忆效率更高：

A	B	核心区别
RAG	微调	RAG 注入外部知识（不改模型），微调改变模型权重（不需要检索）
RAG	Long Context	RAG 检索最相关片段（精准），Long Context 塞入全文（可能遗漏中间内容）
RAG	Skill	RAG 是"教模型查资料"（注入知识），Skill 是"教模型按 SOP 办事"（注入流程 + 工具子集）；两者可组合，Skill 内部可调用 RAG
Skill	Tool	Skill 是完整的任务流程（含指令+工具集+约束），Tool 是单个原子操作；Skill 通常会编排多个 Tool
MCP	A2A	MCP 是 Agent 与工具/数据源之间的协议（垂直），A2A 是 Agent 与 Agent 之间的协议（水平）
Reasoning Model	普通 LLM	Reasoning Model 在推理时显式生成长思维链（test-time compute），适合数学/代码；普通 LLM 走"快思考"路径，延迟低成本低
单模型调用	Compound AI System	单模型简单但不可靠，复合系统多组件协作更可靠但工程复杂
LoRA	全量微调	LoRA 只训练增量矩阵（省资源），全量微调更新所有参数（效果上限更高）
RLHF	DPO	RLHF 需要单独训练奖励模型，DPO 直接从偏好数据优化（更简单）
Dense Retrieval	Sparse Retrieval (BM25)	Dense 用向量语义匹配，Sparse 用关键词精确匹配；混合检索效果最好
Agent	Chain/Pipeline	Agent 有自主规划和反思能力，Chain 是预定义的固定流程
Prefill	Decode	Prefill 并行处理输入（计算密集），Decode 自回归逐 token 生成（显存密集）
MQA / GQA	MHA	减少 KV Head 数量降低显存，MQA 极端到 1 个 Head，GQA 是折中
Temperature 高	Temperature 低	高温更随机多样，低温更确定保守

技巧三：画架构图是最好的理解方法

AI 的核心机制都可以用架构图表达：

RAG 流程：Query → Embedding → 向量检索 → Rerank → 上下文注入 → LLM → 回答
Agent 循环：感知 → 规划 → 行动 → 观察 → 反思 → 下一步行动
推理优化：Prefill（并行）→ KV Cache 存储 → Decode（自回归 + Cache 复用）
训练流程：预训练（海量数据）→ SFT（指令微调）→ RLHF/DPO（对齐）

面试时主动画图，展示你的系统思维。

技巧四：从"失败原因"反推原理

理解失败原因就是理解原理：

失败现象	反推出的原理
RAG 检索到了但回答错误	检索质量不够 → 需要 Rerank 精排 + 分块策略优化
RAG 回答中出现幻觉	检索结果不相关但被注入了 → 需要相关性阈值过滤
Agent 陷入死循环	缺少终止条件和反思机制 → 需要最大步数限制 + Self-Reflection
微调后模型变差	过拟合或遗忘 → 数据质量问题 + 学习率过高
Prompt 不稳定	模型对指令措辞敏感 → 需要 Few-shot 示例 + 结构化 Prompt
量化后精度下降明显	压缩过度 → 考虑 INT8 而非 INT4，或混合精度量化

分类地图

AI 基础

主题	核心内容	面试频率	详细页面
AI 概述与发展历程	弱AI/AGI/ASI、ML 分类、Scaling Laws、MoE	🔥	AI 概述
LLM 大语言模型原理	Transformer、自注意力、位置编码、Tokenization、解码策略	🔥🔥🔥	LLM 原理

LLM 应用技术

主题	核心内容	面试频率	详细页面
Prompt Engineering	Zero/Few-shot、CoT、Self-Consistency、ToT、Prompt 安全	🔥🔥🔥	Prompt Engineering
Embedding 与向量数据库	Word2Vec/BERT、向量数据库选型、ANN 算法(HNSW/IVF)	🔥🔥	Embedding 与向量数据库
RAG 检索增强生成	RAG 架构、分块策略、混合检索、Rerank、HyDE/GraphRAG	🔥🔥🔥	RAG

AI Agent

主题	核心内容	面试频率	详细页面
AI Agent 智能体	ReAct、记忆系统、Tool Use、MCP、多 Agent、框架对比	🔥🔥🔥	AI Agent
Agent Skills 编写指南	Skill 定义形式、指令设计、工具权限、触发路由、测试验证	🔥🔥	Skills 编写指南
Harness Engineering	Prompt 分层架构、执行循环、上下文预算、安全控制、可观测性	🔥🔥	Harness Engineering

AI 工程实践

主题	核心内容	面试频率	详细页面
模型微调与训练	SFT、LoRA/QLoRA、RLHF/DPO、分布式训练	🔥🔥	模型训练
模型评估、对齐与 AI 安全	Evals-Driven Development、RLHF/DPO/Constitutional AI、Red Teaming、Guardrails 架构	🔥🔥🔥	评估、对齐与安全
LLM 推理优化	KV Cache、MQA/GQA、量化、推测解码、Continuous Batching	🔥🔥🔥	推理优化
AI 应用架构设计	架构模式、模型服务、API 设计、成本优化、可观测性	🔥🔥	应用架构
AI 系统设计面试题	设计框架、智能客服/代码补全案例、权衡分析	🔥🔥	系统设计
AI 前沿趋势与新范式	Compound AI Systems、Model Routing、GraphRAG、Evals-Driven、AI 可观测性	🔥🔥🔥	前沿趋势

AI 面试准备

主题	核心内容	面试频率	详细页面
AI 时代面试准备策略	AI 辅助学习方法、知识图谱构建、面试中如何展示 AI 能力	🔥🔥🔥	面试准备策略
全栈工程师 AI 实战能力	后端 SSE 流式、Prompt 管理、前端渲染、成本控制	🔥🔥🔥	全栈 AI 实战

建议学习顺序

第一阶段（基础，必须掌握）：
  AI 概述 → LLM 原理（重点：Transformer + 自注意力）

第二阶段（核心应用，面试重点）：
  Prompt Engineering → Embedding 与向量数据库 → RAG

第三阶段（高级应用）：
  AI Agent → AI 应用架构设计 → AI 系统设计

第四阶段（工程深入，按需学习）：
  模型训练（LoRA）→ 推理优化（KV Cache / 量化）→ 评估与对齐

高频面试题速查

问题	核心答案	详见
Transformer 的自注意力机制？	Q·K 点积算权重，加权求和 V，捕捉全局依赖	LLM 原理
什么是 RAG？为什么需要它？	检索外部知识注入 Prompt，解决知识截断和幻觉	RAG
RAG vs 微调怎么选？	RAG 适合动态知识、成本低；微调适合改变模型行为、固定领域	应用架构
Agent 的核心架构？	感知→规划→行动→记忆，ReAct 模式交替推理和行动	AI Agent
LoRA 的原理？	冻结原始权重，训练两个低秩矩阵 A·B 作为增量	模型训练
KV Cache 是什么？	缓存已计算的 K/V，Decode 阶段只算新 token 的 Q 与全部 K/V	推理优化
Prompt Engineering 的核心技巧？	Few-shot 示例 + CoT 推理链 + 结构化输出 + 角色设定	Prompt Engineering
如何评估 LLM？	自动基准(MMLU/HumanEval) + 人工评估 + LLM-as-Judge	评估与对齐

对比速查

A	B	一句话区别
RAG	微调	RAG 注入知识不改模型，微调改模型不需检索
LoRA	全量微调	LoRA 训练 1% 参数，全量微调更新全部参数
RLHF	DPO	RLHF 需要奖励模型，DPO 直接从偏好数据优化
Dense	Sparse (BM25)	Dense 向量语义匹配，Sparse 关键词精确匹配
Agent	RAG	Agent 能规划和执行动作，RAG 只增强知识检索
Prefill	Decode	Prefill 并行处理输入，Decode 自回归逐 token 生成
MHA	GQA / MQA	MHA 每个头独立 KV，GQA/MQA 共享 KV 头省显存
CoT	Few-shot	CoT 引导推理过程，Few-shot 提供输入输出示例

AI 技术 ​

全局视角：AI 应用的完整技术栈 ​

AI 知识体系全景 ​

核心概念速查 ​

面试中 AI 题的特点 ​

学习技巧与直觉培养 ​

技巧一：理解"为什么有这个东西"比"怎么用"更重要 ​

技巧二：对比学习 ​

技巧三：画架构图是最好的理解方法 ​

技巧四：从"失败原因"反推原理 ​

分类地图 ​

AI 基础 ​

LLM 应用技术 ​

AI Agent ​

AI 工程实践 ​

AI 面试准备 ​

建议学习顺序 ​

高频面试题速查 ​

对比速查 ​