Skip to content

AI 技术

AI 技术 🔥 核心章节

💡 核心要点

AI 技术章节覆盖从 Transformer 原理到生产级 AI 应用的完整知识链。核心主线是:LLM 基础 → 应用技术(Prompt / Embedding / RAG)→ Agent 智能体 → 工程实践(训练 / 推理优化 / 架构设计)。理解每一层解决什么问题、怎么衔接,比孤立背概念更有用。面试中能画出 AI 应用的全景图并说清每一层的职责,就已经展示了系统理解。


全局视角:AI 应用的完整技术栈

理解 AI 技术的最好方式是跟踪一个用户提问从输入到回答的完整过程:

用户输入(自然语言)

Prompt 工程(System Prompt + 上下文组装)
  ↓ 是否需要外部知识?
  ├── 是 → RAG 检索增强
  │     ├── Embedding 模型 → 向量化
  │     ├── 向量数据库 → 语义检索
  │     ├── Reranking → 精排
  │     └── 上下文注入 Prompt
  ├── 是否需要执行动作?
  │     └── Agent → 规划 → 工具调用 → 反思循环
  └── 否 → 直接调用 LLM

LLM 推理(Transformer → 自注意力 → 解码生成)
  ├── KV Cache 加速
  ├── 量化 / 推测解码优化
  └── 安全护栏(Guardrails)

流式输出 → 前端渲染 → 用户看到回答

AI 知识体系全景

┌─────────────────────────────────────────────────────┐
│                   AI 面试与实战                       │
│  (面试准备策略 / 全栈 AI 实战 / AI 系统设计)           │
├─────────────────────────────────────────────────────┤
│                AI 工程实践                            │
│  (模型训练 / 推理优化 / 评估对齐 / 应用架构)            │
├─────────────────────────────────────────────────────┤
│          AI Agent              │   RAG 系统           │
│  (ReAct / Tool Use /           │  (检索 / 向量数据库 / │
│   Memory / MCP)                │   Rerank / 评估)      │
├─────────────────────────────────────────────────────┤
│               LLM 应用技术                            │
│  (Prompt Engineering / Embedding / 向量数据库)         │
├─────────────────────────────────────────────────────┤
│                   LLM 基础                            │
│  (Transformer / 自注意力 / Tokenization / 解码策略)     │
├─────────────────────────────────────────────────────┤
│                   AI 概述                             │
│  (发展历程 / 弱AI-AGI / ML分类 / Scaling Laws)         │
└─────────────────────────────────────────────────────┘

从下往上理解

  1. AI 概述是背景知识——理解 AI 发展脉络和当前所处阶段
  2. LLM 基础是核心——Transformer 架构、注意力机制、解码策略
  3. 应用技术是工具箱——Prompt Engineering 调优输出,Embedding 连接语义空间,向量数据库存储知识
  4. RAG & Agent是高级应用——RAG 让 LLM 连接外部知识,Agent 让 LLM 具备行动能力
  5. 工程实践是生产化——训练、推理优化、架构设计、评估对齐
  6. 面试实战是综合运用——系统设计题、项目表达、能力展示

核心概念速查

概念一句话解释为什么重要
Transformer基于自注意力机制的序列模型,抛弃了 RNN 的顺序限制所有现代 LLM 的基础架构
Self-Attention让每个 token 关注序列中所有其他 token,捕捉长距离依赖理解 LLM 能力的核心
KV Cache缓存已计算的 Key/Value,避免重复计算推理加速的第一手段
Embedding将文本映射到高维向量空间,语义相近的文本距离接近RAG 和语义搜索的基础
RAG检索外部知识 + 注入 Prompt,解决 LLM 知识截断和幻觉问题企业级 AI 应用的主流架构
AgentLLM + 规划 + 工具调用 + 记忆,从"回答问题"进化到"完成任务"AI 应用的下一个范式
RLHF用人类反馈训练奖励模型,再优化 LLM 的输出偏好让 LLM 从"能说话"到"说人话"
LoRA冻结原始权重,只训练低秩增量矩阵低成本微调的事实标准
量化降低模型权重精度(FP16→INT4),减少显存和计算量让大模型能在消费级硬件运行
Function CallingLLM 输出结构化的函数调用指令,由系统执行Agent 调用工具的核心机制

面试中 AI 题的特点

AI 面试题有三个层次:

层次问法考查重点举例
概念层"XX 是什么"知不知道这个技术"什么是 RAG?"
原理层"XX 怎么实现的"理不理解底层机制"Transformer 的注意力机制怎么工作的?"
设计层"设计一个 XX 系统"能不能落地"设计一个企业知识库问答系统"

回答策略

  1. 先说"是什么"——一句话定义(如 "RAG 是检索增强生成,让 LLM 基于外部知识回答问题")
  2. 再说"怎么做"——核心流程(如 "用户查询 → Embedding → 向量检索 → Rerank → 注入 Prompt → LLM 生成")
  3. 最后说"有什么坑"——实战经验(如 "分块策略影响检索质量,Rerank 能显著提升准确率")

学习技巧与直觉培养

技巧一:理解"为什么有这个东西"比"怎么用"更重要

每个技术的存在都是为了解决一个具体痛点:

技术解决的痛点
Transformer / Self-AttentionRNN 无法并行 + 长距离依赖丢失
Prompt EngineeringLLM 输出质量取决于输入质量 → 系统化调优方法
Embedding + 向量数据库关键词搜索无法捕捉语义 → 语义相似度检索
RAGLLM 知识有截断日期 + 会产生幻觉 → 注入实时外部知识
AgentLLM 只能生成文本 → 让它能规划、使用工具、完成任务
LoRA / QLoRA全量微调成本太高 → 低秩适配,用 1% 参数量达到接近效果
量化模型太大放不进显存 → 降低精度换空间
KV Cache自回归解码每步重复计算 → 缓存避免冗余
RLHF / DPO预训练模型不懂人类偏好 → 用反馈信号对齐
GuardrailsLLM 可能输出有害内容 → 安全护栏过滤

技巧二:对比学习

很多概念成对出现,对比记忆效率更高:

AB核心区别
RAG微调RAG 注入外部知识(不改模型),微调改变模型权重(不需要检索)
RAGLong ContextRAG 检索最相关片段(精准),Long Context 塞入全文(可能遗漏中间内容)
RAGSkillRAG 是"教模型查资料"(注入知识),Skill 是"教模型按 SOP 办事"(注入流程 + 工具子集);两者可组合,Skill 内部可调用 RAG
SkillToolSkill 是完整的任务流程(含指令+工具集+约束),Tool 是单个原子操作;Skill 通常会编排多个 Tool
MCPA2AMCP 是 Agent 与工具/数据源之间的协议(垂直),A2A 是 Agent 与 Agent 之间的协议(水平)
Reasoning Model普通 LLMReasoning Model 在推理时显式生成长思维链(test-time compute),适合数学/代码;普通 LLM 走"快思考"路径,延迟低成本低
单模型调用Compound AI System单模型简单但不可靠,复合系统多组件协作更可靠但工程复杂
LoRA全量微调LoRA 只训练增量矩阵(省资源),全量微调更新所有参数(效果上限更高)
RLHFDPORLHF 需要单独训练奖励模型,DPO 直接从偏好数据优化(更简单)
Dense RetrievalSparse Retrieval (BM25)Dense 用向量语义匹配,Sparse 用关键词精确匹配;混合检索效果最好
AgentChain/PipelineAgent 有自主规划和反思能力,Chain 是预定义的固定流程
PrefillDecodePrefill 并行处理输入(计算密集),Decode 自回归逐 token 生成(显存密集)
MQA / GQAMHA减少 KV Head 数量降低显存,MQA 极端到 1 个 Head,GQA 是折中
Temperature 高Temperature 低高温更随机多样,低温更确定保守

技巧三:画架构图是最好的理解方法

AI 的核心机制都可以用架构图表达:

  • RAG 流程:Query → Embedding → 向量检索 → Rerank → 上下文注入 → LLM → 回答
  • Agent 循环:感知 → 规划 → 行动 → 观察 → 反思 → 下一步行动
  • 推理优化:Prefill(并行)→ KV Cache 存储 → Decode(自回归 + Cache 复用)
  • 训练流程:预训练(海量数据)→ SFT(指令微调)→ RLHF/DPO(对齐)

面试时主动画图,展示你的系统思维。

技巧四:从"失败原因"反推原理

理解失败原因就是理解原理:

失败现象反推出的原理
RAG 检索到了但回答错误检索质量不够 → 需要 Rerank 精排 + 分块策略优化
RAG 回答中出现幻觉检索结果不相关但被注入了 → 需要相关性阈值过滤
Agent 陷入死循环缺少终止条件和反思机制 → 需要最大步数限制 + Self-Reflection
微调后模型变差过拟合或遗忘 → 数据质量问题 + 学习率过高
Prompt 不稳定模型对指令措辞敏感 → 需要 Few-shot 示例 + 结构化 Prompt
量化后精度下降明显压缩过度 → 考虑 INT8 而非 INT4,或混合精度量化

分类地图

AI 基础

主题核心内容面试频率详细页面
AI 概述与发展历程弱AI/AGI/ASI、ML 分类、Scaling Laws、MoE🔥AI 概述
LLM 大语言模型原理Transformer、自注意力、位置编码、Tokenization、解码策略🔥🔥🔥LLM 原理

LLM 应用技术

主题核心内容面试频率详细页面
Prompt EngineeringZero/Few-shot、CoT、Self-Consistency、ToT、Prompt 安全🔥🔥🔥Prompt Engineering
Embedding 与向量数据库Word2Vec/BERT、向量数据库选型、ANN 算法(HNSW/IVF)🔥🔥Embedding 与向量数据库
RAG 检索增强生成RAG 架构、分块策略、混合检索、Rerank、HyDE/GraphRAG🔥🔥🔥RAG

AI Agent

主题核心内容面试频率详细页面
AI Agent 智能体ReAct、记忆系统、Tool Use、MCP、多 Agent、框架对比🔥🔥🔥AI Agent
Agent Skills 编写指南Skill 定义形式、指令设计、工具权限、触发路由、测试验证🔥🔥Skills 编写指南
Harness EngineeringPrompt 分层架构、执行循环、上下文预算、安全控制、可观测性🔥🔥Harness Engineering

AI 工程实践

主题核心内容面试频率详细页面
模型微调与训练SFT、LoRA/QLoRA、RLHF/DPO、分布式训练🔥🔥模型训练
模型评估、对齐与 AI 安全Evals-Driven Development、RLHF/DPO/Constitutional AI、Red Teaming、Guardrails 架构🔥🔥🔥评估、对齐与安全
LLM 推理优化KV Cache、MQA/GQA、量化、推测解码、Continuous Batching🔥🔥🔥推理优化
AI 应用架构设计架构模式、模型服务、API 设计、成本优化、可观测性🔥🔥应用架构
AI 系统设计面试题设计框架、智能客服/代码补全案例、权衡分析🔥🔥系统设计
AI 前沿趋势与新范式Compound AI Systems、Model Routing、GraphRAG、Evals-Driven、AI 可观测性🔥🔥🔥前沿趋势

AI 面试准备

主题核心内容面试频率详细页面
AI 时代面试准备策略AI 辅助学习方法、知识图谱构建、面试中如何展示 AI 能力🔥🔥🔥面试准备策略
全栈工程师 AI 实战能力后端 SSE 流式、Prompt 管理、前端渲染、成本控制🔥🔥🔥全栈 AI 实战

建议学习顺序

第一阶段(基础,必须掌握):
  AI 概述 → LLM 原理(重点:Transformer + 自注意力)

第二阶段(核心应用,面试重点):
  Prompt Engineering → Embedding 与向量数据库 → RAG

第三阶段(高级应用):
  AI Agent → AI 应用架构设计 → AI 系统设计

第四阶段(工程深入,按需学习):
  模型训练(LoRA)→ 推理优化(KV Cache / 量化)→ 评估与对齐

高频面试题速查

问题核心答案详见
Transformer 的自注意力机制?Q·K 点积算权重,加权求和 V,捕捉全局依赖LLM 原理
什么是 RAG?为什么需要它?检索外部知识注入 Prompt,解决知识截断和幻觉RAG
RAG vs 微调怎么选?RAG 适合动态知识、成本低;微调适合改变模型行为、固定领域应用架构
Agent 的核心架构?感知→规划→行动→记忆,ReAct 模式交替推理和行动AI Agent
LoRA 的原理?冻结原始权重,训练两个低秩矩阵 A·B 作为增量模型训练
KV Cache 是什么?缓存已计算的 K/V,Decode 阶段只算新 token 的 Q 与全部 K/V推理优化
Prompt Engineering 的核心技巧?Few-shot 示例 + CoT 推理链 + 结构化输出 + 角色设定Prompt Engineering
如何评估 LLM?自动基准(MMLU/HumanEval) + 人工评估 + LLM-as-Judge评估与对齐

对比速查

AB一句话区别
RAG微调RAG 注入知识不改模型,微调改模型不需检索
LoRA全量微调LoRA 训练 1% 参数,全量微调更新全部参数
RLHFDPORLHF 需要奖励模型,DPO 直接从偏好数据优化
DenseSparse (BM25)Dense 向量语义匹配,Sparse 关键词精确匹配
AgentRAGAgent 能规划和执行动作,RAG 只增强知识检索
PrefillDecodePrefill 并行处理输入,Decode 自回归逐 token 生成
MHAGQA / MQAMHA 每个头独立 KV,GQA/MQA 共享 KV 头省显存
CoTFew-shotCoT 引导推理过程,Few-shot 提供输入输出示例