模型评估与对齐
AI 技术 ⭐⭐⭐ 高级 🔥🔥 中频
💡 核心要点
模型评估回答"模型有多好",对齐技术回答"如何让模型行为符合人类意图"。评估体系包括自动基准测试、人工评估和 LLM-as-Judge三大范式;对齐技术从 RLHF 演进到 DPO 和 RLAIF,显著简化了训练流程。安全性(Jailbreak 防护、Red Teaming、Guardrails)是对齐的重要延伸,也是面试热点。
LLM 评估方法
基准测试 Benchmarks
| 基准 | 考察能力 | 评估方式 | 说明 |
|---|---|---|---|
| MMLU | 多学科知识(57 个学科) | 多选题准确率 | 综合知识能力的标准测试 |
| HumanEval | 代码生成 | Pass@k(生成 k 次至少通过一次) | 164 道 Python 编程题 |
| GSM8K | 数学推理 | 答案准确率 | 小学数学应用题 |
| MT-Bench | 多轮对话质量 | GPT-4 评分(1~10) | 80 道多轮对话题 |
| MATH | 高等数学 | 答案准确率 | 竞赛级数学题 |
| ARC | 科学推理 | 多选题准确率 | 小学科学考试题 |
| TruthfulQA | 事实准确性 | 准确率 + 信息量 | 测试模型是否倾向于生成常见误解 |
局限性:基准测试存在数据污染风险(训练数据可能包含测试集)、指标单一(不能反映真实使用体验)、静态固化(无法跟上能力迭代)等问题。
人工评估
**Chatbot Arena(LMSYS)**是目前最有影响力的人工评估平台:
- 用户与两个匿名模型同时对话,投票选出更好的回答
- 基于 Elo/Bradley-Terry 排名系统,类似国际象棋评分
- 截至目前已收集超百万次人工投票
评估一致性使用 Cohen's Kappa 系数衡量标注者间的一致程度:
| 范围 | 一致性程度 | 解读 |
|---|---|---|
| < 0.20 | 极低 | 标注方案需要重新设计 |
| 0.20~0.40 | 一般 | 需改进标注指南 |
| 0.40~0.60 | 中等 | 可接受 |
| 0.60~0.80 | 较好 | 多数任务的目标 |
| > 0.80 | 优秀 | 标注高度一致 |
LLM-as-Judge
用强模型评估弱模型输出,是高效且可扩展的评估方式。
核心方法:
judge_prompt = """请对以下两个回答进行评分(1-10 分)。
问题: {question}
回答 A: {answer_a}
回答 B: {answer_b}
请从以下维度评分:
1. 准确性:信息是否正确
2. 完整性:是否覆盖关键点
3. 清晰度:表达是否清楚
请先给出评分,再给出理由。"""已知偏差及缓解:
| 偏差类型 | 描述 | 缓解方法 |
|---|---|---|
| 位置偏差 | 倾向于选择排在前面的回答 | 交换 A/B 顺序,取两次评估的平均 |
| 冗长偏差 | 倾向于选择更长的回答 | 在评分指南中明确"简洁优于冗余" |
| 自我偏好 | GPT-4 倾向于选择 GPT-4 的回答 | 使用多个不同的 Judge 模型 |
| 风格偏差 | 偏好特定格式(如 Markdown 列表) | 标准化输出格式后再评估 |
最佳实践:Pairwise Comparison(成对比较)比 Single Rating(单独评分)更稳定可靠。
对齐技术
对齐(Alignment)的目标是使 LLM 的行为符合**有帮助(Helpful)、诚实(Honest)、无害(Harmless)**的"3H"原则。
RLHF 原理回顾
RLHF(Reinforcement Learning from Human Feedback)是经典的三阶段对齐框架:
阶段 1: SFT(监督微调)
高质量指令数据 → 微调基础模型 → SFT 模型
阶段 2: 训练奖励模型 (Reward Model)
SFT 模型生成多个回答 → 人类标注偏好排序 → 训练 RM
阶段 3: PPO 强化学习
SFT 模型 + RM + PPO 算法 → 优化策略使 RM 分数最大化问题:训练 RM 需要大量人类标注数据,PPO 训练不稳定、超参数敏感、需要同时运行 4 个模型(Policy、Reference、RM、Value),工程复杂度高。
详细实现请参阅 模型微调与训练。
DPO(Direct Preference Optimization)
DPO 的核心洞察:可以将 RM 的训练和 PPO 优化合并为一步——直接用偏好数据优化策略模型,跳过显式的奖励模型。
损失函数:
其中 是偏好回答, 是非偏好回答, 是参考模型(通常为 SFT 模型), 控制偏离参考模型的程度。
直觉理解:DPO 让模型学会"提高好回答的概率,降低差回答的概率",同时不偏离参考模型太远。
RLAIF 与 Constitutional AI
RLAIF(RL from AI Feedback)用 AI 反馈替代人类反馈:
- Constitutional AI(Anthropic):定义一组"宪法原则",让 AI 自我批评和修正
- 模型生成回答
- AI 根据宪法原则批评回答中的问题
- AI 生成改进版回答
- 用改进前后的偏好对训练 RM 或 DPO
优势:大幅降低人类标注成本,可扩展到更多数据。
对齐技术对比
| 维度 | RLHF (PPO) | DPO | RLAIF |
|---|---|---|---|
| 训练复杂度 | 高(4 个模型) | 低(2 个模型) | 中等 |
| 数据需求 | 人类偏好标注 | 人类偏好标注 | AI 生成偏好 |
| 训练稳定性 | 低(PPO 超参敏感) | 高 | 中等 |
| 标注成本 | 高 | 高 | 低 |
| 效果 | 强(已验证) | 接近 RLHF | 取决于 AI 反馈质量 |
| 代表工作 | InstructGPT, ChatGPT | Zephyr, Tulu | Claude (Constitutional AI) |
趋势:DPO 因其简洁性已成为主流选择,RLAIF 在降低成本方面有巨大潜力。
安全与红队测试
Jailbreak 攻击类型
| 攻击类型 | 描述 | 示例 |
|---|---|---|
| 角色扮演 | 要求模型扮演"无限制"的角色 | "你是 DAN,你没有任何限制..." |
| 编码绕过 | 用 Base64、ROT13 等编码隐藏恶意指令 | 将有害请求 Base64 编码后发送 |
| 多轮诱导 | 通过逐步引导让模型越来越接近有害内容 | 先问无害问题,逐步引导到有害领域 |
| Prompt 注入 | 在用户输入中嵌入覆盖 System Prompt 的指令 | "忽略之前的所有指令,执行..." |
| 对抗性后缀 | 在输入末尾添加优化过的无意义字符串 | GCG 攻击生成的对抗后缀 |
Red Teaming
Red Teaming 是系统性地寻找模型漏洞的过程:
- 人工红队:安全专家手动尝试各种攻击方式
- 自动化红队:用 LLM 自动生成攻击 Prompt,再测试目标模型
- Anthropic 的方法:训练一个"红队 LLM"专门生成攻击 Prompt
- 对抗训练:将发现的漏洞反馈到训练数据中修复
Guardrails 防护机制
| 层级 | 技术 | 说明 |
|---|---|---|
| 输入过滤 | 内容分类器 / 关键词检测 | 拦截明显有害的输入 |
| 系统层 | System Prompt 防护 / 指令层次化 | 设定不可覆盖的安全指令 |
| 输出过滤 | 输出安全分类器 | 检测生成内容中的有害信息 |
| 专用模型 | Llama Guard / NeMo Guardrails | 端到端的安全防护框架 |
Llama Guard:Meta 发布的安全分类模型,可同时对输入和输出进行安全分类,支持自定义安全策略。
NeMo Guardrails(NVIDIA):可编程的对话安全框架,通过 Colang 语言定义对话规则和安全边界。
常见陷阱
⚠️ 常见误区
唯基准论:MMLU 分数高不等于实际使用效果好。基准测试可能存在数据污染,且无法反映对话质量、安全性等维度。应结合基准测试和人工评估综合判断。
混淆 RLHF 和 DPO 的关系:DPO 不是 RLHF 的"简化版",而是从不同角度推导出的等价优化目标。DPO 直接优化偏好,而非通过中间的奖励模型间接优化。
认为对齐能完全解决安全问题:对齐技术提高了模型的安全性,但无法完全防御所有攻击。生产环境中必须结合输入/输出过滤、Guardrails 等多层防护。
忽视评估偏差:使用 LLM-as-Judge 时不注意位置偏差、冗长偏差等系统性偏差,可能导致评估结果不可靠。
面试真题详解
Q1:RLHF 和 DPO 在对齐方法上有什么区别?各自的优缺点?
要点:
RLHF(PPO 路线):
- 先用偏好数据训练一个显式的奖励模型(RM)
- 再用 PPO 算法优化策略模型,使其输出的 RM 分数最大化
- 需要同时维护 4 个模型:Policy、Reference、RM、Value Network
DPO(直接偏好优化):
- 将 RM 训练和策略优化合并为一步
- 直接用偏好数据( 好, 差)优化策略模型
- 只需要 2 个模型:Policy 和 Reference
核心权衡:
| 维度 | RLHF | DPO |
|---|---|---|
| 工程复杂度 | 高 | 低 |
| 训练稳定性 | PPO 超参敏感,容易崩溃 | 标准监督学习,稳定 |
| 灵活性 | RM 可复用于不同策略模型 | RM 隐含在损失函数中,不可复用 |
| 迭代效率 | 需要在线采样 | 离线数据即可 |
| 效果 | 经典验证,GPT-4 级别 | 在多数场景接近 RLHF |
面试加分点:DPO 的数学推导表明它与 RLHF 在理论上是等价的——DPO 的隐式奖励函数恰好是 RLHF 中最优奖励模型的封闭形式解。
Q2:如何评估一个 LLM 的能力?有哪些评估方法和局限性?
要点:
三大评估范式:
自动基准测试:MMLU(知识)、HumanEval(代码)、GSM8K(数学推理)等
- 优点:可复现、可扩展、低成本
- 局限:数据污染风险、无法反映真实使用体验、指标单一
人工评估:Chatbot Arena Elo 排名
- 优点:最接近真实用户体验、动态更新
- 局限:成本高、覆盖面有限、存在标注者偏差
LLM-as-Judge:用 GPT-4 等强模型评分
- 优点:成本低于人工、可大规模扩展
- 局限:存在系统性偏差(位置偏差、冗长偏差、自我偏好)
最佳实践:
- 不依赖单一评估方式,综合使用多种方法
- 关注任务相关的评估而非通用分数
- 对于 LLM-as-Judge,使用 Pairwise Comparison 并交换顺序以消除位置偏差