AI 概述与发展历程

AI 技术 ⭐ 入门 🔥 低频

💡 核心要点

人工智能（Artificial Intelligence, AI）是让机器模拟人类智能的技术总称。当前 AI 的核心是大语言模型（LLM），基于 Transformer 架构和海量数据训练，具备强大的语言理解与生成能力。理解 AI 的发展脉络和核心概念分类，是深入学习 LLM、RAG、Agent 等技术的基础。

什么是人工智能

人工智能是计算机科学的一个分支，旨在构建能够执行通常需要人类智能的任务的系统。根据能力范围，AI 可分为三个层次：

层次	定义	现状
弱 AI（Narrow AI）	针对特定任务的智能系统	当前所有 AI 系统，包括 GPT-4、Claude
强 AI（AGI）	具备人类级别通用智能	尚未实现，是行业主要研究方向
超级 AI（ASI）	全面超越人类智能	纯理论阶段

当前所有商用 AI 系统——无论是 ChatGPT、Claude 还是自动驾驶——都属于弱 AI 范畴。

发展历程

AI 的发展经历了多次范式转变，每一次都伴随着核心方法论的根本性变化：

关键里程碑

年份	事件	意义
1950	图灵测试提出	首次定义"机器智能"的评判标准
1997	深蓝击败国际象棋冠军	规则系统的巅峰
2012	AlexNet 赢得 ImageNet	深度学习革命的起点
2017	Transformer 论文发表	注意力机制取代 RNN，成为后续所有 LLM 的基础
2018	BERT / GPT 发布	预训练+微调范式确立
2020	GPT-3（175B 参数）	展示 In-Context Learning 涌现能力
2022	ChatGPT 发布	LLM 进入大众视野，RLHF 对齐技术成熟
2023	GPT-4 / Claude 2	多模态能力、长上下文、推理能力大幅提升
2024	开源模型爆发	LLaMA 3、Qwen 2.5、DeepSeek V3 等缩小与闭源差距

AI 模型分类

按学习方式分类

类型	定义	典型应用
监督学习	从标注数据中学习输入→输出映射	分类、回归、目标检测
无监督学习	从无标注数据中发现结构和模式	聚类、降维、异常检测
自监督学习	从数据本身构造监督信号	LLM 预训练（下一个词预测）、BERT（掩码预测）
强化学习	通过与环境交互和奖励信号学习策略	游戏 AI、RLHF 对齐、机器人控制

LLM 的训练本质上是自监督学习——通过预测下一个 Token 来学习语言的统计规律，不需要人工标注。

按模型功能分类

类型	特点	代表模型
判别式模型（Discriminative）	学习，预测类别或标签	BERT、分类器、检测模型
生成式模型（Generative）	学习或，生成新数据	GPT 系列、Claude、Stable Diffusion

当前 LLM 属于生成式模型——给定前文，生成后续文本。

按架构分类

架构	特点	代表	适用任务
Encoder-Only	双向注意力，适合理解	BERT	文本分类、NER、语义相似度
Decoder-Only	因果注意力，自回归生成	GPT、Claude、LLaMA	文本生成、对话、推理
Encoder-Decoder	编码器理解+解码器生成	T5、BART	翻译、摘要

当前主流 LLM 几乎全部采用 Decoder-Only 架构。

Scaling Laws 规模定律

2020 年 OpenAI 发表的 Scaling Laws 研究揭示了一个关键规律：模型性能（用交叉熵损失衡量）主要取决于三个因素，且可预测地随规模增长而提升：

其中为参数量，为数据量，为计算量，为不可约损失。

核心发现：

参数量、数据量、计算量三者同步增长时，模型性能持续提升
存在涌现能力（Emergent Abilities）：某些能力只在模型达到一定规模后才突然出现
Chinchilla 定律（2022）：最优训练应保持参数量和数据 Token 数大致 1:20 的比例

这解释了为什么 LLM 的参数量从 GPT-2 的 1.5B 一路增长到 GPT-4 级别的数千亿参数。

2024-2025 主流模型格局

模型	开发者	架构	参数规模	开源	特点
GPT-4o	OpenAI	Decoder-Only (MoE)	未公开	否	多模态原生、推理能力强
Claude 3.5/4	Anthropic	Decoder-Only	未公开	否	长上下文（200K）、安全对齐、代码能力
Gemini 2.0	Google	Decoder-Only	未公开	否	多模态、搜索集成
LLaMA 3	Meta	Decoder-Only	8B / 70B / 405B	是	社区生态丰富、高质量开源
Qwen 2.5	阿里云	Decoder-Only	0.5B ~ 72B	是	中英文表现优异
DeepSeek V3	DeepSeek	Decoder-Only (MoE)	671B (37B 激活)	是	MoE 架构、高性价比训练
Mistral Large	Mistral	Decoder-Only (MoE)	未公开	部分	欧洲团队、高效架构

MoE（Mixture of Experts）架构

MoE 是近年来大模型的重要趋势。与稠密模型（Dense Model）不同，MoE 在每次推理时只激活部分参数：

优势：总参数量大（知识容量高），但每次推理计算量与小模型相当
代表：GPT-4（传闻 8×220B）、DeepSeek V3（671B 总参/37B 激活）、Mixtral

多模态 AI

多模态 AI 能够同时处理和生成多种类型的数据：

模态	能力	代表模型
文本 + 图像理解	看图说话、图表分析、OCR	GPT-4V、Claude 3.5 Sonnet
图像生成	根据文本描述生成图像	DALL-E 3、Midjourney、Stable Diffusion
语音	语音识别 + 语音合成	Whisper、GPT-4o
视频	视频理解与生成	Sora、Gemini

多模态能力使 AI 从"只能读文字"扩展到"能看、能听、能画"，极大拓宽了应用场景。

AI 技术全景图

本章节的后续文章按以下结构组织，由基础到进阶：

AI Technology
|
+-- Fundamentals
|   +-- AI Overview
|   +-- LLM Principles
|
+-- LLM Applications
|   +-- Prompt Engineering
|   +-- Embedding & Vector DB
|   +-- RAG
|
+-- AI Agent
|   +-- Agent Architecture
|   +-- MCP
|
+-- AI Engineering
    +-- Fine-tuning
    +-- Architecture Design

建议的学习路径：

入门：本文 → LLM 大语言模型原理
应用：Prompt Engineering → Embedding 与向量数据库 → RAG
进阶：AI Agent 智能体 → 模型微调与训练 → AI 应用架构设计

⚠️ 常见误区

混淆 AI、机器学习、深度学习的关系：AI 是最广义的概念，机器学习是 AI 的子集，深度学习是机器学习的子集，LLM 是深度学习的一个具体方向。它们是包含关系，不是并列关系。
认为参数量越大模型越好：Scaling Laws 只说明性能随规模提升，但实际效果还取决于训练数据质量、对齐方法、架构设计等。小模型配合好的数据和微调，可能在特定任务上超过大模型。
混淆开源与闭源模型的使用场景：闭源模型（GPT-4、Claude）通常更强但有 API 成本和数据隐私顾虑；开源模型（LLaMA、Qwen）可私有部署但需要自己管理基础设施。选择取决于具体需求。

📝 面试真题3 道基础

1. 简述 AI、机器学习、深度学习、大语言模型之间的关系简单

2. Scaling Laws 的核心发现是什么？对 LLM 发展有什么指导意义？中等

3. 对比 Encoder-Only、Decoder-Only、Encoder-Decoder 三种架构的区别和适用场景中等

面试真题详解

Q1：简述 AI、机器学习、深度学习、大语言模型之间的关系

要点：

它们是层层包含的关系：

AI ⊃ ML ⊃ DL ⊃ LLM：人工智能（AI）包含机器学习（ML），机器学习包含深度学习（DL），大语言模型（LLM）是深度学习中基于 Transformer 的一个分支。

AI：让机器模拟人类智能的总称，包括规则系统、搜索算法等非 ML 方法
ML：通过数据自动学习规律的方法，是 AI 的主流实现路径
DL：使用多层神经网络的 ML 方法，能自动学习特征表示
LLM：基于 Transformer 架构、参数量达数十亿以上的语言模型，是 DL 在 NLP 方向的最新进展

Q2：Scaling Laws 的核心发现是什么？对 LLM 发展有什么指导意义？

要点：

Scaling Laws（规模定律）的核心发现：

模型性能（交叉熵损失）与参数量 N、数据量 D、计算量 C 呈幂律关系
三者需要同步增长才能高效提升性能
性能提升是可预测的——可以用小规模实验预测大规模训练的结果

指导意义：

为"堆算力"提供了理论依据——只要资源到位，性能提升是确定性的
Chinchilla 定律指出最优的参数-数据配比约为 1:20，避免了"只堆参数不堆数据"的浪费
解释了涌现能力——某些能力（如推理、代码生成）只在模型达到一定规模后才出现
指导了训练资源的分配决策——在固定计算预算下，如何分配参数量和训练数据量

Q3：对比 Encoder-Only、Decoder-Only、Encoder-Decoder 三种架构

要点：

维度	Encoder-Only	Decoder-Only	Encoder-Decoder
注意力方式	双向注意力	因果注意力（只看前文）	编码器双向 + 解码器因果
预训练任务	掩码语言模型（MLM）	下一个词预测（NTP）	去噪自编码
代表模型	BERT、RoBERTa	GPT、Claude、LLaMA	T5、BART
擅长任务	理解类（分类、NER）	生成类（对话、写作）	序列到序列（翻译、摘要）

为什么当前主流 LLM 都是 Decoder-Only？

自回归生成天然适合对话和文本创作
架构简单，易于扩展到大规模参数
在足够大的规模下，Decoder-Only 模型也能很好地完成理解类任务
Scaling Laws 在 Decoder-Only 架构上得到了最充分的验证

AI 概述与发展历程 ​

什么是人工智能 ​

发展历程 ​

关键里程碑 ​

AI 模型分类 ​

按学习方式分类 ​

按模型功能分类 ​

按架构分类 ​

Scaling Laws 规模定律 ​

2024-2025 主流模型格局 ​

MoE（Mixture of Experts）架构 ​

多模态 AI ​

AI 技术全景图 ​

面试真题详解 ​

Q1：简述 AI、机器学习、深度学习、大语言模型之间的关系 ​

Q2：Scaling Laws 的核心发现是什么？对 LLM 发展有什么指导意义？ ​

Q3：对比 Encoder-Only、Decoder-Only、Encoder-Decoder 三种架构 ​

延伸阅读 ​