Skip to content

AI 概述与发展历程

AI 技术 ⭐ 入门 🔥 低频

💡 核心要点

人工智能(Artificial Intelligence, AI)是让机器模拟人类智能的技术总称。当前 AI 的核心是大语言模型(LLM),基于 Transformer 架构和海量数据训练,具备强大的语言理解与生成能力。理解 AI 的发展脉络和核心概念分类,是深入学习 LLM、RAG、Agent 等技术的基础。

什么是人工智能

人工智能是计算机科学的一个分支,旨在构建能够执行通常需要人类智能的任务的系统。根据能力范围,AI 可分为三个层次:

层次定义现状
弱 AI(Narrow AI)针对特定任务的智能系统当前所有 AI 系统,包括 GPT-4、Claude
强 AI(AGI)具备人类级别通用智能尚未实现,是行业主要研究方向
超级 AI(ASI)全面超越人类智能纯理论阶段

当前所有商用 AI 系统——无论是 ChatGPT、Claude 还是自动驾驶——都属于弱 AI 范畴。


发展历程

AI 的发展经历了多次范式转变,每一次都伴随着核心方法论的根本性变化:

关键里程碑

年份事件意义
1950图灵测试提出首次定义"机器智能"的评判标准
1997深蓝击败国际象棋冠军规则系统的巅峰
2012AlexNet 赢得 ImageNet深度学习革命的起点
2017Transformer 论文发表注意力机制取代 RNN,成为后续所有 LLM 的基础
2018BERT / GPT 发布预训练+微调范式确立
2020GPT-3(175B 参数)展示 In-Context Learning 涌现能力
2022ChatGPT 发布LLM 进入大众视野,RLHF 对齐技术成熟
2023GPT-4 / Claude 2多模态能力、长上下文、推理能力大幅提升
2024开源模型爆发LLaMA 3、Qwen 2.5、DeepSeek V3 等缩小与闭源差距

AI 模型分类

按学习方式分类

类型定义典型应用
监督学习从标注数据中学习输入→输出映射分类、回归、目标检测
无监督学习从无标注数据中发现结构和模式聚类、降维、异常检测
自监督学习从数据本身构造监督信号LLM 预训练(下一个词预测)、BERT(掩码预测)
强化学习通过与环境交互和奖励信号学习策略游戏 AI、RLHF 对齐、机器人控制

LLM 的训练本质上是自监督学习——通过预测下一个 Token 来学习语言的统计规律,不需要人工标注。

按模型功能分类

类型特点代表模型
判别式模型(Discriminative)学习 ,预测类别或标签BERT、分类器、检测模型
生成式模型(Generative)学习 ,生成新数据GPT 系列、Claude、Stable Diffusion

当前 LLM 属于生成式模型——给定前文,生成后续文本。

按架构分类

架构特点代表适用任务
Encoder-Only双向注意力,适合理解BERT文本分类、NER、语义相似度
Decoder-Only因果注意力,自回归生成GPT、Claude、LLaMA文本生成、对话、推理
Encoder-Decoder编码器理解+解码器生成T5、BART翻译、摘要

当前主流 LLM 几乎全部采用 Decoder-Only 架构。


Scaling Laws 规模定律

2020 年 OpenAI 发表的 Scaling Laws 研究揭示了一个关键规律:模型性能(用交叉熵损失衡量)主要取决于三个因素,且可预测地随规模增长而提升:

其中 为参数量, 为数据量, 为计算量, 为不可约损失。

核心发现:

  • 参数量、数据量、计算量三者同步增长时,模型性能持续提升
  • 存在涌现能力(Emergent Abilities):某些能力只在模型达到一定规模后才突然出现
  • Chinchilla 定律(2022):最优训练应保持参数量和数据 Token 数大致 1:20 的比例

这解释了为什么 LLM 的参数量从 GPT-2 的 1.5B 一路增长到 GPT-4 级别的数千亿参数。


2024-2025 主流模型格局

模型开发者架构参数规模开源特点
GPT-4oOpenAIDecoder-Only (MoE)未公开多模态原生、推理能力强
Claude 3.5/4AnthropicDecoder-Only未公开长上下文(200K)、安全对齐、代码能力
Gemini 2.0GoogleDecoder-Only未公开多模态、搜索集成
LLaMA 3MetaDecoder-Only8B / 70B / 405B社区生态丰富、高质量开源
Qwen 2.5阿里云Decoder-Only0.5B ~ 72B中英文表现优异
DeepSeek V3DeepSeekDecoder-Only (MoE)671B (37B 激活)MoE 架构、高性价比训练
Mistral LargeMistralDecoder-Only (MoE)未公开部分欧洲团队、高效架构

MoE(Mixture of Experts)架构

MoE 是近年来大模型的重要趋势。与稠密模型(Dense Model)不同,MoE 在每次推理时只激活部分参数:

  • 优势:总参数量大(知识容量高),但每次推理计算量与小模型相当
  • 代表:GPT-4(传闻 8×220B)、DeepSeek V3(671B 总参/37B 激活)、Mixtral

多模态 AI

多模态 AI 能够同时处理和生成多种类型的数据:

模态能力代表模型
文本 + 图像理解看图说话、图表分析、OCRGPT-4V、Claude 3.5 Sonnet
图像生成根据文本描述生成图像DALL-E 3、Midjourney、Stable Diffusion
语音语音识别 + 语音合成Whisper、GPT-4o
视频视频理解与生成Sora、Gemini

多模态能力使 AI 从"只能读文字"扩展到"能看、能听、能画",极大拓宽了应用场景。


AI 技术全景图

本章节的后续文章按以下结构组织,由基础到进阶:

AI Technology
|
+-- Fundamentals
|   +-- AI Overview
|   +-- LLM Principles
|
+-- LLM Applications
|   +-- Prompt Engineering
|   +-- Embedding & Vector DB
|   +-- RAG
|
+-- AI Agent
|   +-- Agent Architecture
|   +-- MCP
|
+-- AI Engineering
    +-- Fine-tuning
    +-- Architecture Design

建议的学习路径:

  1. 入门:本文 → LLM 大语言模型原理
  2. 应用Prompt EngineeringEmbedding 与向量数据库RAG
  3. 进阶AI Agent 智能体模型微调与训练AI 应用架构设计

⚠️ 常见误区

  1. 混淆 AI、机器学习、深度学习的关系:AI 是最广义的概念,机器学习是 AI 的子集,深度学习是机器学习的子集,LLM 是深度学习的一个具体方向。它们是包含关系,不是并列关系。

  2. 认为参数量越大模型越好:Scaling Laws 只说明性能随规模提升,但实际效果还取决于训练数据质量、对齐方法、架构设计等。小模型配合好的数据和微调,可能在特定任务上超过大模型。

  3. 混淆开源与闭源模型的使用场景:闭源模型(GPT-4、Claude)通常更强但有 API 成本和数据隐私顾虑;开源模型(LLaMA、Qwen)可私有部署但需要自己管理基础设施。选择取决于具体需求。


📝 面试真题3 道基础
1. 简述 AI、机器学习、深度学习、大语言模型之间的关系简单
2. Scaling Laws 的核心发现是什么?对 LLM 发展有什么指导意义?中等
3. 对比 Encoder-Only、Decoder-Only、Encoder-Decoder 三种架构的区别和适用场景中等

面试真题详解

Q1:简述 AI、机器学习、深度学习、大语言模型之间的关系

要点

它们是层层包含的关系:

AI ⊃ ML ⊃ DL ⊃ LLM:人工智能(AI)包含机器学习(ML),机器学习包含深度学习(DL),大语言模型(LLM)是深度学习中基于 Transformer 的一个分支。

  • AI:让机器模拟人类智能的总称,包括规则系统、搜索算法等非 ML 方法
  • ML:通过数据自动学习规律的方法,是 AI 的主流实现路径
  • DL:使用多层神经网络的 ML 方法,能自动学习特征表示
  • LLM:基于 Transformer 架构、参数量达数十亿以上的语言模型,是 DL 在 NLP 方向的最新进展

Q2:Scaling Laws 的核心发现是什么?对 LLM 发展有什么指导意义?

要点

Scaling Laws(规模定律)的核心发现:

  • 模型性能(交叉熵损失)与参数量 N、数据量 D、计算量 C 呈幂律关系
  • 三者需要同步增长才能高效提升性能
  • 性能提升是可预测的——可以用小规模实验预测大规模训练的结果

指导意义

  1. 为"堆算力"提供了理论依据——只要资源到位,性能提升是确定性的
  2. Chinchilla 定律指出最优的参数-数据配比约为 1:20,避免了"只堆参数不堆数据"的浪费
  3. 解释了涌现能力——某些能力(如推理、代码生成)只在模型达到一定规模后才出现
  4. 指导了训练资源的分配决策——在固定计算预算下,如何分配参数量和训练数据量

Q3:对比 Encoder-Only、Decoder-Only、Encoder-Decoder 三种架构

要点

维度Encoder-OnlyDecoder-OnlyEncoder-Decoder
注意力方式双向注意力因果注意力(只看前文)编码器双向 + 解码器因果
预训练任务掩码语言模型(MLM)下一个词预测(NTP)去噪自编码
代表模型BERT、RoBERTaGPT、Claude、LLaMAT5、BART
擅长任务理解类(分类、NER)生成类(对话、写作)序列到序列(翻译、摘要)

为什么当前主流 LLM 都是 Decoder-Only?

  1. 自回归生成天然适合对话和文本创作
  2. 架构简单,易于扩展到大规模参数
  3. 在足够大的规模下,Decoder-Only 模型也能很好地完成理解类任务
  4. Scaling Laws 在 Decoder-Only 架构上得到了最充分的验证

延伸阅读