1.2 机器学习、深度学习与生成式 AI
人工智能、机器学习、深度学习、生成式 AI——这些词经常被混用,但它们并不是同一回事。理清这四个概念的层次关系,是理解当代 AI 技术的第一步。
一、四层同心圆:从大到小的包含关系
这四个概念之间是层层嵌套的包含关系,可以用同心圆来理解:

- 人工智能是最大的范畴,泛指一切模拟人类智能的技术;
- 机器学习是实现人工智能的主要方法之一,强调让机器从数据中学习;
- 深度学习是机器学习的一种特殊技术,使用多层神经网络;
- 生成式 AI是深度学习的一类应用方向,专注于创造新内容。
下面逐一展开。
二、机器学习:从数据中"找规律"
机器学习(Machine Learning, ML) 的核心思想可以用一句话概括:不是告诉计算机"怎么做",而是让计算机从数据中自己"学会做"。
传统编程的逻辑是:程序员编写规则,计算机执行规则。例如,要判断一封邮件是否为垃圾邮件,程序员需要手动列出所有可能的特征(包含"中奖"一词、发件人不在通讯录中……)。
机器学习的逻辑则相反:给计算机大量已标注的邮件样本("这封是垃圾邮件""这封不是"),让算法自动从中发现规律。学习完成后,机器就能对新邮件做出判断。
机器学习的三种主要方式:
| 学习方式 | 类比 | 说明 | 典型应用 |
|---|---|---|---|
| 监督学习 | 老师批改作业 | 用带标签的数据训练,告诉机器"正确答案" | 垃圾邮件识别、图像分类 |
| 无监督学习 | 自己整理书架 | 数据没有标签,让机器自己发现数据中的结构 | 用户分群、异常检测 |
| 强化学习 | 训练宠物 | 通过奖励和惩罚让机器在试错中学习最优策略 | 游戏 AI、机器人控制 |
◆ 阅读材料:泰坦尼克号生存预测
《人工不智能》一书中介绍了一个经典的机器学习案例:用泰坦尼克号乘客数据(年龄、性别、船舱等级等)训练模型,预测哪些乘客更可能在海难中幸存。结果显示,"女性""头等舱"是最强的生存预测因子——这并非 AI 的"发现",而是数据忠实地反映了当时"妇女儿童优先"的逃生规则和阶级差异。这个案例提醒我们:机器学习找到的"规律",本质上是数据中已有模式的数学表达,而非独立的"思考"。
三、深度学习:模仿大脑的神经网络
深度学习(Deep Learning, DL) 是机器学习的一个分支,它使用多层人工神经网络来处理数据。"深度"指的是网络层数多(通常数十层甚至上百层),而非理解的深度。
深度学习与传统机器学习的关键区别:
| 对比维度 | 传统机器学习 | 深度学习 |
|---|---|---|
| 特征提取 | 需要人工设计特征(如"猫有胡须、尖耳朵") | 自动从原始数据中学习特征 |
| 数据需求 | 小数据集即可工作 | 通常需要海量数据 |
| 计算资源 | 普通计算机即可 | 通常需要 GPU 加速 |
| 可解释性 | 较好,能说明决策依据 | 较差,常被称为"黑盒" |
| 擅长领域 | 结构化数据(表格、数值) | 非结构化数据(图像、语音、文本) |
打个比方:如果要教机器识别猫的照片,传统机器学习需要人类先告诉机器"猫有什么特征"(人工特征工程),而深度学习只需要给机器看大量猫的照片,它会自己学会识别——先学会识别边缘,再学会识别纹理,最后学会识别整体形态。这种端到端学习的能力,正是深度学习的核心优势。
用《大白话人工智能大模型》中的比喻来说:深度学习 = "深度"(层数多)+ "学习"。输入层和输出层中间有一个"黑盒子"(隐藏层),就像人脑把视觉信号层层传递,最终认出"这是一只猫"。
四、生成式 AI:从"找规律"到"创造内容"
传统的 AI 大多是判别式的——就像一台照相机,只能识别已有的东西("这张照片里是猫")。而生成式 AI(Generative AI) 则走向了另一个方向:它像神笔马良,能创造从未存在过的新内容("画一只穿太空服的猫")。
- 给它一段文字描述,它能生成一幅画(文生图);
- 给它一个主题,它能写出一篇文章(文本生成);
- 给它一段旋律提示,它能谱出一首完整的歌曲(音乐生成)。
生成式 AI 的核心技术基础是大规模预训练模型(简称"大模型")。这些模型通过学习互联网上海量的文本、图像等数据,掌握了语言的统计规律和视觉的生成模式,从而能够"预测"下一个词或下一个像素,实现内容的生成。
当前最具代表性的生成式 AI 技术包括:
| 技术方向 | 代表模型 | 能力 |
|---|---|---|
| 大语言模型(LLM) | GPT 系列、DeepSeek、文心一言 | 文本理解与生成 |
| 扩散模型(Diffusion) | Stable Diffusion、Midjourney | 图像生成 |
| 多模态模型 | GPT-4o、Gemini | 同时处理文本、图像、音频 |
□ 术语卡片
AIGC(AI Generated Content):即"人工智能生成内容",泛指由 AI 自动生成的文本、图像、音频、视频等各类内容。它是生成式 AI 的产出物,与 UGC(用户生成内容)、PGC(专业生成内容)并列,构成了内容生产的三种模式。
五、动手体验:用 DeepSeek 感受"机器学习"
理论讲了不少,现在让我们动手体验一下。你不需要写代码,只需要打开 DeepSeek,就能直观感受机器学习中"分类"任务的逻辑。
任务目标:让 AI 扮演一个"分类模型",根据特征判断水果类型。
第 1 步:打开 DeepSeek(https://chat.deepseek.com),输入以下提示词:
现在请你扮演一个水果分类模型。我会给你一些水果的特征描述,
你需要根据特征判断它是什么水果,并解释你的"推理过程"
(即你依据了哪些特征做出判断)。
特征描述:
- 水果 A:圆形,红色,直径约 8cm,表面光滑,有短柄
- 水果 B:长条形,黄色,长约 20cm,需要剥皮食用
- 水果 C:圆形,橙色,直径约 7cm,表面有粗糙纹理,需要剥皮
第 2 步:观察 AI 的输出。 DeepSeek 的回答示例:
水果 A → 苹果 推理依据:圆形 + 红色 + 光滑表面 + 短柄,这些特征组合高度匹配苹果的典型外观。
水果 B → 香蕉 推理依据:长条形 + 黄色 + 需要剥皮,这是香蕉最显著的特征组合。
水果 C → 橙子 推理依据:圆形 + 橙色 + 粗糙纹理 + 需要剥皮,符合橙子的典型特征。
第 3 步:理解这个演示与机器学习的关系。
在这个演示中,AI 做的事情和机器学习中的"分类器"非常相似:
- 输入特征:形状、颜色、大小、表面质感(对应机器学习中的"特征向量")
- 输出类别:苹果、香蕉、橙子(对应机器学习中的"标签")
- 推理依据:AI 解释了它依据哪些特征做出判断(对应机器学习中的"特征权重")
真正的机器学习模型不会用自然语言推理,而是通过数学计算来完成这个过程。但核心逻辑是一样的:从特征中找规律,用规律做预测。
你可以继续追问 AI:"如果我给你一个新的水果特征——椭圆形、绿色、表面有细小凸起、切开后是红色果肉,你会判断它是什么?"观察 AI 能否正确识别出西瓜。
六、一个比喻串起四个概念
如果把人工智能比作交通工具这个大类:
- 机器学习就是"引擎技术"——让交通工具能够自主运转的核心动力;
- 深度学习就是"喷气式引擎"——更强劲、更复杂,能处理更高难度的任务;
- 生成式 AI就是"装载了喷气式引擎的新型飞机"——它不仅能飞(识别、分析),还能在空中表演特技(创造、生成)。
本节小结
| 概念 | 一句话定义 | 核心能力 |
|---|---|---|
| 人工智能 | 模拟人类智能的技术总称 | 感知、推理、学习、决策 |
| 机器学习 | 让机器从数据中自动学习的方法 | 从数据中发现规律 |
| 深度学习 | 用多层神经网络自动提取特征 | 处理图像、语音、文本等复杂数据 |
| 生成式 AI | 基于大模型创造新内容 | 生成文本、图像、音视频 |
理解了这四个概念的层次关系,我们就有了一张清晰的"技术地图"。接下来,我们将深入大模型的内部,看看它究竟是如何"思考"的。