第一章走进人工智能——不是科幻，是工具

本章摘要：本章将帮助初学者建立关于人工智能（AI）的宏观认知框架。我们将穿越 AI 发展的七十年历史长河，厘清人工智能、机器学习、深度学习与生成式 AI 的概念边界，并用通俗易懂的语言解构大语言模型（LLM）的”思考”原理。最后，我们将梳理当前主流的 AI 工具体系，帮助读者根据实际需求选择合适的工具。

知识图谱

导言：当科幻照进现实

2022 年 11 月 30 日，OpenAI 发布了 ChatGPT。短短两个月，这款对话式人工智能工具的用户数突破一亿，成为人类历史上增长最快的消费级应用。一时间，“人工智能”从实验室走进了每个人的手机屏幕。

然而，围绕 AI 的讨论中充斥着两种极端情绪：一种是”AI 无所不能”的盲目乐观，另一种是”AI 将取代人类”的过度恐惧。这两种认知都源于同一个问题——我们并不真正了解 AI 是什么。

本章将带领读者回到起点，从人工智能的发展历程出发，理清机器学习、深度学习与生成式 AI 之间的关系，用通俗的比喻揭开大模型”思考”的面纱，最后建立一张主流 AI 工具的全景地图。我们的目标不是培养 AI 专家，而是帮助读者建立准确的技术直觉——知道 AI 擅长什么、不擅长什么，从而在后续章节中更好地驾驭它。

学习目标

完成本章学习后，读者将能够：

复述人工智能发展的三次浪潮及其代表性技术，理解技术演进的周期性规律；
辨析 “人工智能 > 机器学习 > 深度学习 > 生成式 AI” 的包含关系，并能举例说明；
解释大语言模型（LLM）的基本工作原理（如 Token 预测、Transformer 机制），并能说明”AI 幻觉”产生的原因；
识别当前主流 AI 工具（如 ChatGPT、DeepSeek、Midjourney 等）的分类与核心功能，并能根据任务需求进行选型。

1.1 AI 的三次浪潮

人工智能并非一夜之间横空出世，而是经历了近七十年的曲折发展。了解这段历史，有助于理解今天的 AI 为何如此强大，也能对它的局限保持清醒。本节将穿越三个时代，看看 AI 是如何从实验室走进每个人的手机的。

一、什么是人工智能

在展开历史之前，我们先回答一个最基本的问题：什么是人工智能？

事实上，创造”像人一样思考的机器”并非现代人的专利，而是人类文明中一个古老的梦想。《列子》中记载了偃师献给周穆王一个能歌善舞的”人偶”；古希腊神话里，工匠之神赫菲斯托斯打造了会自动行走的青铜巨人塔罗斯。从东方到西方，人类对”智慧造物”的想象贯穿了数千年。这种追求的背后，是人类对自身智能本质的好奇——我们究竟是什么？思维能否被复制？正是这种好奇心，最终在20世纪中叶催生了人工智能这门学科。

简单来说，人工智能（Artificial Intelligence, AI）是指由人类设计的、能够模拟人类智能行为的计算机系统。这里的”智能行为”包括四种核心能力：

感知：看懂图片、听懂语音；

推理：分析信息、做出判断；

学习：从经验中不断改进；

决策：在多个选项中选择最优方案。

但有一点必须明确：AI 是一种工具，不是一种生命。它没有意识、没有情感、没有自主意愿。当我们说 AI”思考”或”理解”时，使用的是比喻性说法——它实际上是在执行数学运算。可以把它想象成一个极其高效的计算器：它能处理的问题远比普通计算器复杂，但本质上仍然是在”算”，而不是在”想”。

二、第一次浪潮：符号主义与逻辑推理（1956—1970s）

1. 前史：图灵与”模仿游戏”

在 AI 正式诞生之前，英国数学家艾伦·图灵（Alan Turing）已经为它奠定了思想基础。1950 年，图灵发表了著名论文《计算机与智能》，提出了”模仿游戏”——后来被称为”图灵测试”。有趣的是，这个测试的原始版本并非人与机器对话，而是需要三个参与者：一个男人（A）、一个女人（B）和一个提问者（C）。C 需要通过打字机提问来判断哪个是男人、哪个是女人。图灵进而提出：如果用机器替换 A 的角色，提问者还能分辨吗？这才是”图灵测试”的原型。

更早在 1948 年，图灵就为英国国家物理实验室撰写了一份名为《智能机器》的内部报告，首次提出了神经网络和进化的概念。这篇报告直到 1969 年才发表，但被现代机器人专家罗德尼·布鲁克斯认为是 AI 两条路线分歧的原点。

延伸阅读：1951 年，马文·明斯基与邓恩·埃德蒙建造了世界上第一台神经网络计算机 SNARC（随机神经模拟强化计算器），这比 AI 正式命名还早了五年。

2. 达特茅斯会议：AI 的”出生证明”

1955 年，约翰·麦卡锡（John McCarthy）联合马文·明斯基、纳撒尼尔·罗切斯特（IBM）和克劳德·香农（贝尔实验室），向洛克菲勒基金会提交了一份研究建议书。麦卡锡的原始预算是 13,500 美元，但基金会最终只批了 7,500 美元。

1956 年夏天，10 位核心科学家齐聚达特茅斯学院，召开了这场载入史册的研讨会。除了四位发起人，还包括艾伦·纽厄尔、赫伯特·西蒙、亚瑟·塞缪尔等人。会上，麦卡锡提出了”人工智能”（Artificial Intelligence）这一术语——尽管他晚年承认这个词可能是从别人那里听来的，纽厄尔和西蒙当时更喜欢用”复杂信息处理”这个说法。

趣闻：这次会议上给所有人留下最深印象的，是纽厄尔和西蒙带来的程序”逻辑理论家”（Logic Theorist）。它成功证明了《数学原理》中 38 条定理。但当他们把论文投给《符号逻辑杂志》时，却被退稿，理由是”把一本过时的逻辑书里的定理用机器重证一遍没啥意思”。

3. 核心理念：用符号模拟思维

这一时期的主流思想是符号主义（Symbolism）。研究者认为，人类的思维本质上是对符号的逻辑运算——就像数学家用公式推导定理一样。因此，只要把知识编码为符号，再编写推理规则，计算机就能”思考”。

基于这一理念，科学家们开发出了一系列令人兴奋的成果：

逻辑理论家（Logic Theorist, 1956）：能够自动证明数学定理，被称为”第一个 AI 程序”；

通用问题解决器（GPS, 1957）：试图用统一的方法解决各类问题；

ELIZA（1966）：第一个聊天机器人，能通过简单的模式匹配与人对话。

4. 感知机之争与第一次 AI 寒冬（1974—1980）

在符号主义蓬勃发展的同时，另一条路线也在悄然生长。1957 年，弗兰克·罗森布拉特（Frank Rosenblatt）提出了”感知机”（Perceptron）模型——一种模仿神经元的简单网络，能够学习识别简单的图案。这一成果引发了巨大的热潮。

然而，1969 年，明斯基和佩珀特出版了《感知机》一书，从数学上证明了单层感知机无法解决”异或”（XOR）问题——即无法处理非线性分类。这本书直接导致神经网络研究进入了长达 20 年的”大饥荒”时期。

趣闻：明斯基和罗森布拉特其实是布朗克斯科学高中的同学（明斯基高一级），两人彼此认识且互相竞争。罗森布拉特后来在 1971 年 43 岁生日当天划船溺水身亡。

与此同时，符号主义也遭遇了致命缺陷：机器缺乏常识。人类看到”他把冰淇淋放在口袋里，到家后发现口袋湿了”这句话，立刻能理解冰淇淋融化了。但符号主义 AI 需要有人事先把”冰淇淋在体温下会融化”“融化的液体会弄湿布料”等无数条常识逐一编写为规则，否则无法做出推断。

现实世界的常识几乎是无穷的，不可能全部手工编码。加之当时计算机算力严重不足，各国政府纷纷削减 AI 研究经费，人工智能进入了第一个”寒冬”。

知识拓展：莫拉维克悖论 20 世纪 80 年代，研究者发现了一个反直觉的现象：人类觉得”困难”的事情（如数学推理、下棋），对计算机来说反而容易；而人类觉得”简单”的事情（如走路、识别人脸、理解笑话），对计算机来说却极其困难。这就是”莫拉维克悖论”——困难的问题容易解决，简单的问题很难解决。

□ 术语卡片 > 符号主义（Symbolism）：人工智能早期的主流学派，主张用逻辑符号和推理规则来模拟人类思维。优点是推理过程透明可解释，缺点是难以处理模糊、不确定的现实问题。

三、第二次浪潮：专家系统与知识工程（1980—1987）

1. 从”通用智能”到”专业知识”

经历了第一次寒冬后，研究者意识到：与其追求”什么都懂”的通用智能，不如先让机器成为某个领域的”专家”。这一思路催生了专家系统（Expert Systems）——一种将特定领域专家的知识编码为规则库，再配合推理引擎进行决策的程序。

2. 代表性成果

DENDRAL（1968）：斯坦福大学的费根鲍姆与遗传学家李德伯格、化学家翟若适合作开发，用于分析质谱仪数据以确定物质的分子结构，是第一款真正意义上的专家系统；

XCON 系统：卡内基梅隆大学为 DEC 公司（数字设备公司）开发的计算机配置专家系统，用于自动配置 VAX 系列计算机的零部件，据称每年为 DEC 节省约 4000 万美元，是专家系统商业化的巅峰；

MYCIN：用于细菌感染诊断的医疗专家系统，诊断准确率甚至超过了部分人类医生。

爱德华·费根鲍姆（Edward Feigenbaum）因在这一领域的开创性贡献，被誉为”专家系统之父”。

3. 日本的教训与第二次 AI 寒冬（1987—1993）

专家系统虽然在特定领域表现出色，但暴露出三个严重问题：

维护成本高昂：知识库需要人工持续更新，一旦领域知识发生变化，整个系统可能需要重写；

缺乏学习能力：专家系统不能从新数据中自动学习，无法”举一反三”；

脆弱性：一旦遇到规则库未覆盖的情况，系统就会束手无策。

1982 年，日本通产省投入约 8.5 亿美元启动”第五代计算机”计划，目标是制造能像人一样推理、对话的机器。该计划主要押注于 Prolog 语言和逻辑编程，但最终因未能交付具有实际商业价值的成果而失败，加速了第二次 AI 寒冬的到来。

随着个人电脑性能超越昂贵的专用 AI 硬件，AI 硬件市场崩盘，人工智能再次进入寒冬。

□ 术语卡片 > 专家系统（Expert System）：一种模拟人类专家决策能力的计算机程序，由知识库（存储领域知识）和推理引擎（执行逻辑推理）两部分组成。它是 AI 第二次浪潮的代表性技术。

四、第三次浪潮：深度学习与大模型时代（2006—至今）

1. 连接主义的全面回归

与符号主义不同，连接主义（Connectionism） 主张模仿人脑的神经元结构，通过大量数据训练让神经网络自动学习特征，而非人工编写规则。这一思想早在 1943 年就已萌芽，但受限于算力和数据，长期未能实现突破。

转折点出现在 2006 年。杰弗里·辛顿（Geoffrey Hinton）在《科学》杂志发表论文，提出了”深度信念网络”和逐层预训练方法，解决了深层神经网络难以训练的技术瓶颈，深度学习（Deep Learning） 时代由此开启。

2. 关键里程碑

表1-1 第三次AI浪潮关键里程碑

年份	事件	意义
2012	AlexNet 在 ImageNet 竞赛中将错误率从 26% 降至 15%	深度学习在图像识别领域的决定性胜利
2016	AlphaGo 以 4:1 战胜围棋世界冠军李世石	深度强化学习+蒙特卡洛树搜索的突破，引发全球关注
2017	谷歌发表论文提出 Transformer 架构	奠定了大语言模型的技术基础
2022	OpenAI 发布 ChatGPT	生成式 AI 走向大众，标志着大模型时代的全面到来
2024	Sora 文生视频模型发布	AI 从文本生成扩展到高质量视频生成
2025	DeepSeek-R1 开源发布，推理能力比肩闭源模型	证明开源模型可达到前沿水平，大幅降低 AI 使用门槛
2025—2026	Gemini 3、Claude Opus 4.6 等新一代模型涌现	多模态、长上下文、Agent 能力成为标配，AI 从”对话”走向”行动”

趣闻：AlphaGo 的后续版本 AlphaGo Zero 仅通过自我对弈（完全不依赖人类棋谱），就以 100:0 的战绩击败了之前的版本。这说明在某些领域，AI 通过自我学习能超越人类经验的上限。

中国力量：在这一轮全球 AI 竞赛中，中国团队正在从”跟跑”走向”并跑”乃至”领跑”。2025 年初，深度求索（DeepSeek）以极低的训练成本发布了推理能力比肩国际顶尖闭源模型的 R1，并选择完全开源，引发全球关注。与此同时，通义千问（Qwen）、智谱 GLM 等国产大模型也在多项国际评测中名列前茅。这些成就背后，是中国在算力基础设施、海量中文数据和工程化能力上的长期积累。作为新时代的大学生，我们既是这些技术成果的受益者，也肩负着推动中国 AI 持续创新的责任。

3. 为什么这次不一样？

第三次浪潮之所以持续至今且不断加速，得益于三个条件的同时成熟：

算力爆发：GPU（图形处理器）的并行计算能力为训练大规模神经网络提供了硬件基础；

数据洪流：互联网产生的海量文本、图像、视频数据为模型训练提供了充足的”养料”；

算法突破：Transformer 架构的提出，使模型能够高效处理长序列数据，大幅提升了语言理解和生成能力。

4. 深度学习三巨头

杰弗里·辛顿（Geoffrey Hinton）、杨立昆（Yann LeCun）和约书亚·本希奥（Yoshua Bengio）因在深度学习领域的奠基性贡献，共同获得了 2018 年图灵奖——这是计算机科学的最高荣誉。

□ 术语卡片 > 深度学习（Deep Learning）：机器学习的一个分支，使用多层人工神经网络从数据中自动学习特征。“深度”指的是网络的层数多，而非理解的深度。它是当前 AI 技术的核心驱动力。

本节小结

人工智能的发展并非一帆风顺，而是经历了”热潮—寒冬—再热潮”的螺旋式上升。

下表概括了三次浪潮的核心特征：

表1-2 三次AI浪潮对比概览

浪潮	时间	核心思想	代表技术	局限
第一次	1956—1970s	符号主义：用逻辑规则模拟思维	定理证明、ELIZA	缺乏常识，算力不足
第二次	1980—1987	知识工程：用专家知识驱动决策	专家系统	维护成本高，不能学习
第三次	2006—至今	连接主义：用数据训练神经网络	深度学习、大模型	需要海量数据和算力

理解这段历史，我们就能明白一个关键事实：AI 的每一次进步，都不是因为机器变得”更聪明”了，而是因为人类找到了更好的方法来利用数据和算力。 AI 始终是工具，而非智慧本身。

思辨时刻：“中文屋”实验——机器真的在”理解”吗？

1980 年，哲学家约翰·塞尔提出了著名的”中文屋”思想实验：假设一个完全不懂中文的人被关在一间屋子里，屋里有一本详尽的规则手册。外面的人用中文写纸条递进来，屋里的人按照手册查找对应的规则，写出中文回答递出去。从外面看，这间屋子”懂中文”；但屋里的人其实一个字都不理解。

塞尔认为，计算机就像这个屋子里的人——它能按规则处理符号并给出正确回答，但并不真正”理解”符号的含义。这个实验至今仍是 AI 哲学中最重要的争论之一：AI 的”智能”是真正的理解，还是精巧的模拟？

思考与讨论

回顾 AI 的两次”寒冬”，试分析第三次浪潮是否也会遭遇类似的低谷，并说明理由。
符号主义强调”规则”，连接主义强调”数据”，未来的 AI 更可能走哪条路线？请阐述观点。
如何看待”中文屋”实验？当 AI 能流畅地与人对话时，它是在”理解”还是在”模拟”？

1.2 机器学习、深度学习与生成式 AI

人工智能、机器学习、深度学习、生成式 AI——这些词经常被混用，但它们并不是同一回事。理清这四个概念的层次关系，是理解当代 AI 技术的第一步。

一、四层同心圆：从大到小的包含关系

这四个概念之间是层层嵌套的包含关系，可以用同心圆来理解：

人工智能是最大的范畴，泛指一切模拟人类智能的技术；

机器学习是实现人工智能的主要方法之一，强调让机器从数据中学习；

深度学习是机器学习的一种特殊技术，使用多层神经网络；

生成式 AI是深度学习的一类应用方向，专注于创造新内容。

下面逐一展开。

二、机器学习：从数据中”找规律”

机器学习（Machine Learning, ML） 的核心思想可以用一句话概括：不是告诉计算机”怎么做”，而是让计算机从数据中自己”学会做”。

传统编程的逻辑是：程序员编写规则，计算机执行规则。例如，要判断一封邮件是否为垃圾邮件，程序员需要手动列出所有可能的特征（包含”中奖”一词、发件人不在通讯录中……）。

机器学习的逻辑则相反：给计算机大量已标注的邮件样本（“这封是垃圾邮件”“这封不是”），让算法自动从中发现规律。学习完成后，机器就能对新邮件做出判断。

用一个更直观的例子来理解：我们怎么教三岁的孩子认苹果？一种方式是告诉他规则——“红色的、圆的、有柄的就是苹果”（这是1.1节提到的符号主义思路）。但实际上，大多数孩子是通过反复看到各种各样的苹果——红的、绿的、大的、小的——自己”悟”出什么是苹果（这正是机器学习的思路）。机器学习走的就是后一条路：不靠人写规则，而是靠数据”喂”出能力。

机器学习的三种主要方式：

表1-3 机器学习的三种主要方式

学习方式	类比	说明	典型应用
监督学习	老师批改作业	用带标签的数据训练，告诉机器”正确答案”	垃圾邮件识别、图像分类
无监督学习	自己整理书架	数据没有标签，让机器自己发现数据中的结构	用户分群、异常检测
强化学习	训练宠物	通过奖励和惩罚让机器在试错中学习最优策略	游戏 AI、机器人控制

阅读材料：泰坦尼克号生存预测

《人工不智能》一书中介绍了一个经典的机器学习案例：用泰坦尼克号乘客数据（年龄、性别、船舱等级等）训练模型，预测哪些乘客更可能在海难中幸存。结果显示，“女性”“头等舱”是最强的生存预测因子——这并非 AI 的”发现”，而是数据忠实地反映了当时”妇女儿童优先”的逃生规则和阶级差异。这个案例提醒我们：机器学习找到的”规律”，本质上是数据中已有模式的数学表达，而非独立的”思考”。

思政融入：科学精神与求真务实：泰坦尼克号案例揭示了一个重要道理——数据不会”说谎”，但数据也不会”思考”。机器学习的结论取决于数据本身的质量和代表性。这提醒我们，在使用 AI 时必须秉持实事求是的科学态度：不迷信工具的输出，不放弃独立的判断，始终追问”数据从哪里来”“结论是否可靠”。这种求真务实的精神，既是科学素养的核心，也是每一位合格公民应有的品质。

三、深度学习：模仿大脑的神经网络

深度学习（Deep Learning, DL） 是机器学习的一个分支，它使用多层人工神经网络来处理数据。“深度”指的是网络层数多（通常数十层甚至上百层），而非理解的深度。

深度学习与传统机器学习的关键区别：

表1-4 传统机器学习与深度学习对比

对比维度	传统机器学习	深度学习
特征提取	需要人工设计特征（如”猫有胡须、尖耳朵”）	自动从原始数据中学习特征
数据需求	小数据集即可工作	通常需要海量数据
计算资源	普通计算机即可	通常需要 GPU 加速
可解释性	较好，能说明决策依据	较差，常被称为”黑盒”
擅长领域	结构化数据（表格、数值）	非结构化数据（图像、语音、文本）

打个比方：如果要教机器识别猫的照片，传统机器学习需要人类先告诉机器”猫有什么特征”（人工特征工程），而深度学习只需要给机器看大量猫的照片，它会自己学会识别——先学会识别边缘，再学会识别纹理，最后学会识别整体形态。这种端到端学习的能力，正是深度学习的核心优势。

用一个形象的比喻来说 ^[1]：深度学习 = “深度”（层数多）+ “学习”。输入层和输出层中间有一个”黑盒子”（隐藏层），就像人脑把视觉信号层层传递，最终认出”这是一只猫”。

四、生成式 AI：从”找规律”到”创造内容”

传统的 AI 大多是判别式的——就像一台照相机，只能识别已有的东西（“这张照片里是猫”）。而生成式 AI（Generative AI） 则走向了另一个方向：它像神笔马良，能创造从未存在过的新内容（“画一只穿太空服的猫”）。

给它一段文字描述，它能生成一幅画（文生图）；

给它一个主题，它能写出一篇文章（文本生成）；

给它一段旋律提示，它能谱出一首完整的歌曲（音乐生成）。

生成式 AI 的核心技术基础是大规模预训练模型（简称”大模型”）。这些模型通过学习互联网上海量的文本、图像等数据，掌握了语言的统计规律和视觉的生成模式，从而能够”预测”下一个词或下一个像素，实现内容的生成。

当前最具代表性的生成式 AI 技术包括：

表1-5 当前主流生成式AI技术方向

技术方向	代表模型	能力
大语言模型（LLM）	GPT 系列、DeepSeek、文心一言	文本理解与生成
扩散模型（Diffusion）	Stable Diffusion、Midjourney	图像生成
多模态模型	GPT-4o、Gemini	同时处理文本、图像、音频

□ 术语卡片 > AIGC（AI Generated Content）：即”人工智能生成内容”，泛指由 AI 自动生成的文本、图像、音频、视频等各类内容。它是生成式 AI 的产出物，与 UGC（用户生成内容）、PGC（专业生成内容）并列，构成了内容生产的三种模式。

五、动手体验：用 DeepSeek 感受”机器学习”

理论讲了不少，现在让我们动手体验一下。不需要写代码，只需要打开 DeepSeek，就能直观感受机器学习中”分类”任务的逻辑。

任务目标：让 AI 扮演一个”分类模型”，根据特征判断水果类型。

第 1 步：打开 DeepSeek（https://chat.deepseek.com），输入以下提示词：

现在请你扮演一个水果分类模型。我会给你一些水果的特征描述，
你需要根据特征判断它是什么水果，并解释你的"推理过程"
（即你依据了哪些特征做出判断）。

特征描述：
- 水果 A：圆形，红色，直径约 8cm，表面光滑，有短柄
- 水果 B：长条形，黄色，长约 20cm，需要剥皮食用
- 水果 C：圆形，橙色，直径约 7cm，表面有粗糙纹理，需要剥皮

第 2 步：观察 AI 的输出。 DeepSeek 的回答示例：

水果 A → 苹果 推理依据：圆形 + 红色 + 光滑表面 + 短柄，这些特征组合高度匹配苹果的典型外观。

水果 B → 香蕉 推理依据：长条形 + 黄色 + 需要剥皮，这是香蕉最显著的特征组合。

水果 C → 橙子 推理依据：圆形 + 橙色 + 粗糙纹理 + 需要剥皮，符合橙子的典型特征。

第 3 步：理解这个演示与机器学习的关系。

在这个演示中，AI 做的事情和机器学习中的”分类器”非常相似： 输入特征：形状、颜色、大小、表面质感（对应机器学习中的”特征向量”）

输出类别：苹果、香蕉、橙子（对应机器学习中的”标签”）

推理依据：AI 解释了它依据哪些特征做出判断（对应机器学习中的”特征权重”）

真正的机器学习模型不会用自然语言推理，而是通过数学计算来完成这个过程。但核心逻辑是一样的：从特征中找规律，用规律做预测。

可以继续追问 AI：“如果我给你一个新的水果特征——椭圆形、绿色、表面有细小凸起、切开后是红色果肉，你会判断它是什么？”观察 AI 能否正确识别出西瓜。

六、一个比喻串起四个概念

如果把人工智能比作交通工具这个大类：

机器学习就是”引擎技术”——让交通工具能够自主运转的核心动力；

深度学习就是”喷气式引擎”——更强劲、更复杂，能处理更高难度的任务；

生成式 AI就是”装载了喷气式引擎的新型飞机”——它不仅能飞（识别、分析），还能在空中表演特技（创造、生成）。

本节小结

本节涉及的核心概念总结如下：

表1-6 核心概念速查

概念	一句话定义	核心能力
人工智能	模拟人类智能的技术总称	感知、推理、学习、决策
机器学习	让机器从数据中自动学习的方法	从数据中发现规律
深度学习	用多层神经网络自动提取特征	处理图像、语音、文本等复杂数据
生成式 AI	基于大模型创造新内容	生成文本、图像、音视频

理解了这四个概念的层次关系，我们就有了一张清晰的”技术地图”。接下来，我们将深入大模型的内部，看看它究竟是如何”思考”的。

1.3 大模型是怎么”思考”的

向 ChatGPT 提问时，屏幕上的文字一个接一个地蹦出来——它究竟在做什么？本节将用通俗的比喻，揭开大语言模型工作原理的面纱。

一、Token 预测：逐字”猜”出答案

大语言模型（Large Language Model, LLM）的核心工作方式，可以用一个词来概括：预测。

具体来说，当输入”今天天气真”这四个字时，模型会根据它在训练中学到的语言规律，计算下一个字最可能是什么。它可能给出这样的概率分布：

“好” → 62%

“不” → 18%

“热” → 12%

其他 → 8%

模型选择概率最高的”好”作为输出，然后把”今天天气真好”作为新的输入，继续预测下一个字……如此循环，直到生成完整的回答。

这里有一个关键概念：Token。模型并不是以”字”为单位处理文本的，而是以 Token 为单位。一个 Token 可能是一个汉字、一个英文单词，也可能是一个词的一部分。例如，“人工智能”可能被拆分为”人工”和”智能”两个 Token。

但模型看到的并不是文字本身，而是一串”数字密码”——这就是词嵌入（Word Embedding）。有学者将其比喻为“带属性的乐高积木” ^[1]：

“猫”和”狗”的积木因为都有”动物”“毛绒绒”的属性，所以能吸在一起（在向量空间中距离近）；

“苹果”的积木因为属性不同，会排斥它们（距离远）；

机器看到的不是文字，而是一串数字向量，如 [0.9, 0.8, 0.1…]。

模型在预测下一个词时，还有不同的”策略”可以选择：

Top-k 采样（“糖果抽奖箱”）：只从概率最高的 K 个候选词中随机选择，防止选到奇怪的词；

Top-p 采样（“神奇扭蛋机”）：累积概率达到某个阈值就停止选择，是一个动态筛选过程；

温度参数（“想象力开关”）：调低温度像严谨的科学家（适合写报告），调高温度像疯狂的艺术家（适合编故事）。

提示：温度、Top-k、Top-p 等参数通常由平台预先配置，普通用户在网页对话界面中无需手动调节。理解这些原理的意义在于：它帮助你理解”为什么同一个问题，每次问 AI 得到的回答都不完全一样”。

□ 术语卡片 > Token：大语言模型处理文本的基本单位。模型将输入文本切分为 Token 序列进行计算。中文通常一个字对应 1—2 个 Token，英文一个单词对应 1—3 个 Token。模型的”上下文窗口”（如 128K Token）决定了它一次能处理的文本长度上限。

二、Transformer：一座”超级积木工厂”

大语言模型之所以能如此准确地预测下一个词，核心秘密在于一种名为 Transformer 的神经网络架构。它由谷歌团队在 2017 年提出，论文标题是那句著名的 “Attention Is All You Need”（注意力就是你所需要的一切）。

有一个生动的比喻 ^[1]：Transformer 就像一座“超级积木工厂”，专门生产会讲故事的机器人。这座工厂有三个核心部件：

部件一：魔法积木块——自注意力机制（Self-Attention）

工厂里有一种”魔法积木块”，它拥有两项超能力：

“看全局”：它能立刻感知到句子中所有词语之间的关系。例如读到”猫追老鼠”时，它知道”猫”和”追”有关（谁在动？），“追”和”老鼠”有关（追什么？）。

“记重点”：它会自动给重要的词贴上”金色标签”，给不太重要的词（如”的”“了”）贴上”灰色标签”。

用技术语言来说，自注意力机制让模型在处理每一个词时，都能”回头看”整个句子，计算当前词与其他所有词的关联强度。这就是为什么大模型能理解”苹果”在”我吃了一个苹果”和”苹果发布了新手机”中的不同含义——因为它会根据上下文中的其他词来判断”苹果”的意思。

注意力可视化：直观感受 AI 的”目光”

如果我们能”看到”注意力机制的工作过程，会是什么样子？研究者开发了注意力可视化工具，可以用颜色深浅来表示词与词之间的关联强度。以”小猫坐在垫子上，它很舒服”这句话为例：

可以看到：当模型处理”它”这个字时，注意力最强烈地指向了”小猫”——模型”知道”“它”指的是小猫。当处理”舒服”时，注意力同时指向”它”和”小猫”——模型理解了是小猫感到舒服。这种”回头看”的能力，正是自注意力机制的精髓。

部件二：分工小工人——多头注意力（Multi-Head Attention）

工厂里不止一个工人在观察，而是有多个小工人同时从不同角度找线索：

工人 A 负责找”谁在做什么”（猫 → 追）；

工人 B 负责找”动作和谁有关”（追 → 老鼠）；

工人 C 负责找”时间地点”（昨天、在花园）。

最后，把所有工人的发现拼在一起，机器人对信息的理解就更加全面。这就是”多头”的含义——多个注意力”头”并行工作，各司其职，避免遗漏重要线索。

部件三：顺序贴纸——位置编码（Positional Encoding）

语言是有顺序的。“猫咬狗”和”狗咬猫”用了完全相同的词，但意思截然不同。工厂通过给每个积木贴上“荧光数字贴纸”来解决这个问题：

给”猫”贴 1 号，“咬”贴 2 号，“狗”贴 3 号；

机器人检查贴纸，就能明白”1 → 2 → 3”的顺序，知道是谁咬了谁。

这种位置编码使用了特殊的数学公式（正弦和余弦函数），就像给数字打上不同颜色的光，让机器人一眼就能识别每个词的位置。

□ 术语卡片 > Transformer：2017 年由谷歌提出的神经网络架构，通过自注意力机制实现对序列数据的高效并行处理。它是 GPT、BERT、DeepSeek 等几乎所有主流大语言模型的技术基础。

三、RAG：给 AI 一场”开卷考试”

大模型虽然强大，但有一个天然的短板：它的知识是”冻结”在训练数据中的。如果问它 2025 年的新闻事件，而它的训练数据截止到 2024 年，它就可能给出过时甚至错误的回答。

为了解决这个问题，工程师们发明了 RAG（Retrieval-Augmented Generation，检索增强生成） 技术。

有一个贴切的比喻 ^[1]：普通的大模型就像一个“闭卷考试”的学生，只能靠记忆答题；而加了 RAG 的大模型，则像参加“开卷考试”——遇到问题先翻书，再作答。

RAG 的工作流程：

举个例子：当问到”2024 年巴黎奥运会的吉祥物是什么？”

没有 RAG 的模型（闭卷）：可能凭记忆猜测”熊猫？“——答错了；

有 RAG 的模型（开卷）：先从知识库中检索到相关资料，找到正确答案”弗里吉”，再组织语言回答。

RAG 的核心价值在于：不需要重新训练模型（相当于不用重新上学），只需要更换或更新知识库（相当于换一本参考书），就能让模型获得最新、最准确的知识。

□ 术语卡片 > RAG（检索增强生成）：一种将信息检索与文本生成相结合的技术。模型在生成回答前，先从外部知识库中检索相关信息，再基于检索结果生成更准确的回答。它是当前解决大模型”知识过时”和”事实错误”问题的主流方案。

四、AI 幻觉：“自信的鹦鹉”

在使用 AI 工具时，可能遇到过这样的情况：AI 一本正经地给出一个”事实”，但经过核查后发现完全是编造的。这种现象被称为 AI 幻觉（Hallucination）。

有学者将这一现象比喻为一只“爱撒谎的鹦鹉” ^[1]：

如果教鹦鹉”苹果是红色的”，它能正确重复；

但如果问它没学过的问题，比如”恐龙怎么玩手机？“，它不会说”我不知道”，而是会自信地编造一个答案——因为它的本能就是”说点什么”。

AI 幻觉产生的根本原因：

大语言模型的本质是概率预测——它总是选择”最可能的下一个词”，而不是”最正确的下一个词”。当模型遇到训练数据中未充分覆盖的问题时，它会基于统计规律”猜”出一个看似合理但实际错误的答案。就像考试遇到不会的题，硬编一个答案交上去。

如何应对 AI 幻觉：

多源验证：AI 给出的关键信息，务必通过其他渠道核实；
溯源查证：要求 AI 提供信息来源，并亲自验证来源的真实性；
使用 RAG：让 AI 基于可靠的知识库回答，而非纯粹依赖记忆；
保持警觉：越是流畅、自信的回答，越要警惕其中可能存在的错误。

□ 术语卡片 > AI 幻觉（Hallucination）：指 AI 模型生成的内容看似合理、表述流畅，但实际上包含事实性错误或完全虚构的信息。这是当前所有大语言模型的共性问题，源于其基于概率生成文本的工作机制。

五、大模型是怎么”学习”的：从上学到实习

大模型的训练过程可以类比为一个人从上学到工作的成长历程：

第一阶段：预训练——“填空游戏”

模型使用海量通用数据（维基百科、新闻、书籍等）进行学习。就像给一个小机器人一本没有答案的厚书，遮住部分字让它猜（例如”___喜欢吃鱼”，猜”猫”）。猜对了大脑亮灯，猜错了调整参数。经过数万亿次的”填空”练习，模型建立起了一个庞大的”常识电池”。

第二阶段：微调——“学习新技能”

预训练让模型掌握了通用常识，微调则是教它特定的技能。就像把一个懂常识的大学毕业生，专门培训成医生或律师。通过在特定领域的数据上继续训练，模型能在该领域表现得更加专业。

第三阶段：RLHF——“训练小狗”

最后一步是让人类对模型的回答进行打分排序。做对了（回答符合人类价值观）就给奖励，做错了（说脏话、有偏见）就批评。这让 AI 不仅”聪明”，而且”懂规矩”。

本节小结

表1-7 大模型核心概念速查

概念	通俗比喻	核心要点
Token 预测	逐字填空	模型通过预测”下一个最可能的词”来生成文本
Self-Attention	魔法积木块	让模型理解词与词之间的关联
Multi-Head Attention	分工小工人	多个”专家”从不同角度同时分析
Positional Encoding	顺序贴纸	让模型理解词语的先后顺序
RAG	开卷考试	先检索知识库，再生成回答
AI 幻觉	自信的鹦鹉	模型可能编造看似合理的错误信息

理解了这些原理，就不会再把 AI 当作”无所不知的神谕”，而是将它视为一个强大但需要监督的助手——它能帮助高效完成任务，但最终的判断权始终在人手中。

思辨时刻：AI 写出优美的诗歌，它拥有”灵感”吗？

大模型能写诗、编故事、甚至模仿特定作家的风格，这让许多人惊叹”AI 也有创造力了”。但回顾本节的内容就会发现：模型所做的一切，本质上都是基于概率的”文字接龙”——它选择的是”最可能的下一个词”，而非”最有灵魂的下一个词”。一首 AI 生成的诗之所以动人，是因为训练数据中无数人类诗人的才华被压缩成了统计规律。AI 不曾体验过月光下的孤独，却能写出”举头望明月”式的句子——这究竟是创造，还是精巧的重组？这个问题没有标准答案，但值得每一位使用者认真思考。

□ 术语卡片 > 词嵌入（Word Embedding）：将文字转换为计算机能处理的数字向量的技术。语义相近的词在向量空间中距离更近，例如”国王”和”王后”的向量距离，小于”国王”和”苹果”的距离。

RLHF（基于人类反馈的强化学习）：训练大模型的关键技术之一。人类标注员对模型的多个回答进行排序打分，模型据此学习”什么样的回答更好”，从而生成更符合人类期望的内容。

思维链（Chain of Thought, CoT）：一种提示技巧，要求模型在给出最终答案前，先展示推理过程。类似于数学考试中的”写出解题步骤”，能显著提升模型在复杂推理任务上的表现。

MoE（混合专家模型）：一种模型架构设计，将一个大模型拆分为多个”专家”子网络，每次只激活其中一部分来处理特定任务，从而在保持强大能力的同时降低计算成本。

1.4 主流 AI 工具全景图

了解了 AI 的原理之后，是时候认识那些可以立刻上手使用的工具了。本节将绘制一张当前主流 AI 工具的全景地图，帮助读者在面对具体任务时快速找到合适的工具。

一、四大类 AI 工具一览

当前面向普通用户的 AI 工具，大致可以分为文本对话、图像生成、音视频创作、办公协同四大类。为什么是这四类？因为它们分别对应了日常工作和学习中最常见的四种内容形态：文字、图片、音视频和文档。日常遇到的绝大多数任务，都可以归入其中一类。

1. 文本对话类

文本对话类工具是目前使用最广泛的 AI 应用。输入一段文字，它返回一段回答——这种交互方式简单直观，却能覆盖写作、翻译、编程、数据分析等大量场景。

表1-8 主流文本对话类AI工具对比

工具	开发方	特点	适用场景
ChatGPT	OpenAI（美国）	综合能力强，支持多模态，o 系列擅长深度推理	写作、翻译、编程、分析
DeepSeek	深度求索（中国）	开源模型，支持深度思考与联网搜索	逻辑推理、代码生成、数据分析
Gemini	Google（美国）	3.1 Pro 多模态领先，Deep Think 模式擅长复杂推理	多语言、学术研究、编程
Claude	Anthropic（美国）	Opus 4.6 编程与 Agent 能力业界领先	长文档分析、编程、学术写作
Kimi	月之暗面（中国）	超长上下文（支持 200 万字）	长文档阅读、论文分析
豆包	字节跳动（中国）	集成文本、图像、视频生成的一站式平台	日常问答、内容创作

为什么有这么多工具？ 每个工具背后是不同的大模型，它们在训练数据、模型架构和优化方向上各有侧重。就像不同品牌的汽车都能开，但有的省油、有的越野强、有的空间大——选择取决于具体需求。

2. 图像生成类

图像生成类工具能够根据文字描述生成图片，或对已有图片进行编辑。

表1-9 主流图像生成类AI工具对比

工具	特点	适用场景
即梦 AI	字节跳动出品，中文友好，支持文字渲染	海报设计、商品图、社交媒体配图
Midjourney	艺术风格突出，画面质感强	概念设计、艺术创作、插画
Stable Diffusion	开源免费，可本地部署，高度可定制	批量生成、风格训练、技术研究
DALL·E	OpenAI 出品，与 ChatGPT 深度集成	快速出图、创意构思

3. 音视频创作类

表1-10 主流音视频创作类AI工具对比

工具	能力	适用场景
Suno	AI 音乐生成，Studio 支持多轨编辑	背景音乐、短视频配乐
剪映 AI	智能剪辑、字幕生成、数字人	短视频制作、课程录制
Seedance 2.0	字节跳动视频生成大模型，音画同步	文字/图片生成电影级视频
HeyGen	数字人视频生成，支持多语言	产品介绍、培训视频
通义听悟	语音转文字、会议纪要生成	会议记录、访谈整理

4. 办公协同类

表1-11 主流办公协同类AI工具对比

工具	能力	适用场景
WPS AI	文档写作、表格分析、PPT 生成	日常办公全流程
AiPPT	一键生成演示文稿	快速制作汇报 PPT
通义听悟	音视频内容转文字摘要	会议纪要、课堂笔记

二、实操演示：同一任务，不同工具的表现对比

光看表格还不够直观。下面我们用一个真实任务来体验不同工具的差异。

任务：请用 200 字介绍”什么是碳中和”，面向高中生读者，语言通俗易懂。

第 1 步：打开 DeepSeek（https://chat.deepseek.com），输入上述提示词。

DeepSeek 的输出示例：

碳中和是指一个国家、企业或个人在一定时间内，通过植树造林、节能减排等方式，抵消自身产生的二氧化碳排放量，实现二氧化碳”净零排放”。打个比方：你每天呼吸、用电、开车都会产生碳排放，就像往一个水池里注水；而种树、使用清洁能源就像从水池里抽水。当注入和抽出的水量相等时，水池的水位不再上升——这就是”碳中和”。中国承诺在 2060 年前实现碳中和，这意味着我们需要在生产生活的方方面面减少碳排放，同时增加碳吸收能力。

第 2 步：打开 Kimi（https://kimi.moonshot.cn），输入同样的提示词。

Kimi 的输出示例：

想象地球穿着一件”碳外套”——大气中的二氧化碳越多，这件外套就越厚，地球就越热。碳中和的目标，就是让我们排出的碳和吸收的碳达到平衡，不再给地球”加衣服”。具体怎么做呢？一方面减少排放：少开燃油车、多用太阳能；另一方面增加吸收：多种树，因为树木能”吃掉”二氧化碳。当排放量等于吸收量，就实现了碳中和。我国计划在 2060 年前达成这个目标，这需要每个人从日常小事做起。

第 3 步：对比分析两者的输出。

表1-12 DeepSeek与Kimi输出风格对比

对比维度	DeepSeek	Kimi
比喻方式	水池注水/抽水	地球穿外套
信息密度	较高，包含具体政策目标	适中，侧重生活化表达
语言风格	偏科普，结构严谨	偏口语，亲切活泼
适合场景	课堂讲义、知识科普	社交媒体、轻松阅读

结论：两款工具都能完成任务，但风格各有特色。DeepSeek 的回答更适合正式场景，Kimi 的回答更适合轻松传播。在实际使用中，可以根据目标受众和使用场景来选择工具，甚至将两者的优点结合起来。

三、工具选用三原则

面对琳琅满目的 AI 工具，如何做出选择？建议遵循以下三个原则：

原则一：场景匹配

不同工具有不同的擅长领域。写文章用 DeepSeek，画海报用即梦 AI，做视频用剪映——选择工具的第一标准是”它是否擅长要做的事”，而非”它是否最有名”。

下面是一张快速选择参考表：

表1-13 AI工具选用快速参考

任务需求	推荐工具	理由
写一篇课程论文	DeepSeek / ChatGPT / Claude	逻辑推理和长文本生成能力强
阅读一份 50 页的 PDF 报告	Kimi / Claude	超长上下文窗口，能一次读完整份文档
设计一张活动海报	即梦 AI / DALL·E	中文渲染效果好，操作简单
制作一段产品介绍视频	HeyGen / 剪映 AI	数字人+字幕自动生成
用文字生成电影级短视频	Seedance 2.0（豆包）	音画同步，物理规律还原
整理一场会议的录音	通义听悟	语音转文字准确率高

原则二：数据安全——你的隐私，你做主

当你在深夜向 AI 倾诉烦恼、上传简历求职建议、或者让它分析你的消费记录时，有没有想过：这些信息去了哪里？使用 AI 工具时，输入的内容可能被用于模型训练，这意味着你的个人信息有可能以某种形式”留在”了云端。因此：不要向公共 AI 工具输入个人隐私信息（身份证号、银行卡号等）；

不要上传涉及商业机密或未公开数据的文件；

涉及敏感信息时，优先选择支持本地部署的工具（如 Stable Diffusion）或明确承诺不使用用户数据训练的服务。

保护个人数据不仅是一项技术操作，更是数字时代公民的基本素养。正如我们不会把身份证随意交给陌生人，也不应该毫无防备地将个人信息交给 AI。

原则三：成本可控

大多数 AI 工具提供免费额度，但高级功能通常需要付费。在选择工具时，应评估：免费额度是否满足日常需求？

付费方案的性价比如何？

是否有开源替代方案？

实用建议：先用免费版本充分体验，确认某款工具确实能显著提升效率后，再考虑付费。不要因为”别人都在用”就盲目订阅。

四、常见问题

Q1：AI 工具更新很快，我学的内容会不会很快过时？

工具的界面和功能确实会频繁更新，但本书教授的是使用 AI 的方法论——如何提问、如何评估输出、如何选择工具。这些底层能力不会因为某个按钮换了位置而失效。

Q2：国产工具和国外工具，应该选哪个？

对于中文场景，国产工具（DeepSeek、Kimi、豆包等）通常表现更好，且访问更稳定。对于英文场景或需要最前沿能力的任务，ChatGPT、Claude、Gemini 等国外工具可能更有优势。建议两类工具都熟悉，根据具体任务灵活切换。

Q3：免费工具和付费工具差距大吗？

对于日常学习和轻度使用，免费版本已经足够。付费版本的优势主要体现在：更快的响应速度、更长的上下文窗口、更高级的功能（如图片生成、文件分析等）。可以先用免费版，遇到瓶颈时再考虑升级。

思辨时刻：不是所有问题都需要 AI

有学者讲述了一个发人深省的故事 ^[2]：一家名为”Slice Intelligence”的公司开发了一个 AI 系统来预测披萨的销量。系统非常复杂，使用了大量数据和先进算法。但最终，一位经验丰富的披萨店老板仅凭”周五晚上订单多、下雨天外卖多”这样的常识，就做出了同样准确的预测。

这个故事提醒我们：在使用 AI 之前，先问自己一个问题——这个任务真的需要 AI 吗？ 有时候，一个简单的 Excel 公式、一次搜索引擎查询，甚至一个电话，就能解决问题。AI 是工具箱里的一把锤子，但不是所有问题都是钉子。

本节小结

本节绘制了一张 AI 工具的全景地图，涵盖文本、图像、音视频和办公四大类。通过同一任务在不同工具上的对比演示，可以直观感受到工具之间的差异。选择工具时，请牢记三个原则：场景匹配、数据安全、成本可控。

更重要的是，保持一种清醒的态度：AI 工具是为人服务的，而不是反过来。 不要为了”用 AI”而用 AI，而是在真正需要时，选择最合适的工具来提升效率。

在后续章节中，我们将逐一深入这些工具的实际操作。但在此之前，下一章将先解决一个关键问题：如何与 AI 高效对话？ 这就是提示词工程的艺术。

本章小结

本章围绕”认识人工智能”这一核心主题，从历史演进、概念辨析、技术原理和工具全景四个维度，帮助读者建立关于 AI 的系统性认知框架。理解 AI 的本质与边界，是后续高效使用 AI 工具的基础。

小节	核心内容	关键概念
1.1 AI 的三次浪潮	回顾人工智能从符号主义、专家系统到深度学习的七十年发展历程，揭示技术演进的周期性规律	符号主义、专家系统、深度学习
1.2 机器学习、深度学习与生成式 AI	厘清四个核心概念的层层嵌套关系，建立从”人工智能”到”生成式 AI”的清晰技术地图	机器学习、深度学习、生成式 AI
1.3 大模型是怎么”思考”的	用通俗比喻解构大语言模型的工作原理，揭示 AI 幻觉产生的根本原因	Token 预测、Transformer、RAG、AI 幻觉
1.4 主流 AI 工具全景图	梳理文本、图像、音视频、办公四大类 AI 工具，提出场景匹配、数据安全、成本可控三项选用原则	工具选型、数据安全、场景匹配

AI 是强大的工具而非智慧本身，建立准确的技术直觉是驾驭 AI 的第一步。下一章将解决一个关键问题：如何与 AI 高效对话——这便是提示词工程的艺术。

第一章实践与练习

纸上得来终觉浅，绝知此事要躬行。本章的练习就是帮你从”知道”走向”做到”。

一、选择题

人工智能学科的诞生标志是哪一事件？
- A. 图灵发表《计算机器与智能》
- B. 1956 年达特茅斯会议
- C. AlphaGo 战胜李世石
- D. ChatGPT 发布
以下哪项技术属于第二次 AI 浪潮的代表？
- A. 深度学习
- B. 专家系统
- C. 生成式 AI
- D. Transformer 架构
大语言模型生成文本的核心机制是：
- A. 从数据库中检索现成答案
- B. 预测下一个最可能的 Token
- C. 将用户问题翻译为程序代码执行
- D. 调用搜索引擎获取实时信息
RAG 技术的核心价值在于：
- A. 让模型运行速度更快
- B. 让模型不需要训练数据
- C. 让模型能基于外部知识库生成更准确的回答
- D. 让模型具备情感理解能力
以下关于 AI 幻觉的说法，正确的是：
- A. 只有免费模型才会产生幻觉
- B. 幻觉是模型故意欺骗用户
- C. 幻觉源于模型基于概率生成文本的机制
- D. 使用付费版本可以完全避免幻觉

二、简答题

请用自己的话解释”机器学习”和”深度学习”的区别，并各举一个应用场景。
为什么说第三次 AI 浪潮”这次不一样”？请从算力、数据、算法三个角度简要说明。
什么是 AI 幻觉？在使用 AI 工具时应该如何应对？

三、实操题

工具对比实验：分别使用 DeepSeek 和 Kimi，向它们提出同一个问题：“请用 300 字介绍你所在城市的一个著名景点”。对比两者的回答，从信息准确性、语言风格、细节丰富度三个维度进行分析，并将分析结果整理为表格。
AI 幻觉检测：向任意一款 AI 工具提问：“请介绍诺贝尔数学奖的历届获奖者。”观察 AI 的回答，判断其中是否存在幻觉（提示：诺贝尔奖并没有数学奖），并记录发现。
概念梳理：使用 DeepSeek，输入提示词”请用一张表格对比人工智能、机器学习、深度学习、生成式 AI 四个概念的定义、核心技术和典型应用”。检查 AI 的输出是否准确，如有错误请指出并修正。

参考答案（选择题）：1-B 2-B 3-B 4-C 5-C

四、进阶挑战

题目：我的”数字分身”计划

背景：假设你是一名大学生，想利用 AI 工具来辅助你的学习和生活。

要求：请根据本章学到的”AI 工具全景图”，设计一套属于你的 AI 组合拳方案。你需要列出：

场景：你会用 AI 做什么？（至少 3 个场景，如：写论文综述、做社团海报、练英语口语）
工具：每个场景选择什么工具？为什么选它？
原则：在使用过程中，你会如何规避风险（如查重、隐私）？

提交格式示例：

场景 1：英语口语练习

工具：ChatGPT (语音模式)

理由：它的语音识别准确，且发音自然，能进行多轮对话。

避坑：不跟它聊涉及个人身份证号的话题。

五、思辨与讨论

以下问题没有标准答案，用来引发深入思考和课堂讨论。

如果一个 AI 能流畅地和你聊天、安慰你的情绪、记住你的喜好，它算是你的”朋友”吗？“友谊”是否必须建立在双方都有意识的基础上？
AI 能写诗、画画、作曲，但它从未体验过悲伤或喜悦。没有生命体验的”创作”，能算真正的艺术吗？
回顾 1.1 节的”中文屋”实验：当 AI 的回答与人类专家无法区分时，我们还有必要追问它是否”真正理解”吗？“理解”的标准应该由谁来定义？

六、延伸阅读

视频：[3Blue1Brown] 神经网络是如何学习的？（Bilibili 可搜）
书籍：《人机共生：智能时代的生存策略》 ^[9]

知识图谱

导言：当科幻照进现实

学习目标

1.1 AI 的三次浪潮

一、什么是人工智能

二、第一次浪潮：符号主义与逻辑推理（1956—1970s）

三、第二次浪潮：专家系统与知识工程（1980—1987）

四、第三次浪潮：深度学习与大模型时代（2006—至今）

本节小结

1.2 机器学习、深度学习与生成式 AI

一、四层同心圆：从大到小的包含关系

二、机器学习：从数据中”找规律”

三、深度学习：模仿大脑的神经网络

四、生成式 AI：从”找规律”到”创造内容”

五、动手体验：用 DeepSeek 感受”机器学习”

六、一个比喻串起四个概念

本节小结

1.3 大模型是怎么”思考”的

一、Token 预测：逐字”猜”出答案

二、Transformer：一座”超级积木工厂”

部件一：魔法积木块——自注意力机制（Self-Attention）

部件二：分工小工人——多头注意力（Multi-Head Attention）

部件三：顺序贴纸——位置编码（Positional Encoding）

三、RAG：给 AI 一场”开卷考试”

四、AI 幻觉：“自信的鹦鹉”

五、大模型是怎么”学习”的：从上学到实习

本节小结

1.4 主流 AI 工具全景图

一、四大类 AI 工具一览

1. 文本对话类

2. 图像生成类

3. 音视频创作类

4. 办公协同类

二、实操演示：同一任务，不同工具的表现对比

三、工具选用三原则

四、常见问题

本节小结

本章小结

第一章 实践与练习

一、选择题

二、简答题

三、实操题

四、进阶挑战

五、思辨与讨论

六、延伸阅读

第一章实践与练习