1.3 大模型是怎么"思考"的

当你向 ChatGPT 提问时，屏幕上的文字一个接一个地蹦出来——它究竟在做什么？本节将用通俗的比喻，揭开大语言模型工作原理的面纱。

一、Token 预测：逐字"猜"出答案

大语言模型（Large Language Model, LLM）的核心工作方式，可以用一个词来概括：预测。

具体来说，当你输入"今天天气真"这四个字时，模型会根据它在训练中学到的语言规律，计算下一个字最可能是什么。它可能给出这样的概率分布：

"好" → 62%
"不" → 18%
"热" → 12%
其他 → 8%

模型选择概率最高的"好"作为输出，然后把"今天天气真好"作为新的输入，继续预测下一个字……如此循环，直到生成完整的回答。

这里有一个关键概念：Token。模型并不是以"字"为单位处理文本的，而是以 Token 为单位。一个 Token 可能是一个汉字、一个英文单词，也可能是一个词的一部分。例如，"人工智能"可能被拆分为"人工"和"智能"两个 Token。

但模型看到的并不是文字本身，而是一串"数字密码"——这就是词嵌入（Word Embedding）。《大白话人工智能大模型》将其比喻为"带属性的乐高积木"：

"猫"和"狗"的积木因为都有"动物""毛绒绒"的属性，所以能吸在一起（在向量空间中距离近）；
"苹果"的积木因为属性不同，会排斥它们（距离远）；
机器看到的不是文字，而是一串数字向量，如 [0.9, 0.8, 0.1...]。

模型在预测下一个词时，还有不同的"策略"可以选择：

Top-k 采样（"糖果抽奖箱"）：只从概率最高的 K 个候选词中随机选择，防止选到奇怪的词；
Top-p 采样（"神奇扭蛋机"）：累积概率达到某个阈值就停止选择，是一个动态筛选过程；
温度参数（"想象力开关"）：调低温度像严谨的科学家（适合写报告），调高温度像疯狂的艺术家（适合编故事）。

📷 【截图位置】：DeepSeek 对话界面中"温度"参数设置的截图，展示不同温度值对输出风格的影响（建议尺寸：宽度占满页面）

□ 术语卡片

Token：大语言模型处理文本的基本单位。模型将输入文本切分为 Token 序列进行计算。中文通常一个字对应 1—2 个 Token，英文一个单词对应 1—3 个 Token。模型的"上下文窗口"（如 128K Token）决定了它一次能处理的文本长度上限。

二、Transformer：一座"超级积木工厂"

大语言模型之所以能如此准确地预测下一个词，核心秘密在于一种名为 Transformer 的神经网络架构。它由谷歌团队在 2017 年提出，论文标题是那句著名的 "Attention Is All You Need"（注意力就是你所需要的一切）。

《大白话人工智能大模型》一书用了一个生动的比喻：Transformer 就像一座"超级积木工厂"，专门生产会讲故事的机器人。这座工厂有三个核心部件：

部件一：魔法积木块——自注意力机制（Self-Attention）

工厂里有一种"魔法积木块"，它拥有两项超能力：

"看全局"：它能立刻感知到句子中所有词语之间的关系。例如读到"猫追老鼠"时，它知道"猫"和"追"有关（谁在动？），"追"和"老鼠"有关（追什么？）。
"记重点"：它会自动给重要的词贴上"金色标签"，给不太重要的词（如"的""了"）贴上"灰色标签"。

用技术语言来说，自注意力机制让模型在处理每一个词时，都能"回头看"整个句子，计算当前词与其他所有词的关联强度。这就是为什么大模型能理解"苹果"在"我吃了一个苹果"和"苹果发布了新手机"中的不同含义——因为它会根据上下文中的其他词来判断"苹果"的意思。

注意力可视化：直观感受 AI 的"目光"

如果我们能"看到"注意力机制的工作过程，会是什么样子？研究者开发了注意力可视化工具，可以用颜色深浅来表示词与词之间的关联强度。以"小猫坐在垫子上，它很舒服"这句话为例：

         小猫  坐在  垫子  上  它   很  舒服
小猫     ████  ██░░  ░░░░  ░  ███  ░░  ██░░
它       ████  ░░░░  ██░░  ░  ███  ░░  ████
舒服     ██░░  ░░░░  ██░░  ░  ███  ██  ████
（████ = 强关联  ██░░ = 中等关联  ░░░░ = 弱关联）

你可以看到：当模型处理"它"这个字时，注意力最强烈地指向了"小猫"——模型"知道""它"指的是小猫。当处理"舒服"时，注意力同时指向"它"和"小猫"——模型理解了是小猫感到舒服。这种"回头看"的能力，正是自注意力机制的精髓。

部件二：分工小工人——多头注意力（Multi-Head Attention）

工厂里不止一个工人在观察，而是有多个小工人同时从不同角度找线索：

工人 A 负责找"谁在做什么"（猫 → 追）；
工人 B 负责找"动作和谁有关"（追 → 老鼠）；
工人 C 负责找"时间地点"（昨天、在花园）。

最后，把所有工人的发现拼在一起，机器人对信息的理解就更加全面。这就是"多头"的含义——多个注意力"头"并行工作，各司其职，避免遗漏重要线索。

部件三：顺序贴纸——位置编码（Positional Encoding）

语言是有顺序的。"猫咬狗"和"狗咬猫"用了完全相同的词，但意思截然不同。工厂通过给每个积木贴上"荧光数字贴纸"来解决这个问题：

给"猫"贴 1 号，"咬"贴 2 号，"狗"贴 3 号；
机器人检查贴纸，就能明白"1 → 2 → 3"的顺序，知道是谁咬了谁。

这种位置编码使用了特殊的数学公式（正弦和余弦函数），就像给数字打上不同颜色的光，让机器人一眼就能识别每个词的位置。

□ 术语卡片

Transformer：2017 年由谷歌提出的神经网络架构，通过自注意力机制实现对序列数据的高效并行处理。它是 GPT、BERT、DeepSeek 等几乎所有主流大语言模型的技术基础。

三、RAG：给 AI 一场"开卷考试"

大模型虽然强大，但有一个天然的短板：它的知识是"冻结"在训练数据中的。如果你问它 2025 年的新闻事件，而它的训练数据截止到 2024 年，它就可能给出过时甚至错误的回答。

为了解决这个问题，工程师们发明了 RAG（Retrieval-Augmented Generation，检索增强生成） 技术。

《大白话人工智能大模型》用了一个贴切的比喻：普通的大模型就像一个"闭卷考试"的学生，只能靠记忆答题；而加了 RAG 的大模型，则像参加"开卷考试"——遇到问题先翻书，再作答。

RAG 的工作流程：

用户提问 → 检索阶段：从外部知识库中搜索相关文档
         → 增强阶段：将检索到的文档片段与用户问题拼接
         → 生成阶段：大模型结合检索结果生成回答

举个例子：当你问"2024 年巴黎奥运会的吉祥物是什么？"

没有 RAG 的模型（闭卷）：可能凭记忆猜测"熊猫？"——答错了；
有 RAG 的模型（开卷）：先从知识库中检索到相关资料，找到正确答案"弗里吉"，再组织语言回答。

RAG 的核心价值在于：不需要重新训练模型（相当于不用重新上学），只需要更换或更新知识库（相当于换一本参考书），就能让模型获得最新、最准确的知识。

□ 术语卡片

RAG（检索增强生成）：一种将信息检索与文本生成相结合的技术。模型在生成回答前，先从外部知识库中检索相关信息，再基于检索结果生成更准确的回答。它是当前解决大模型"知识过时"和"事实错误"问题的主流方案。

四、AI 幻觉："自信的鹦鹉"

在使用 AI 工具时，你可能遇到过这样的情况：AI 一本正经地告诉你一个"事实"，但经过核查后发现完全是编造的。这种现象被称为 AI 幻觉（Hallucination）。

《大白话人工智能大模型》将这一现象比喻为一只"爱撒谎的鹦鹉"：

如果你教鹦鹉"苹果是红色的"，它能正确重复；
但如果你问它没学过的问题，比如"恐龙怎么玩手机？"，它不会说"我不知道"，而是会自信地编造一个答案——因为它的本能就是"说点什么"。

AI 幻觉产生的根本原因：

大语言模型的本质是概率预测——它总是选择"最可能的下一个词"，而不是"最正确的下一个词"。当模型遇到训练数据中未充分覆盖的问题时，它会基于统计规律"猜"出一个看似合理但实际错误的答案。就像考试遇到不会的题，硬编一个答案交上去。

如何应对 AI 幻觉：

多源验证：AI 给出的关键信息，务必通过其他渠道核实；
溯源查证：要求 AI 提供信息来源，并亲自验证来源的真实性；
使用 RAG：让 AI 基于可靠的知识库回答，而非纯粹依赖记忆；
保持警觉：越是流畅、自信的回答，越要警惕其中可能存在的错误。

□ 术语卡片

AI 幻觉（Hallucination）：指 AI 模型生成的内容看似合理、表述流畅，但实际上包含事实性错误或完全虚构的信息。这是当前所有大语言模型的共性问题，源于其基于概率生成文本的工作机制。

五、大模型是怎么"学习"的：从上学到实习

大模型的训练过程可以类比为一个人从上学到工作的成长历程：

第一阶段：预训练——"填空游戏"

模型使用海量通用数据（维基百科、新闻、书籍等）进行学习。就像给一个小机器人一本没有答案的厚书，遮住部分字让它猜（例如"_喜欢吃鱼"，猜"猫"）。猜对了大脑亮灯，猜错了调整参数。经过数万亿次的"填空"练习，模型建立起了一个庞大的"常识电池"。

第二阶段：微调——"学习新技能"

预训练让模型掌握了通用常识，微调则是教它特定的技能。就像把一个懂常识的大学毕业生，专门培训成医生或律师。通过在特定领域的数据上继续训练，模型能在该领域表现得更加专业。

第三阶段：RLHF——"训练小狗"

最后一步是让人类对模型的回答进行打分排序。做对了（回答符合人类价值观）就给奖励，做错了（说脏话、有偏见）就批评。这让 AI 不仅"聪明"，而且"懂规矩"。

本节小结

概念	通俗比喻	核心要点
Token 预测	逐字填空	模型通过预测"下一个最可能的词"来生成文本
Self-Attention	魔法积木块	让模型理解词与词之间的关联
Multi-Head Attention	分工小工人	多个"专家"从不同角度同时分析
Positional Encoding	顺序贴纸	让模型理解词语的先后顺序
RAG	开卷考试	先检索知识库，再生成回答
AI 幻觉	自信的鹦鹉	模型可能编造看似合理的错误信息

理解了这些原理，你就不会再把 AI 当作"无所不知的神谕"，而是将它视为一个强大但需要监督的助手——它能帮你高效完成任务，但最终的判断权始终在你手中。

□ 术语卡片

词嵌入（Word Embedding）：将文字转换为计算机能处理的数字向量的技术。语义相近的词在向量空间中距离更近，例如"国王"和"王后"的向量距离，小于"国王"和"苹果"的距离。

RLHF（基于人类反馈的强化学习）：训练大模型的关键技术之一。人类标注员对模型的多个回答进行排序打分，模型据此学习"什么样的回答更好"，从而生成更符合人类期望的内容。

思维链（Chain of Thought, CoT）：一种提示技巧，要求模型在给出最终答案前，先展示推理过程。类似于数学考试中的"写出解题步骤"，能显著提升模型在复杂推理任务上的表现。

MoE（混合专家模型）：一种模型架构设计，将一个大模型拆分为多个"专家"子网络，每次只激活其中一部分来处理特定任务，从而在保持强大能力的同时降低计算成本。

1.3 大模型是怎么"思考"的

1.3 大模型是怎么"思考"的

一、Token 预测：逐字"猜"出答案

二、Transformer：一座"超级积木工厂"

部件一：魔法积木块——自注意力机制（Self-Attention）

部件二：分工小工人——多头注意力（Multi-Head Attention）

部件三：顺序贴纸——位置编码（Positional Encoding）

三、RAG：给 AI 一场"开卷考试"

四、AI 幻觉："自信的鹦鹉"

五、大模型是怎么"学习"的：从上学到实习

本节小结

results matching ""

No results matching ""