1.3 大模型是怎么"思考"的

当你向 ChatGPT 提问时,屏幕上的文字一个接一个地蹦出来——它究竟在做什么?本节将用通俗的比喻,揭开大语言模型工作原理的面纱。

一、Token 预测:逐字"猜"出答案

大语言模型(Large Language Model, LLM)的核心工作方式,可以用一个词来概括:预测

具体来说,当你输入"今天天气真"这四个字时,模型会根据它在训练中学到的语言规律,计算下一个字最可能是什么。它可能给出这样的概率分布:

  • "好" → 62%
  • "不" → 18%
  • "热" → 12%
  • 其他 → 8%

模型选择概率最高的"好"作为输出,然后把"今天天气真好"作为新的输入,继续预测下一个字……如此循环,直到生成完整的回答。

这里有一个关键概念:Token。模型并不是以"字"为单位处理文本的,而是以 Token 为单位。一个 Token 可能是一个汉字、一个英文单词,也可能是一个词的一部分。例如,"人工智能"可能被拆分为"人工"和"智能"两个 Token。

但模型看到的并不是文字本身,而是一串"数字密码"——这就是词嵌入(Word Embedding)。《大白话人工智能大模型》将其比喻为"带属性的乐高积木"

  • "猫"和"狗"的积木因为都有"动物""毛绒绒"的属性,所以能吸在一起(在向量空间中距离近);
  • "苹果"的积木因为属性不同,会排斥它们(距离远);
  • 机器看到的不是文字,而是一串数字向量,如 [0.9, 0.8, 0.1...]。

模型在预测下一个词时,还有不同的"策略"可以选择:

  • Top-k 采样("糖果抽奖箱"):只从概率最高的 K 个候选词中随机选择,防止选到奇怪的词;
  • Top-p 采样("神奇扭蛋机"):累积概率达到某个阈值就停止选择,是一个动态筛选过程;
  • 温度参数("想象力开关"):调低温度像严谨的科学家(适合写报告),调高温度像疯狂的艺术家(适合编故事)。

📷 【截图位置】:DeepSeek 对话界面中"温度"参数设置的截图,展示不同温度值对输出风格的影响(建议尺寸:宽度占满页面)

术语卡片

Token:大语言模型处理文本的基本单位。模型将输入文本切分为 Token 序列进行计算。中文通常一个字对应 1—2 个 Token,英文一个单词对应 1—3 个 Token。模型的"上下文窗口"(如 128K Token)决定了它一次能处理的文本长度上限。

二、Transformer:一座"超级积木工厂"

大语言模型之所以能如此准确地预测下一个词,核心秘密在于一种名为 Transformer 的神经网络架构。它由谷歌团队在 2017 年提出,论文标题是那句著名的 "Attention Is All You Need"(注意力就是你所需要的一切)。

《大白话人工智能大模型》一书用了一个生动的比喻:Transformer 就像一座"超级积木工厂",专门生产会讲故事的机器人。这座工厂有三个核心部件:

部件一:魔法积木块——自注意力机制(Self-Attention)

工厂里有一种"魔法积木块",它拥有两项超能力:

  • "看全局":它能立刻感知到句子中所有词语之间的关系。例如读到"猫追老鼠"时,它知道"猫"和"追"有关(谁在动?),"追"和"老鼠"有关(追什么?)。
  • "记重点":它会自动给重要的词贴上"金色标签",给不太重要的词(如"的""了")贴上"灰色标签"。

用技术语言来说,自注意力机制让模型在处理每一个词时,都能"回头看"整个句子,计算当前词与其他所有词的关联强度。这就是为什么大模型能理解"苹果"在"我吃了一个苹果"和"苹果发布了新手机"中的不同含义——因为它会根据上下文中的其他词来判断"苹果"的意思。

注意力可视化:直观感受 AI 的"目光"

如果我们能"看到"注意力机制的工作过程,会是什么样子?研究者开发了注意力可视化工具,可以用颜色深浅来表示词与词之间的关联强度。以"小猫坐在垫子上,它很舒服"这句话为例:

         小猫  坐在  垫子  上  它   很  舒服
小猫     ████  ██░░  ░░░░  ░  ███  ░░  ██░░
它       ████  ░░░░  ██░░  ░  ███  ░░  ████
舒服     ██░░  ░░░░  ██░░  ░  ███  ██  ████
(████ = 强关联  ██░░ = 中等关联  ░░░░ = 弱关联)

你可以看到:当模型处理"它"这个字时,注意力最强烈地指向了"小猫"——模型"知道""它"指的是小猫。当处理"舒服"时,注意力同时指向"它"和"小猫"——模型理解了是小猫感到舒服。这种"回头看"的能力,正是自注意力机制的精髓。

部件二:分工小工人——多头注意力(Multi-Head Attention)

工厂里不止一个工人在观察,而是有多个小工人同时从不同角度找线索

  • 工人 A 负责找"谁在做什么"(猫 → 追);
  • 工人 B 负责找"动作和谁有关"(追 → 老鼠);
  • 工人 C 负责找"时间地点"(昨天、在花园)。

最后,把所有工人的发现拼在一起,机器人对信息的理解就更加全面。这就是"多头"的含义——多个注意力"头"并行工作,各司其职,避免遗漏重要线索。

部件三:顺序贴纸——位置编码(Positional Encoding)

语言是有顺序的。"猫咬狗"和"狗咬猫"用了完全相同的词,但意思截然不同。工厂通过给每个积木贴上"荧光数字贴纸"来解决这个问题:

  • 给"猫"贴 1 号,"咬"贴 2 号,"狗"贴 3 号;
  • 机器人检查贴纸,就能明白"1 → 2 → 3"的顺序,知道是谁咬了谁。

这种位置编码使用了特殊的数学公式(正弦和余弦函数),就像给数字打上不同颜色的光,让机器人一眼就能识别每个词的位置。

术语卡片

Transformer:2017 年由谷歌提出的神经网络架构,通过自注意力机制实现对序列数据的高效并行处理。它是 GPT、BERT、DeepSeek 等几乎所有主流大语言模型的技术基础。

三、RAG:给 AI 一场"开卷考试"

大模型虽然强大,但有一个天然的短板:它的知识是"冻结"在训练数据中的。如果你问它 2025 年的新闻事件,而它的训练数据截止到 2024 年,它就可能给出过时甚至错误的回答。

为了解决这个问题,工程师们发明了 RAG(Retrieval-Augmented Generation,检索增强生成) 技术。

《大白话人工智能大模型》用了一个贴切的比喻:普通的大模型就像一个"闭卷考试"的学生,只能靠记忆答题;而加了 RAG 的大模型,则像参加"开卷考试"——遇到问题先翻书,再作答。

RAG 的工作流程:

用户提问 → 检索阶段:从外部知识库中搜索相关文档
         → 增强阶段:将检索到的文档片段与用户问题拼接
         → 生成阶段:大模型结合检索结果生成回答

举个例子:当你问"2024 年巴黎奥运会的吉祥物是什么?"

  • 没有 RAG 的模型(闭卷):可能凭记忆猜测"熊猫?"——答错了;
  • 有 RAG 的模型(开卷):先从知识库中检索到相关资料,找到正确答案"弗里吉",再组织语言回答。

RAG 的核心价值在于:不需要重新训练模型(相当于不用重新上学),只需要更换或更新知识库(相当于换一本参考书),就能让模型获得最新、最准确的知识。

术语卡片

RAG(检索增强生成):一种将信息检索与文本生成相结合的技术。模型在生成回答前,先从外部知识库中检索相关信息,再基于检索结果生成更准确的回答。它是当前解决大模型"知识过时"和"事实错误"问题的主流方案。

四、AI 幻觉:"自信的鹦鹉"

在使用 AI 工具时,你可能遇到过这样的情况:AI 一本正经地告诉你一个"事实",但经过核查后发现完全是编造的。这种现象被称为 AI 幻觉(Hallucination)

《大白话人工智能大模型》将这一现象比喻为一只"爱撒谎的鹦鹉"

  • 如果你教鹦鹉"苹果是红色的",它能正确重复;
  • 但如果你问它没学过的问题,比如"恐龙怎么玩手机?",它不会说"我不知道",而是会自信地编造一个答案——因为它的本能就是"说点什么"。

AI 幻觉产生的根本原因:

大语言模型的本质是概率预测——它总是选择"最可能的下一个词",而不是"最正确的下一个词"。当模型遇到训练数据中未充分覆盖的问题时,它会基于统计规律"猜"出一个看似合理但实际错误的答案。就像考试遇到不会的题,硬编一个答案交上去。

如何应对 AI 幻觉:

  1. 多源验证:AI 给出的关键信息,务必通过其他渠道核实;
  2. 溯源查证:要求 AI 提供信息来源,并亲自验证来源的真实性;
  3. 使用 RAG:让 AI 基于可靠的知识库回答,而非纯粹依赖记忆;
  4. 保持警觉:越是流畅、自信的回答,越要警惕其中可能存在的错误。

术语卡片

AI 幻觉(Hallucination):指 AI 模型生成的内容看似合理、表述流畅,但实际上包含事实性错误或完全虚构的信息。这是当前所有大语言模型的共性问题,源于其基于概率生成文本的工作机制。

五、大模型是怎么"学习"的:从上学到实习

大模型的训练过程可以类比为一个人从上学到工作的成长历程:

第一阶段:预训练——"填空游戏"

模型使用海量通用数据(维基百科、新闻、书籍等)进行学习。就像给一个小机器人一本没有答案的厚书,遮住部分字让它猜(例如"_喜欢吃鱼",猜"猫")。猜对了大脑亮灯,猜错了调整参数。经过数万亿次的"填空"练习,模型建立起了一个庞大的"常识电池"。

第二阶段:微调——"学习新技能"

预训练让模型掌握了通用常识,微调则是教它特定的技能。就像把一个懂常识的大学毕业生,专门培训成医生或律师。通过在特定领域的数据上继续训练,模型能在该领域表现得更加专业。

第三阶段:RLHF——"训练小狗"

最后一步是让人类对模型的回答进行打分排序。做对了(回答符合人类价值观)就给奖励,做错了(说脏话、有偏见)就批评。这让 AI 不仅"聪明",而且"懂规矩"。


本节小结

概念 通俗比喻 核心要点
Token 预测 逐字填空 模型通过预测"下一个最可能的词"来生成文本
Self-Attention 魔法积木块 让模型理解词与词之间的关联
Multi-Head Attention 分工小工人 多个"专家"从不同角度同时分析
Positional Encoding 顺序贴纸 让模型理解词语的先后顺序
RAG 开卷考试 先检索知识库,再生成回答
AI 幻觉 自信的鹦鹉 模型可能编造看似合理的错误信息

理解了这些原理,你就不会再把 AI 当作"无所不知的神谕",而是将它视为一个强大但需要监督的助手——它能帮你高效完成任务,但最终的判断权始终在你手中。

术语卡片

词嵌入(Word Embedding):将文字转换为计算机能处理的数字向量的技术。语义相近的词在向量空间中距离更近,例如"国王"和"王后"的向量距离,小于"国王"和"苹果"的距离。

RLHF(基于人类反馈的强化学习):训练大模型的关键技术之一。人类标注员对模型的多个回答进行排序打分,模型据此学习"什么样的回答更好",从而生成更符合人类期望的内容。

思维链(Chain of Thought, CoT):一种提示技巧,要求模型在给出最终答案前,先展示推理过程。类似于数学考试中的"写出解题步骤",能显著提升模型在复杂推理任务上的表现。

MoE(混合专家模型):一种模型架构设计,将一个大模型拆分为多个"专家"子网络,每次只激活其中一部分来处理特定任务,从而在保持强大能力的同时降低计算成本。

results matching ""

    No results matching ""