第七章 智能体搭建——定制专属 AI 助手

本章摘要: 如果说 ChatGPT 是一个”万能博士”,那么 AI Agent(智能体)就是一个”全能管家”。它不仅能陪你聊天,还能帮你查天气、订机票、写日报、画海报。本章将带领读者进入零代码开发的世界,使用扣子(Coze)等平台,亲手搭建一个能听懂指令、会调用工具、有长期记忆的专属 AI 助手。

📌 课时说明:本章为 48 学时方案 的核心内容。32 学时方案可跳过本章,或仅学习 7.1 节(Agent 基本概念)作为拓展阅读。

知识图谱

第7章知识图谱

导言:从”对话”到”做事”

前面几章中,我们一直在使用现成的 AI 工具——DeepSeek 帮忙写文案,即梦 AI 帮忙画图,剪映 AI 帮忙剪视频。但有没有想过:能不能把这些能力组合起来,打造一个专属的 AI 助手?

目前的 AI 大多停留在“对话框”里:你问它,它答你。但真正的 AI 助手应该能“走出对话框”去办事——“帮我盯着明天的天气,如果下雨就提醒我带伞”、“每天早上 8 点把最新的科技新闻总结发给我”、“读完这篇 50 页的报告,把重点发到我的邮箱”。要实现这些,单纯的大模型是不够的,我们需要给它装上“手脚”(插件)和“大脑”(工作流)。这就是 AI Agent

本章将从 Agent 的基本原理讲起,通过扣子(Coze)平台的实操,带领读者亲手搭建一个能感知、能思考、能行动的智能体。

学习目标

完成本章学习后,读者将能够:

  1. 定义 AI Agent 的四大核心要素(感知、规划、行动、记忆);
  2. 操作 Coze(扣子)平台,配置大模型、插件(Plugin)和知识库(Knowledge Base);
  3. 设计 线性工作流(Workflow),实现”用户输入 → 搜索 → 总结 → 输出”的自动化闭环;
  4. 构建 一个具有实际功能的智能体(如”校园活动策划助手”或”每日简报机器人”)并发布到飞书/微信;
  5. 理解 神经网络(CNN/RNN)的基本原理(进阶选修)。

7.1 什么是 AI Agent

如果说 ChatGPT 是一个”问一句答一句”的助手,那么 AI Agent 就是一个能”自己想、自己干”的员工。

一、从”对话”到”行动”:为什么需要 Agent

在前面的章节中,我们已经学会了用 AI 完成各种任务——写文案、画图、做视频。但可能会注意到一个问题:每次都需要手动操作。写完文案要手动复制到排版工具,生成图片要手动下载再上传,做视频要在多个工具之间来回切换。

能不能让 AI 自己串联这些步骤,一次性完成整个任务?这就是 AI Agent 要解决的问题。

打个比方:普通的 AI 对话像是一个”只会接电话的前台”——问什么它答什么,但不会主动做事。而 AI Agent 更像是一个”王牌业务员”——告诉它目标,它会自己拆解任务、调用资源、逐步执行,直到完成。这个”王牌业务员”不仅能听懂需求,还能主动搜集信息、制定方案、协调资源,甚至在遇到问题时自己调整策略。

用一个公式来概括:

AI Agent = 大模型 + 记忆 + 主动规划 + 工具使用

大模型赋予 Agent “思考”的能力,记忆让它能积累经验,主动规划让它能拆解复杂任务,工具使用让它能与外部世界交互。四者缺一不可——缺少任何一项,Agent 就退化为普通的对话式 AI。

二、Agent 的核心要素

AI Agent(智能体)是一种能够自主完成任务的 AI 系统。与普通的对话式 AI 不同,Agent 具备四个核心能力,构成”感知—规划—行动—记忆”的闭环:

感知(Perception)→ 规划(Planning)→ 行动(Action)→ 记忆(Memory)
         ↑                                                    |
         └────────────────── 反馈循环 ──────────────────────────┘

表7-1 AI Agent的四项核心能力

能力 含义 类比
感知 接收外部信息(用户输入、网页内容、数据库数据) 眼睛和耳朵
规划 将复杂任务拆解为多个步骤,制定执行计划 大脑的思考
行动 调用工具完成具体操作(搜索、计算、生成内容) 手和脚
记忆 存储历史对话和知识,供后续任务参考 笔记本

其中,“规划”环节是 Agent 区别于普通 AI 的关键。Agent 采用的规划方法之一叫做 ReAct(Reasoning and Acting),即”推理与行动”交替进行。它的工作方式是:先推理当前应该做什么(Reason),然后执行具体操作(Act),再根据执行结果继续推理下一步。例如:

用户:帮我查一下明天南京的天气,如果下雨就提醒我带伞。

Agent 的 ReAct 过程:
  思考:用户需要明天南京的天气信息,我需要调用天气查询工具。
  行动:调用天气插件,查询"南京 明天"。
  观察:结果显示明天小雨,气温 12-18°C。
  思考:天气预报显示有雨,我需要提醒用户带伞。
  行动:生成回复——"明天南京小雨,12-18°C,建议带伞出门。"

这种”想一步、做一步、看一步”的模式,让 Agent 能够灵活应对复杂和动态变化的任务,而不是像传统程序那样只能按预设的固定流程执行。

思辨时刻:当每个人都有 10 个”数字分身”

Agent 的英文词根”Agency”意为”代理权”——Agent 说白了就是你在数字世界里的代理人,替你执行你定义的任务。试想:如果未来每个人都拥有 10 个 Agent,分别帮你处理邮件、管理日程、整理笔记、监控新闻……当这些重复性脑力劳动被接管后,人类应该把省下来的时间花在哪里?是创造、社交、思考,还是更深的无聊?这个问题没有标准答案,但值得在学习搭建 Agent 之前认真想一想。

Agent 还具备四个关键特性:

表7-2 AI Agent的四个关键特性

特性 含义 举例
自主性 无需人类时刻干预,能根据目标自主调节行为 自动完成多步骤任务
反应性 能感知环境变化并做出实时响应 检测到新邮件后自动处理
社会性 能与其他 Agent 或人类进行协作交互 多个 Agent 分工合作
进化性 在交互中逐步适应环境,积累经验 越用越”懂”用户的偏好

普通 AI 对话 vs Agent 的区别:

表7-3 普通AI对话与AI Agent模式对比

维度 普通 AI 对话(Copilot 模式) AI Agent(自主模式)
交互方式 用户指令驱动,一问一答 目标驱动,自主规划执行
任务复杂度 单步任务(写一段文案) 多步任务(调研+写作+排版+发布)
工具使用 不调用外部工具 主动调用搜索、数据库、API 等
记忆能力 仅限当前对话上下文 具备长期记忆,跨对话积累经验
角色定位 “副驾驶”——辅助完成任务 “驾驶员”——定好目标,由它来执行

一个具体的对比:

表7-4 具体场景下普通AI与Agent的差异

场景 普通 AI 对话 AI Agent
“帮我写一篇推文” 直接生成一篇推文 先搜索热点话题,分析目标受众,生成初稿,自动配图,排版后发布
“分析这份数据” 给出文字分析 读取数据文件,清洗异常值,生成图表,撰写报告,发送邮件

三、扣子(Coze)平台介绍

理解了 Agent 的核心概念后,下一个问题是:普通人如何动手搭建一个 Agent?

也许你会想:直接在 ChatGPT 或 DeepSeek 里写一段提示词,让它”扮演”一个 Agent 不就行了?问题在于,普通对话工具缺少 Agent 所需的三样东西:工具调用(它不能帮你搜索网页、读取文件、发送消息)、工作流编排(它不能把多个步骤串成自动化流程)、持久记忆(关掉对话窗口,它就什么都忘了)。要搭建一个真正能”自己干活”的 Agent,需要一个专门的平台来提供这些能力。

好消息是,不需要写代码。目前已有多个”零代码”Agent 搭建平台,通过拖拽和配置就能创建自己的智能体。本教材选用扣子(Coze)作为实操平台。

2025—2026 年,Agent 能力迎来爆发:OpenAI 推出了 Operator(能自主操作浏览器完成网购、订票等任务);Anthropic 的 Claude 实现了 Computer Use(直接操控电脑桌面);Google 的 Project Mariner 可以在网页中自主导航。这些进展表明,Agent 正在从”对话助手”进化为”数字员工”——它们不仅能思考,还能像人一样操作软件界面。

扣子(Coze)是字节跳动推出的 AI Agent 搭建平台,支持零代码创建智能体。2025 年初,扣子发布了 2.0 版本,从”配置对话机器人”升级为”技能驱动的智能体平台”,核心理念从”训练 AI”转变为”让 AI 自主成长”。

扣子平台的核心组件:

表7-5 扣子平台核心组件介绍

组件 功能 类比
人设与提示词(Persona) 定义 Agent 的角色、性格和行为规则 岗位说明书
模型(Model) 选择驱动 Agent 的大模型(豆包、DeepSeek 等) 大脑
工作流(Workflow) 可视化编排任务的执行步骤和流程 流水线
知识库(Knowledge Base) 存储专属文档,供 Agent 检索参考 资料柜
插件(Plugins) 扩展 Agent 的能力(搜索、读取网页等) 工具箱
记忆(Memory) 短期对话上下文 + 长期跨对话记忆 笔记本

创建 Agent 的基本流程:

  1. 访问 coze.cn,注册并登录;
  2. 点击”+“按钮,选择”创建智能体”;
  3. 选择创建方式:
    • 手动配置:自行定义人设、模型、工具等所有细节;
    • AI 生成:输入一段需求描述(如”帮我创建一个校园活动策划助手”),平台自动生成 Agent 配置;
  4. 进入编排区,配置六大模块:模型选择、插件、工作流、知识库、记忆、对话体验;
  5. 在右侧预览与调试面板中实时测试对话效果;
  6. 点击”发布”,可部署到飞书、微信公众号、抖音、网页等渠道。

提示:对于初学者,建议先用”AI 生成”方式快速创建一个 Agent 体验效果,再切换到”手动配置”模式深入学习每个组件的作用。

四、从”用工具”到”造工具”的思维跃迁

搭建 Agent 的过程,本质上是一次”知识外化”——把你脑中解决问题的经验,拆解成机器能执行的标准作业程序(SOP)。当你能把”策划一次校园活动”这样模糊的任务,拆解为”分析需求→搜索案例→生成方案→检查预算”的清晰步骤时,说明你已经真正掌握了这项任务的逻辑。从这个角度看,搭建 Agent 是对逻辑拆解能力的最好训练——Agent 只是副产品,思维的清晰化才是真正的收获。

具体来说,这个过程包含四个环节:

  1. 明确需求:这个 Agent 要解决什么问题?目标用户是谁?
  2. 设计流程:任务应该分几步完成?每步需要什么输入和输出?
  3. 选择工具:需要调用哪些插件?是否需要知识库?
  4. 测试迭代:实际对话中是否符合预期?哪里需要优化?

这种”需求分析 → 流程设计 → 实现 → 测试”的思维方式,不仅适用于 AI Agent 搭建,也是软件开发和项目管理的通用方法论。

术语卡片 > Agent(智能体):能够自主感知环境、制定计划、执行行动的 AI 系统,区别于被动应答的对话式 AI。 > 工作流(Workflow):将复杂任务拆解为多个有序步骤的流程图,每个步骤称为一个”节点”。 > 知识库(Knowledge Base):Agent 的专属”资料库”,上传文档后 Agent 可以从中检索信息来回答问题。 > RAG 的实践意义:1.3 节介绍的 RAG 技术在 Agent 中的具体应用——让 Agent 基于上传的文档回答问题,而非仅依赖训练数据。

7.2 工作流设计实战

工作流是 Agent 的”骨架”——它决定了 Agent 接到任务后,按什么顺序、调用什么工具、如何一步步完成任务。

一、工作流的基本结构

一个典型的扣子工作流由以下节点组成:

开始节点 → 大模型节点 → 插件节点 → 输出节点

表7-7 扣子工作流节点类型说明

节点类型 功能 示例
开始节点 接收用户输入,定义输入变量 接收用户输入的活动主题
大模型节点 调用 AI 大模型进行理解、生成、推理 根据主题生成策划方案
插件节点 调用外部工具扩展能力 用 LinkReader 读取网页内容
条件节点 根据条件分支执行不同路径 判断活动类型选择不同模板
输出节点 将结果返回给用户 输出完整的策划方案

工作流的设计遵循一个基本原则:将复杂任务拆解为若干个明确的步骤,每个步骤由最合适的节点类型来执行。 这与软件工程中的”模块化设计”思想一脉相承——每个节点只负责一件事,节点之间通过变量传递数据。

工作流设计的三个要点:

  1. 先画后建:在打开电脑之前,先在纸上用箭头画出逻辑流程图——“输入什么→经过哪些步骤→输出什么→如果出错怎么办”。脑中有逻辑,手中才有工具。
  2. 合理拆分粒度:步骤太粗,单个节点负担过重,容易出错;步骤太细,节点过多,维护困难。一般建议每个大模型节点只承担一个明确的任务。
  3. 预设异常处理:用户输入不完整怎么办?插件调用失败怎么办?大模型生成的答案逻辑不通怎么办?好的工作流应该包含条件判断节点来处理这些边界情况。这种”容错设计”是系统思维的核心素养——真实世界里,任何环节都可能出错,提前想到并设计应对方案,才是稳健系统的标志。

二、知识库构建

知识库让 Agent 拥有”专属记忆”,能够基于上传的文档来回答问题。这就是 1.3 节介绍的 RAG 技术的实际应用——Agent 不再只依赖训练数据,而是能从提供的资料中检索信息。

为什么需要知识库? 假设要搭建一个”校规问答助手”。如果不配置知识库,Agent 只能根据通用知识回答,很可能给出错误的校规信息。配置了知识库后,Agent 会先从上传的学生手册中检索相关内容,再基于检索结果生成回答——准确率大幅提升。

构建步骤:

  1. 在 Agent 编排区中,找到”知识库”模块,点击”+“新建知识库;
  2. 选择知识类型:文本(PDF、Word、TXT 等文档)、表格(Excel 等结构化数据)或图片(PNG、JPG 等);
  3. 上传文档,填写知识库名称和描述;
  4. 选择分段策略——系统会自动将文档切分为若干段落,用于后续检索;
  5. 等待处理完成后,点击”添加到智能体”完成关联。

信源质量决定 Agent 的智力上限:知识库不是”上传越多越好”。如果塞进去的文档本身就包含错误信息甚至谣言,Agent 会把这些错误当作”权威知识”来引用——垃圾进,垃圾出。在构建知识库时,要像图书馆采购员一样审慎:来源是否可靠?信息是否过时?是否有相互矛盾的内容?培养识别”优质信源”的意识,比学会上传文档重要得多。

知识库的适用场景:

表7-8 知识库适用场景

场景 上传内容 效果
校规问答助手 学生手册、校规校纪文件 Agent 能准确回答校规相关问题
课程答疑助手 教材章节、课件 PPT Agent 基于教材内容回答学生提问
产品客服 产品说明书、FAQ 文档 Agent 能回答产品使用问题

三、实战:搭建”校园活动策划助手”

下面通过一个完整案例,演示从零搭建 Agent 的全过程。

步骤 1:明确需求

目标:输入活动主题和基本要求,自动生成完整的活动策划方案;

输出:包含活动目标、时间安排、预算、宣传方案、应急预案的结构化文档。

步骤 2:在扣子平台创建 Agent 并搭建工作流

  1. 登录 coze.cn,点击”+“→”创建智能体”,命名为”校园活动策划助手”;
  2. 在人设区输入角色描述:“你是一位经验丰富的校园活动策划师,擅长根据主题和预算生成完整的策划方案。”;
  3. 在编排区点击”工作流”→“新建工作流”,进入可视化编辑器;
  4. 按以下顺序拖入节点并连线:
开始节点 → 大模型节点 1(分析需求)→ 插件节点(搜索案例)
→ 大模型节点 2(生成方案)→ 结束节点

步骤 3:配置各节点

开始节点——定义输入变量:

表7-9 活动策划助手开始节点输入变量

变量名 类型 说明
topic 文本 活动主题
scale 文本 活动规模(小型/中型/大型)
budget 文本 预算范围

大模型节点 2——提示词配置:

你是一位经验丰富的校园活动策划师。
请根据以下信息生成一份完整的活动策划方案:

活动主题:{{topic}}
活动规模:{{scale}}
预算范围:{{budget}}
参考案例:{{search_result}}

输出格式:
1. 活动概述(目标、主题、时间、地点)
2. 活动流程(时间表)
3. 预算明细(表格)
4. 宣传方案
5. 应急预案

步骤 4:测试与迭代

发布前在预览区进行充分测试:

测试不同类型的活动主题,检查输出质量;

测试边界情况(如预算极低、主题模糊),检查 Agent 的应对能力;

根据测试结果调整提示词和工作流。

主线任务:搭建”校园活动策划助手”智能体

在扣子平台上完成以下任务: 1. 创建一个智能体,设定角色为”校园活动策划师”; 2. 搭建包含至少 3 个节点的工作流; 3. 创建知识库,上传 2—3 份活动策划模板或案例; 4. 测试至少 3 种不同的活动主题,记录输出效果和优化过程。

7.3 进阶案例与自动化

一个真正实用的 Agent,不仅能”被动回答”,还能”主动工作”——定时执行任务、自动推送结果、甚至与其他 Agent 协作完成复杂项目。

一、多 Agent 协作:从”单兵作战”到”团队协同”

在前两节中,我们搭建的都是单个 Agent。但现实中的复杂任务,往往需要多个具备不同专长的 Agent 协作完成——就像一家公司里有销售、客服、技术等不同岗位的员工。

多 Agent 协作有两种基本模式:

表7-10 多Agent协作模式对比

模式 原理 适用场景 类比
串联(工作流) 像流水线,任务按固定顺序在 Agent 之间传递 流程固定的任务(如:采集→分析→生成报告) 工厂流水线
并联(多 Agent) 像专家团,主 Agent 根据需要将任务分派给专业 Agent 多场景切换的任务(如:旅行规划中切换到记账) 医院分诊台

串联模式示例:一个”论文辅助 Agent”可以由三个子 Agent 串联组成——“文献检索 Agent”负责搜索相关论文,“摘要提取 Agent”负责提炼核心观点,“综述生成 Agent”负责整合成一篇文献综述。每个 Agent 专注于自己擅长的环节,最终输出质量远高于单个 Agent 独立完成。

并联模式示例:一个”校园生活助手”可以包含多个专业 Agent——用户问课程安排时,主 Agent 将对话转交给”课表查询 Agent”;问食堂菜单时,转交给”餐饮推荐 Agent”;问社团活动时,转交给”活动信息 Agent”。用户始终在同一个对话窗口中,但背后是不同的专业 Agent 在响应。

二、案例:每日 AI 简报助手

假设希望每天早上 8 点自动收到一份 AI 领域的新闻简报,无需手动操作。这就需要一个具备”定时触发”能力的 Agent。

为什么这个案例值得学? 它展示了 Agent 最大的价值——自动化。一旦搭建完成,这个 Agent 会每天自动运行,不需要做任何操作就能收到最新的行业资讯。这种”设置一次,持续受益”的模式,是 Agent 区别于普通 AI 对话的关键。

工作流设计:

定时触发(每天 8:00)
    ↓
插件节点:搜索最近 24 小时的 AI 新闻
    ↓
大模型节点:筛选 5 条最重要的新闻,撰写摘要
    ↓
大模型节点:生成一份格式化的简报
    ↓
插件节点:推送到飞书/微信群

大模型节点提示词:

以下是最近 24 小时关于人工智能的新闻搜索结果。
请完成:
1. 从中筛选最重要的 5 条新闻;
2. 每条新闻用 1 句话概括核心内容;
3. 在末尾附上一句"今日观点",点评当天最值得关注的趋势。
输出格式为 Markdown。

三、触发器配置

触发器是让 Agent 自动运行的”闹钟”。扣子平台支持以下触发方式:

表7-11 扣子平台触发器类型

触发类型 说明 适用场景
定时触发 按设定的时间周期自动执行 每日简报、周报生成
消息触发 收到特定消息时执行 客服自动回复
Webhook 触发 接收外部系统的调用信号 与其他平台联动

定时触发的配置步骤:

  1. 在工作流编辑器中,将”开始节点”替换为”定时触发”节点;
  2. 设置执行频率(每天/每周/自定义 Cron 表达式);
  3. 设置执行时间(如每天 08:00);
  4. 保存并发布工作流。

自动化伦理:谁为 Agent 的行为负责? 当 Agent 可以定时自动发消息、自动执行任务时,它的影响会被放大。如果你的自动化 Agent 因为 bug 给群里发送了错误信息,或者因为提示词设计不当给用户造成了困扰,责任归谁?答案很明确:人是 Agent 的最终责任主体。Agent 没有法律人格,它的每一个行为都源于你的设计和授权。“自动化”不等于”免责”——这是每一个 Agent 搭建者必须建立的公民意识。

实操演示:在扣子平台配置每日简报的完整流程

第 1 步:登录扣子平台(coze.cn),点击”+“→”创建智能体”,命名为”AI 简报助手”,描述填写”每天自动生成 AI 领域新闻简报”。

第 2 步:在编排区点击”工作流”→“新建工作流”,进入可视化编辑器。按以下顺序拖入节点并连线:

开始节点 → 插件节点(必应搜索)→ 大模型节点 → 结束节点

第 3 步:配置开始节点——如需定时触发,可将触发方式设置为”定时触发”,执行频率选择”每天”,执行时间设为”08:00”。

第 4 步:配置插件节点——在插件市场中添加”必应搜索”插件,搜索关键词设置为”AI 人工智能 最新进展”,搜索结果数量设为 10。

第 5 步:配置大模型节点——将搜索结果作为输入变量,提示词参考上文的模板。

第 6 步:点击右上角”试运行”,检查输出是否符合预期。确认无误后返回智能体页面,点击”发布”。

四、教育场景中的 Agent 应用

前面介绍的定时触发、消息触发等自动化能力,让 Agent 能够在无人值守的情况下持续工作。接下来,我们把视角从技术配置转向实际应用——看看 Agent 在教育领域能发挥怎样的作用。

Agent 在教育领域有着广阔的应用前景。以下是一个来自实际教学实践的案例,展示了 Agent 如何解决传统教学中的痛点。

案例:小学生英语口语陪练 Agent

许多小学生在面对真人外教时容易紧张、不敢开口,而家庭请外教的成本又很高。一个设计良好的英语口语陪练 Agent 可以有效解决这两个问题。

表7-12 英语口语陪练Agent设计方案

设计要素 具体配置
人设 22 岁英国大学毕业生,性格热情耐心,喜欢用幽默的方式鼓励学生
主动发问 不等学生开口,主动发起话题(“What did you have for breakfast today?”)
纠错机制 学生说错语法时温和纠正并讲解(“你用了’I will washed’,应该是’wash’哦”)
词汇控制 将对话词汇难度控制在《新概念英语 1》范围内
记忆功能 用数据库记录学生已掌握的单词,避免重复教学,逐步引入新词

这个案例体现了 Agent 的三个核心优势:个性化(根据每个学生的水平调整难度)、低压力(学生面对 AI 不会紧张)、持续可用(随时随地练习,不受时间和地点限制)。

佐治亚理工学院的”Jill Watson”助教也是一个经典案例:教授在网络课程中部署了一个 AI 助教,负责回答学生关于课程安排、作业要求等常规问题。由于回复准确且语气自然,学生在很长一段时间内并未察觉它是机器人。这说明,对于结构化、重复性的教学事务,Agent 已经能够达到接近人类的服务水平。

五、更多 Agent 创意

表7-13 本节涉及的主要 Agent 示例

Agent 名称 功能描述 核心组件
元宵节手抄报生成器 输入主题,生成手抄报的文字内容和版面建议 大模型 + 知识库(节日素材)
调研诊断报告生成器 上传调研数据,自动生成分析报告 大模型 + 数据处理插件
课程答疑助手 基于教材内容回答学生提问 大模型 + 知识库(教材)
面试模拟教练 模拟面试官提问并给出反馈 大模型 + 角色设定
高情商对话助手 输入一段愤怒的消息,转化为礼貌且有力的沟通文字 大模型 + 角色设定
苏格拉底式助教 不直接给答案,通过提问引导用户自主思考 大模型 + 提示词工程
长辈用机助手 将复杂新闻或政策文件转化为通俗易懂的”大白话” 大模型 + 知识库 + TTS 插件

拓展任务:搭建一个自己的 Agent

从以上创意中选择一个(或自拟主题),在扣子平台上搭建并测试。要求: 1. 包含至少一个工作流; 2. 使用知识库或插件中的至少一项; 3. 记录搭建过程和测试结果。

阅读材料:京东 JIMI 智能客服——从关键词匹配到情感分析的进化

京东的智能客服 JIMI 经历了三代技术演进:第一代基于关键词匹配,用户说”退货”就弹出退货流程,机械且死板;第二代引入自然语言理解(NLU),能识别”我买的东西不想要了”也是退货意图;第三代加入情感分析,能感知用户的情绪状态——当检测到用户愤怒时,会自动转接人工客服,并提醒客服人员注意安抚。

JIMI 的进化史,就是 AI Agent 从”规则驱动”到”智能驱动”的缩影。今天我们在扣子平台上搭建的 Agent,正处于这一进化链条的前端——虽然还比较简单,但核心思路是一致的:感知用户需求、调用合适的工具、给出有用的回应。

7.4 深度学习基础(进阶选修)

本节面向有编程基础和进一步探索兴趣的同学。如果暂时不打算深入技术细节,可以跳过本节。

在前三节中,我们已经学会了在扣子平台上搭建 Agent——拖拽节点、配置提示词、设置触发器。这些操作的背后,是大模型在驱动 Agent 的”思考”能力。本节将走进大模型的技术基础——深度学习,理解 Agent 之所以”聪明”的底层原因。

一、从机器学习到深度学习

6.3 节中我们用 scikit-learn 实现了线性回归——这是经典机器学习的范畴。深度学习则更进一步,使用神经网络来处理更复杂的任务。

为什么需要深度学习?经典机器学习在处理表格数据(如房价预测)时表现出色,但面对图像、语音、自然语言等非结构化数据时,往往力不从心。原因在于:这类数据的特征极其复杂,人工设计特征的方式难以穷尽所有可能。深度学习的突破在于——让模型自己学习特征。

核心区别:

表7-14 经典机器学习与深度学习对比

特征 经典机器学习 深度学习
特征提取 需要人工设计特征 自动学习特征
模型结构 相对简单(线性回归、决策树) 多层神经网络
数据需求 较少数据即可 通常需要大量数据
计算资源 普通电脑即可 通常需要 GPU 加速
典型应用 表格数据分析、简单分类 图像识别、语音识别、文本生成

二、神经网络的基本原理

神经网络的灵感来源于人脑的神经元连接方式。一个最简单的神经网络包含三层:

输入层 → 隐藏层 → 输出层

输入层:接收原始数据(如图片的像素值);

隐藏层:对数据进行变换和特征提取(可以有多层,层数越多越”深”);

输出层:给出最终结果(如”这是一只猫”的概率)。

每一层由若干”神经元”组成,神经元之间通过”权重”连接。训练的过程就是不断调整这些权重,使模型的预测结果越来越准确。之所以叫”深度”学习,正是因为隐藏层可以有很多层——现代大模型的神经网络往往有数十甚至上百层,层层叠加使模型能够捕捉从简单到复杂的多层次特征。

训练过程的直觉理解:

想象一个人在学投篮。每次投篮后,观察球偏了多少(这叫”损失”),然后调整出手角度和力度(这叫”更新权重”)。经过成百上千次练习,命中率越来越高。神经网络的训练过程与此类似:

输入数据 → 模型预测 → 计算误差(损失函数)
→ 反向传播误差 → 调整权重 → 重复直到误差足够小

这个过程叫反向传播(Backpropagation),是深度学习最核心的训练算法。

推荐使用 Jupyter 官方在线环境(jupyter.org/try-jupyter),无需在本地安装任何软件,打开浏览器即可编写和运行 Python 代码(详见 6.3 节的环境准备说明)。

三、用 Keras 构建简单神经网络

以下用一个手写数字识别的例子,演示如何用 TensorFlow/Keras 构建神经网络。

import tensorflow as tf
from tensorflow import keras

## 加载 MNIST 手写数字数据集
(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()

## 数据预处理:归一化到 0-1 范围
x_train = x_train / 255.0
x_test = x_test / 255.0

## 构建模型
model = keras.Sequential([
    keras.layers.Flatten(input_shape=(28, 28)),  # 将 28x28 图片展平为 784 维向量
    keras.layers.Dense(128, activation='relu'),   # 隐藏层:128 个神经元
    keras.layers.Dense(10, activation='softmax')  # 输出层:10 个类别(0-9)
])

## 编译模型
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

## 训练模型
model.fit(x_train, y_train, epochs=5)

## 评估模型
test_loss, test_acc = model.evaluate(x_test, y_test)
print(f"测试集准确率:{test_acc:.2%}")

代码解读:

  1. MNIST 数据集包含 6 万张手写数字图片(28×28 像素),是深度学习的”Hello World”;
  2. Flatten 层将二维图片展平为一维向量;
  3. Dense(128) 是一个全连接隐藏层,relu 是激活函数;
  4. Dense(10, softmax) 输出 10 个概率值,对应数字 0—9;
  5. 训练 5 轮后,准确率通常可达 97% 以上。

四、卷积神经网络(CNN)简介

对于图像识别任务,卷积神经网络(CNN)比普通神经网络更加高效。CNN 的核心思想是:用”卷积核”在图片上滑动扫描,自动提取边缘、纹理、形状等特征。

输入图片 → 卷积层(提取特征)→ 池化层(压缩信息)→ 全连接层 → 输出

CNN 的工作方式类似于人类观察图片的过程:人不会一次性看完整张图片的每个像素,而是先注意到局部的边缘和纹理,再逐步组合成完整的物体。CNN 的卷积层正是模拟了这一过程——底层卷积核识别边缘和颜色,中层组合出纹理和形状,高层识别出完整的物体。

CNN 是计算机视觉领域的基础架构,从人脸识别到自动驾驶,背后都有 CNN 的身影。2012 年,AlexNet(一种 CNN 架构)在 ImageNet 图像识别竞赛中大幅超越传统方法,将错误率从 26% 降至 16%,被视为深度学习革命的起点。此后,CNN 的变体不断涌现——VGG、ResNet、EfficientNet 等,推动图像识别准确率超越了人类水平。

深度学习与 Agent 的关系:本章前三节介绍的 AI Agent,其”大脑”正是基于深度学习技术构建的大语言模型。大语言模型使用的 Transformer 架构(1.3 节已介绍)是深度学习的最新成果之一。理解了神经网络的基本原理,就能更好地理解 Agent 为什么能”理解”自然语言、为什么会产生”幻觉”(8.1 节)、以及为什么需要通过提示词工程来引导它的行为。

进阶挑战:用 Python 复现朴素贝叶斯文本分类

使用 scikit-learn 的朴素贝叶斯分类器,完成一个简单的文本分类任务(如垃圾邮件识别)。要求: 1. 使用 CountVectorizer 将文本转换为特征向量; 2. 使用 MultinomialNB 训练分类模型; 3. 在测试集上评估准确率; 4. 尝试输入自定义文本,观察分类结果。

思辨时刻:当 AI 能自己造 AI——Agent 的能力边界在哪里?

2024 年,多家 AI 公司开始探索让 AI Agent 自主编写代码、自主调试、甚至自主创建新的 Agent。这意味着 AI 正在获得”自我复制”和”自我改进”的能力。

思考以下问题: 1. 如果一个 Agent 能自主创建更强大的 Agent,这个过程是否需要人类监督? 2. Agent 的”自主行动”应该有哪些边界?它能自主发送邮件吗?能自主花钱吗? 3. 当 Agent 犯了错误(如发送了错误的信息),责任应该由谁承担——开发者、使用者,还是 Agent 本身?


本章小结

本章从 AI Agent 的基本原理讲起,通过扣子(Coze)平台的实操,带领读者亲手搭建能感知、能思考、能行动的智能体。Agent 的核心价值在于让 AI 从”对话框”走向”做事”,实现自动化的任务闭环。

小节 核心内容 关键概念
7.1 什么是 AI Agent 定义 Agent 的四大核心要素(感知、规划、行动、记忆),理解其与普通对话 AI 的区别 AI Agent、感知、规划、行动、记忆
7.2 工作流设计实战 在扣子平台上设计线性工作流,配置大模型、插件和知识库,实现自动化闭环 工作流、插件(Plugin)、知识库
7.3 进阶案例与自动化 探索多 Agent 协作与定时触发等高级功能,实现主动工作的智能体 多 Agent 协作、定时触发、自动化
7.4 深度学习基础 理解神经网络(CNN/RNN)的基本原理,为 Agent 的”智能”溯源(进阶选修) CNN、RNN、神经网络

从使用现成工具到搭建专属助手,标志着 AI 应用能力的质的飞跃。第三篇至此完结,下一篇将转向批判性视角,审视 AI 的局限、风险与治理。

第七章 实践与练习

这里的”搭建”不是写代码,而是设计逻辑。逻辑通了,Agent 就活了。

一、选择题

  1. AI Agent 与普通 AI 对话的核心区别是:
    • A. Agent 的回答更准确
    • B. Agent 能自主规划任务、调用工具并执行多步操作
    • C. Agent 只能处理文字任务
    • D. Agent 不需要提示词
  2. 在扣子平台中,知识库的作用是:
    • A. 存储 Agent 的对话历史
    • B. 让 Agent 基于上传的文档检索信息来回答问题
    • C. 提升 Agent 的运行速度
    • D. 自动生成工作流
  3. 以下哪种触发方式适合”每天早上自动生成新闻简报”的场景?
    • A. 消息触发
    • B. Webhook 触发
    • C. 定时触发
    • D. 手动触发
  4. 神经网络训练过程中,“反向传播”的作用是:
    • A. 将数据从输入层传递到输出层
    • B. 根据预测误差反向调整各层的权重参数
    • C. 将训练数据分成多个批次
    • D. 自动选择最优的网络结构

二、简答题

  1. 请用自己的话解释 AI Agent 的四个核心能力(感知、规划、行动、记忆),并举一个生活中的例子说明 Agent 如何串联这四个能力完成任务。

  2. 知识库在 Agent 中扮演什么角色?如果不配置知识库,Agent 回答专业问题时可能出现什么问题?

三、实操题

  1. Agent 搭建:在扣子平台上搭建一个”课程答疑助手”。要求:上传至少一份课程资料到知识库,设计包含大模型节点的工作流,测试至少 5 个问题并记录回答质量。

  2. 工作流设计:为”期末复习计划生成器”设计一个工作流草图(可手绘或用文字描述)。要求:包含至少 3 个节点,说明每个节点的输入、处理逻辑和输出。

  3. (进阶)神经网络实验:在 Jupyter 在线环境(jupyter.org/try-jupyter)中运行 7.4 节的 MNIST 手写数字识别代码,观察训练过程中准确率的变化。尝试修改隐藏层神经元数量(如从 128 改为 64 或 256),记录对准确率的影响。

参考答案(选择题):1-B 2-B 3-C 4-B

四、进阶挑战:全能导师 Agent

背景:你想自学 Python,但不知道从哪开始。

任务:搭建一个”Python 学习导师” Agent。

工作流设计

  1. 评估:先问用户目前的水平(小白/有基础)。
  2. 规划:调用搜索插件,找最适合的教程。
  3. 出题:每天出一道练习题。
  4. 批改:用户提交代码,LLM 负责运行(代码解释器)并给出反馈。

思考:这个 Agent 能否替代真正的老师?它缺什么?(情感支持?监督?)

五、延伸阅读

  1. 文档:Coze 官方帮助文档 —— 最好的说明书
  2. 论文Generative Agents: Interactive Simulacra of Human Behavior —— 斯坦福神作,25 个 AI 智能体在虚拟小镇里生活、社交