第七章 智能体搭建——定制专属 AI 助手
本章摘要: 如果说 ChatGPT 是一个”万能博士”,那么 AI Agent(智能体)就是一个”全能管家”。它不仅能陪你聊天,还能帮你查天气、订机票、写日报、画海报。本章将带领读者进入零代码开发的世界,使用扣子(Coze)等平台,亲手搭建一个能听懂指令、会调用工具、有长期记忆的专属 AI 助手。
📌 课时说明:本章为 48 学时方案 的核心内容。32 学时方案可跳过本章,或仅学习 7.1 节(Agent 基本概念)作为拓展阅读。
知识图谱

导言:从”对话”到”做事”
前面几章中,我们一直在使用现成的 AI 工具——DeepSeek 帮忙写文案,即梦 AI 帮忙画图,剪映 AI 帮忙剪视频。但有没有想过:能不能把这些能力组合起来,打造一个专属的 AI 助手?
目前的 AI 大多停留在“对话框”里:你问它,它答你。但真正的 AI 助手应该能“走出对话框”去办事——“帮我盯着明天的天气,如果下雨就提醒我带伞”、“每天早上 8 点把最新的科技新闻总结发给我”、“读完这篇 50 页的报告,把重点发到我的邮箱”。要实现这些,单纯的大模型是不够的,我们需要给它装上“手脚”(插件)和“大脑”(工作流)。这就是 AI Agent。
本章将从 Agent 的基本原理讲起,通过扣子(Coze)平台的实操,带领读者亲手搭建一个能感知、能思考、能行动的智能体。
学习目标
完成本章学习后,读者将能够:
- 定义 AI Agent 的四大核心要素(感知、规划、行动、记忆);
- 操作 Coze(扣子)平台,配置大模型、插件(Plugin)和知识库(Knowledge Base);
- 设计 线性工作流(Workflow),实现”用户输入 → 搜索 → 总结 → 输出”的自动化闭环;
- 构建 一个具有实际功能的智能体(如”校园活动策划助手”或”每日简报机器人”)并发布到飞书/微信;
- 理解 神经网络(CNN/RNN)的基本原理(进阶选修)。
7.1 什么是 AI Agent
如果说 ChatGPT 是一个”问一句答一句”的助手,那么 AI Agent 就是一个能”自己想、自己干”的员工。
一、从”对话”到”行动”:为什么需要 Agent
在前面的章节中,我们已经学会了用 AI 完成各种任务——写文案、画图、做视频。但可能会注意到一个问题:每次都需要手动操作。写完文案要手动复制到排版工具,生成图片要手动下载再上传,做视频要在多个工具之间来回切换。
能不能让 AI 自己串联这些步骤,一次性完成整个任务?这就是 AI Agent 要解决的问题。
打个比方:普通的 AI 对话像是一个”只会接电话的前台”——问什么它答什么,但不会主动做事。而 AI Agent 更像是一个”王牌业务员”——告诉它目标,它会自己拆解任务、调用资源、逐步执行,直到完成。这个”王牌业务员”不仅能听懂需求,还能主动搜集信息、制定方案、协调资源,甚至在遇到问题时自己调整策略。
用一个公式来概括:
AI Agent = 大模型 + 记忆 + 主动规划 + 工具使用
大模型赋予 Agent “思考”的能力,记忆让它能积累经验,主动规划让它能拆解复杂任务,工具使用让它能与外部世界交互。四者缺一不可——缺少任何一项,Agent 就退化为普通的对话式 AI。
二、Agent 的核心要素
AI Agent(智能体)是一种能够自主完成任务的 AI 系统。与普通的对话式 AI 不同,Agent 具备四个核心能力,构成”感知—规划—行动—记忆”的闭环:
感知(Perception)→ 规划(Planning)→ 行动(Action)→ 记忆(Memory)
↑ |
└────────────────── 反馈循环 ──────────────────────────┘
表7-1 AI Agent的四项核心能力
| 能力 | 含义 | 类比 |
|---|---|---|
| 感知 | 接收外部信息(用户输入、网页内容、数据库数据) | 眼睛和耳朵 |
| 规划 | 将复杂任务拆解为多个步骤,制定执行计划 | 大脑的思考 |
| 行动 | 调用工具完成具体操作(搜索、计算、生成内容) | 手和脚 |
| 记忆 | 存储历史对话和知识,供后续任务参考 | 笔记本 |
其中,“规划”环节是 Agent 区别于普通 AI 的关键。Agent 采用的规划方法之一叫做 ReAct(Reasoning and Acting),即”推理与行动”交替进行。它的工作方式是:先推理当前应该做什么(Reason),然后执行具体操作(Act),再根据执行结果继续推理下一步。例如:
用户:帮我查一下明天南京的天气,如果下雨就提醒我带伞。
Agent 的 ReAct 过程:
思考:用户需要明天南京的天气信息,我需要调用天气查询工具。
行动:调用天气插件,查询"南京 明天"。
观察:结果显示明天小雨,气温 12-18°C。
思考:天气预报显示有雨,我需要提醒用户带伞。
行动:生成回复——"明天南京小雨,12-18°C,建议带伞出门。"
这种”想一步、做一步、看一步”的模式,让 Agent 能够灵活应对复杂和动态变化的任务,而不是像传统程序那样只能按预设的固定流程执行。
思辨时刻:当每个人都有 10 个”数字分身”
Agent 的英文词根”Agency”意为”代理权”——Agent 说白了就是你在数字世界里的代理人,替你执行你定义的任务。试想:如果未来每个人都拥有 10 个 Agent,分别帮你处理邮件、管理日程、整理笔记、监控新闻……当这些重复性脑力劳动被接管后,人类应该把省下来的时间花在哪里?是创造、社交、思考,还是更深的无聊?这个问题没有标准答案,但值得在学习搭建 Agent 之前认真想一想。
Agent 还具备四个关键特性:
表7-2 AI Agent的四个关键特性
| 特性 | 含义 | 举例 |
|---|---|---|
| 自主性 | 无需人类时刻干预,能根据目标自主调节行为 | 自动完成多步骤任务 |
| 反应性 | 能感知环境变化并做出实时响应 | 检测到新邮件后自动处理 |
| 社会性 | 能与其他 Agent 或人类进行协作交互 | 多个 Agent 分工合作 |
| 进化性 | 在交互中逐步适应环境,积累经验 | 越用越”懂”用户的偏好 |
普通 AI 对话 vs Agent 的区别:
表7-3 普通AI对话与AI Agent模式对比
| 维度 | 普通 AI 对话(Copilot 模式) | AI Agent(自主模式) |
|---|---|---|
| 交互方式 | 用户指令驱动,一问一答 | 目标驱动,自主规划执行 |
| 任务复杂度 | 单步任务(写一段文案) | 多步任务(调研+写作+排版+发布) |
| 工具使用 | 不调用外部工具 | 主动调用搜索、数据库、API 等 |
| 记忆能力 | 仅限当前对话上下文 | 具备长期记忆,跨对话积累经验 |
| 角色定位 | “副驾驶”——辅助完成任务 | “驾驶员”——定好目标,由它来执行 |
一个具体的对比:
表7-4 具体场景下普通AI与Agent的差异
| 场景 | 普通 AI 对话 | AI Agent |
|---|---|---|
| “帮我写一篇推文” | 直接生成一篇推文 | 先搜索热点话题,分析目标受众,生成初稿,自动配图,排版后发布 |
| “分析这份数据” | 给出文字分析 | 读取数据文件,清洗异常值,生成图表,撰写报告,发送邮件 |
三、扣子(Coze)平台介绍
理解了 Agent 的核心概念后,下一个问题是:普通人如何动手搭建一个 Agent?
也许你会想:直接在 ChatGPT 或 DeepSeek 里写一段提示词,让它”扮演”一个 Agent 不就行了?问题在于,普通对话工具缺少 Agent 所需的三样东西:工具调用(它不能帮你搜索网页、读取文件、发送消息)、工作流编排(它不能把多个步骤串成自动化流程)、持久记忆(关掉对话窗口,它就什么都忘了)。要搭建一个真正能”自己干活”的 Agent,需要一个专门的平台来提供这些能力。
好消息是,不需要写代码。目前已有多个”零代码”Agent 搭建平台,通过拖拽和配置就能创建自己的智能体。本教材选用扣子(Coze)作为实操平台。
2025—2026 年,Agent 能力迎来爆发:OpenAI 推出了 Operator(能自主操作浏览器完成网购、订票等任务);Anthropic 的 Claude 实现了 Computer Use(直接操控电脑桌面);Google 的 Project Mariner 可以在网页中自主导航。这些进展表明,Agent 正在从”对话助手”进化为”数字员工”——它们不仅能思考,还能像人一样操作软件界面。
扣子(Coze)是字节跳动推出的 AI Agent 搭建平台,支持零代码创建智能体。2025 年初,扣子发布了 2.0 版本,从”配置对话机器人”升级为”技能驱动的智能体平台”,核心理念从”训练 AI”转变为”让 AI 自主成长”。
扣子平台的核心组件:
表7-5 扣子平台核心组件介绍
| 组件 | 功能 | 类比 |
|---|---|---|
| 人设与提示词(Persona) | 定义 Agent 的角色、性格和行为规则 | 岗位说明书 |
| 模型(Model) | 选择驱动 Agent 的大模型(豆包、DeepSeek 等) | 大脑 |
| 工作流(Workflow) | 可视化编排任务的执行步骤和流程 | 流水线 |
| 知识库(Knowledge Base) | 存储专属文档,供 Agent 检索参考 | 资料柜 |
| 插件(Plugins) | 扩展 Agent 的能力(搜索、读取网页等) | 工具箱 |
| 记忆(Memory) | 短期对话上下文 + 长期跨对话记忆 | 笔记本 |
创建 Agent 的基本流程:
- 访问 coze.cn,注册并登录;
- 点击”+“按钮,选择”创建智能体”;
- 选择创建方式:
- 手动配置:自行定义人设、模型、工具等所有细节;
- AI 生成:输入一段需求描述(如”帮我创建一个校园活动策划助手”),平台自动生成 Agent 配置;
- 进入编排区,配置六大模块:模型选择、插件、工作流、知识库、记忆、对话体验;
- 在右侧预览与调试面板中实时测试对话效果;
- 点击”发布”,可部署到飞书、微信公众号、抖音、网页等渠道。
提示:对于初学者,建议先用”AI 生成”方式快速创建一个 Agent 体验效果,再切换到”手动配置”模式深入学习每个组件的作用。
四、从”用工具”到”造工具”的思维跃迁
搭建 Agent 的过程,本质上是一次”知识外化”——把你脑中解决问题的经验,拆解成机器能执行的标准作业程序(SOP)。当你能把”策划一次校园活动”这样模糊的任务,拆解为”分析需求→搜索案例→生成方案→检查预算”的清晰步骤时,说明你已经真正掌握了这项任务的逻辑。从这个角度看,搭建 Agent 是对逻辑拆解能力的最好训练——Agent 只是副产品,思维的清晰化才是真正的收获。
具体来说,这个过程包含四个环节:
- 明确需求:这个 Agent 要解决什么问题?目标用户是谁?
- 设计流程:任务应该分几步完成?每步需要什么输入和输出?
- 选择工具:需要调用哪些插件?是否需要知识库?
- 测试迭代:实际对话中是否符合预期?哪里需要优化?
这种”需求分析 → 流程设计 → 实现 → 测试”的思维方式,不仅适用于 AI Agent 搭建,也是软件开发和项目管理的通用方法论。
□ 术语卡片 > Agent(智能体):能够自主感知环境、制定计划、执行行动的 AI 系统,区别于被动应答的对话式 AI。 > 工作流(Workflow):将复杂任务拆解为多个有序步骤的流程图,每个步骤称为一个”节点”。 > 知识库(Knowledge Base):Agent 的专属”资料库”,上传文档后 Agent 可以从中检索信息来回答问题。 > RAG 的实践意义:1.3 节介绍的 RAG 技术在 Agent 中的具体应用——让 Agent 基于上传的文档回答问题,而非仅依赖训练数据。
7.2 工作流设计实战
工作流是 Agent 的”骨架”——它决定了 Agent 接到任务后,按什么顺序、调用什么工具、如何一步步完成任务。
一、工作流的基本结构
一个典型的扣子工作流由以下节点组成:
开始节点 → 大模型节点 → 插件节点 → 输出节点
表7-7 扣子工作流节点类型说明
| 节点类型 | 功能 | 示例 |
|---|---|---|
| 开始节点 | 接收用户输入,定义输入变量 | 接收用户输入的活动主题 |
| 大模型节点 | 调用 AI 大模型进行理解、生成、推理 | 根据主题生成策划方案 |
| 插件节点 | 调用外部工具扩展能力 | 用 LinkReader 读取网页内容 |
| 条件节点 | 根据条件分支执行不同路径 | 判断活动类型选择不同模板 |
| 输出节点 | 将结果返回给用户 | 输出完整的策划方案 |
工作流的设计遵循一个基本原则:将复杂任务拆解为若干个明确的步骤,每个步骤由最合适的节点类型来执行。 这与软件工程中的”模块化设计”思想一脉相承——每个节点只负责一件事,节点之间通过变量传递数据。
工作流设计的三个要点:
- 先画后建:在打开电脑之前,先在纸上用箭头画出逻辑流程图——“输入什么→经过哪些步骤→输出什么→如果出错怎么办”。脑中有逻辑,手中才有工具。
- 合理拆分粒度:步骤太粗,单个节点负担过重,容易出错;步骤太细,节点过多,维护困难。一般建议每个大模型节点只承担一个明确的任务。
- 预设异常处理:用户输入不完整怎么办?插件调用失败怎么办?大模型生成的答案逻辑不通怎么办?好的工作流应该包含条件判断节点来处理这些边界情况。这种”容错设计”是系统思维的核心素养——真实世界里,任何环节都可能出错,提前想到并设计应对方案,才是稳健系统的标志。
二、知识库构建
知识库让 Agent 拥有”专属记忆”,能够基于上传的文档来回答问题。这就是 1.3 节介绍的 RAG 技术的实际应用——Agent 不再只依赖训练数据,而是能从提供的资料中检索信息。
为什么需要知识库? 假设要搭建一个”校规问答助手”。如果不配置知识库,Agent 只能根据通用知识回答,很可能给出错误的校规信息。配置了知识库后,Agent 会先从上传的学生手册中检索相关内容,再基于检索结果生成回答——准确率大幅提升。
构建步骤:
- 在 Agent 编排区中,找到”知识库”模块,点击”+“新建知识库;
- 选择知识类型:文本(PDF、Word、TXT 等文档)、表格(Excel 等结构化数据)或图片(PNG、JPG 等);
- 上传文档,填写知识库名称和描述;
- 选择分段策略——系统会自动将文档切分为若干段落,用于后续检索;
- 等待处理完成后,点击”添加到智能体”完成关联。
信源质量决定 Agent 的智力上限:知识库不是”上传越多越好”。如果塞进去的文档本身就包含错误信息甚至谣言,Agent 会把这些错误当作”权威知识”来引用——垃圾进,垃圾出。在构建知识库时,要像图书馆采购员一样审慎:来源是否可靠?信息是否过时?是否有相互矛盾的内容?培养识别”优质信源”的意识,比学会上传文档重要得多。
知识库的适用场景:
表7-8 知识库适用场景
| 场景 | 上传内容 | 效果 |
|---|---|---|
| 校规问答助手 | 学生手册、校规校纪文件 | Agent 能准确回答校规相关问题 |
| 课程答疑助手 | 教材章节、课件 PPT | Agent 基于教材内容回答学生提问 |
| 产品客服 | 产品说明书、FAQ 文档 | Agent 能回答产品使用问题 |
三、实战:搭建”校园活动策划助手”
下面通过一个完整案例,演示从零搭建 Agent 的全过程。
步骤 1:明确需求
目标:输入活动主题和基本要求,自动生成完整的活动策划方案;
输出:包含活动目标、时间安排、预算、宣传方案、应急预案的结构化文档。
步骤 2:在扣子平台创建 Agent 并搭建工作流
- 登录 coze.cn,点击”+“→”创建智能体”,命名为”校园活动策划助手”;
- 在人设区输入角色描述:“你是一位经验丰富的校园活动策划师,擅长根据主题和预算生成完整的策划方案。”;
- 在编排区点击”工作流”→“新建工作流”,进入可视化编辑器;
- 按以下顺序拖入节点并连线:
开始节点 → 大模型节点 1(分析需求)→ 插件节点(搜索案例)
→ 大模型节点 2(生成方案)→ 结束节点
步骤 3:配置各节点
开始节点——定义输入变量:
表7-9 活动策划助手开始节点输入变量
| 变量名 | 类型 | 说明 |
|---|---|---|
| topic | 文本 | 活动主题 |
| scale | 文本 | 活动规模(小型/中型/大型) |
| budget | 文本 | 预算范围 |
大模型节点 2——提示词配置:
你是一位经验丰富的校园活动策划师。
请根据以下信息生成一份完整的活动策划方案:
活动主题:{{topic}}
活动规模:{{scale}}
预算范围:{{budget}}
参考案例:{{search_result}}
输出格式:
1. 活动概述(目标、主题、时间、地点)
2. 活动流程(时间表)
3. 预算明细(表格)
4. 宣传方案
5. 应急预案
步骤 4:测试与迭代
发布前在预览区进行充分测试:
测试不同类型的活动主题,检查输出质量;
测试边界情况(如预算极低、主题模糊),检查 Agent 的应对能力;
根据测试结果调整提示词和工作流。
主线任务:搭建”校园活动策划助手”智能体
在扣子平台上完成以下任务: 1. 创建一个智能体,设定角色为”校园活动策划师”; 2. 搭建包含至少 3 个节点的工作流; 3. 创建知识库,上传 2—3 份活动策划模板或案例; 4. 测试至少 3 种不同的活动主题,记录输出效果和优化过程。
7.3 进阶案例与自动化
一个真正实用的 Agent,不仅能”被动回答”,还能”主动工作”——定时执行任务、自动推送结果、甚至与其他 Agent 协作完成复杂项目。
一、多 Agent 协作:从”单兵作战”到”团队协同”
在前两节中,我们搭建的都是单个 Agent。但现实中的复杂任务,往往需要多个具备不同专长的 Agent 协作完成——就像一家公司里有销售、客服、技术等不同岗位的员工。
多 Agent 协作有两种基本模式:
表7-10 多Agent协作模式对比
| 模式 | 原理 | 适用场景 | 类比 |
|---|---|---|---|
| 串联(工作流) | 像流水线,任务按固定顺序在 Agent 之间传递 | 流程固定的任务(如:采集→分析→生成报告) | 工厂流水线 |
| 并联(多 Agent) | 像专家团,主 Agent 根据需要将任务分派给专业 Agent | 多场景切换的任务(如:旅行规划中切换到记账) | 医院分诊台 |
串联模式示例:一个”论文辅助 Agent”可以由三个子 Agent 串联组成——“文献检索 Agent”负责搜索相关论文,“摘要提取 Agent”负责提炼核心观点,“综述生成 Agent”负责整合成一篇文献综述。每个 Agent 专注于自己擅长的环节,最终输出质量远高于单个 Agent 独立完成。
并联模式示例:一个”校园生活助手”可以包含多个专业 Agent——用户问课程安排时,主 Agent 将对话转交给”课表查询 Agent”;问食堂菜单时,转交给”餐饮推荐 Agent”;问社团活动时,转交给”活动信息 Agent”。用户始终在同一个对话窗口中,但背后是不同的专业 Agent 在响应。
二、案例:每日 AI 简报助手
假设希望每天早上 8 点自动收到一份 AI 领域的新闻简报,无需手动操作。这就需要一个具备”定时触发”能力的 Agent。
为什么这个案例值得学? 它展示了 Agent 最大的价值——自动化。一旦搭建完成,这个 Agent 会每天自动运行,不需要做任何操作就能收到最新的行业资讯。这种”设置一次,持续受益”的模式,是 Agent 区别于普通 AI 对话的关键。
工作流设计:
定时触发(每天 8:00)
↓
插件节点:搜索最近 24 小时的 AI 新闻
↓
大模型节点:筛选 5 条最重要的新闻,撰写摘要
↓
大模型节点:生成一份格式化的简报
↓
插件节点:推送到飞书/微信群
大模型节点提示词:
以下是最近 24 小时关于人工智能的新闻搜索结果。
请完成:
1. 从中筛选最重要的 5 条新闻;
2. 每条新闻用 1 句话概括核心内容;
3. 在末尾附上一句"今日观点",点评当天最值得关注的趋势。
输出格式为 Markdown。
三、触发器配置
触发器是让 Agent 自动运行的”闹钟”。扣子平台支持以下触发方式:
表7-11 扣子平台触发器类型
| 触发类型 | 说明 | 适用场景 |
|---|---|---|
| 定时触发 | 按设定的时间周期自动执行 | 每日简报、周报生成 |
| 消息触发 | 收到特定消息时执行 | 客服自动回复 |
| Webhook 触发 | 接收外部系统的调用信号 | 与其他平台联动 |
定时触发的配置步骤:
- 在工作流编辑器中,将”开始节点”替换为”定时触发”节点;
- 设置执行频率(每天/每周/自定义 Cron 表达式);
- 设置执行时间(如每天 08:00);
- 保存并发布工作流。
自动化伦理:谁为 Agent 的行为负责? 当 Agent 可以定时自动发消息、自动执行任务时,它的影响会被放大。如果你的自动化 Agent 因为 bug 给群里发送了错误信息,或者因为提示词设计不当给用户造成了困扰,责任归谁?答案很明确:人是 Agent 的最终责任主体。Agent 没有法律人格,它的每一个行为都源于你的设计和授权。“自动化”不等于”免责”——这是每一个 Agent 搭建者必须建立的公民意识。
实操演示:在扣子平台配置每日简报的完整流程
第 1 步:登录扣子平台(coze.cn),点击”+“→”创建智能体”,命名为”AI 简报助手”,描述填写”每天自动生成 AI 领域新闻简报”。
第 2 步:在编排区点击”工作流”→“新建工作流”,进入可视化编辑器。按以下顺序拖入节点并连线:
开始节点 → 插件节点(必应搜索)→ 大模型节点 → 结束节点
第 3 步:配置开始节点——如需定时触发,可将触发方式设置为”定时触发”,执行频率选择”每天”,执行时间设为”08:00”。
第 4 步:配置插件节点——在插件市场中添加”必应搜索”插件,搜索关键词设置为”AI 人工智能 最新进展”,搜索结果数量设为 10。
第 5 步:配置大模型节点——将搜索结果作为输入变量,提示词参考上文的模板。
第 6 步:点击右上角”试运行”,检查输出是否符合预期。确认无误后返回智能体页面,点击”发布”。
四、教育场景中的 Agent 应用
前面介绍的定时触发、消息触发等自动化能力,让 Agent 能够在无人值守的情况下持续工作。接下来,我们把视角从技术配置转向实际应用——看看 Agent 在教育领域能发挥怎样的作用。
Agent 在教育领域有着广阔的应用前景。以下是一个来自实际教学实践的案例,展示了 Agent 如何解决传统教学中的痛点。
案例:小学生英语口语陪练 Agent
许多小学生在面对真人外教时容易紧张、不敢开口,而家庭请外教的成本又很高。一个设计良好的英语口语陪练 Agent 可以有效解决这两个问题。
表7-12 英语口语陪练Agent设计方案
| 设计要素 | 具体配置 |
|---|---|
| 人设 | 22 岁英国大学毕业生,性格热情耐心,喜欢用幽默的方式鼓励学生 |
| 主动发问 | 不等学生开口,主动发起话题(“What did you have for breakfast today?”) |
| 纠错机制 | 学生说错语法时温和纠正并讲解(“你用了’I will washed’,应该是’wash’哦”) |
| 词汇控制 | 将对话词汇难度控制在《新概念英语 1》范围内 |
| 记忆功能 | 用数据库记录学生已掌握的单词,避免重复教学,逐步引入新词 |
这个案例体现了 Agent 的三个核心优势:个性化(根据每个学生的水平调整难度)、低压力(学生面对 AI 不会紧张)、持续可用(随时随地练习,不受时间和地点限制)。
佐治亚理工学院的”Jill Watson”助教也是一个经典案例:教授在网络课程中部署了一个 AI 助教,负责回答学生关于课程安排、作业要求等常规问题。由于回复准确且语气自然,学生在很长一段时间内并未察觉它是机器人。这说明,对于结构化、重复性的教学事务,Agent 已经能够达到接近人类的服务水平。
五、更多 Agent 创意
表7-13 本节涉及的主要 Agent 示例
| Agent 名称 | 功能描述 | 核心组件 |
|---|---|---|
| 元宵节手抄报生成器 | 输入主题,生成手抄报的文字内容和版面建议 | 大模型 + 知识库(节日素材) |
| 调研诊断报告生成器 | 上传调研数据,自动生成分析报告 | 大模型 + 数据处理插件 |
| 课程答疑助手 | 基于教材内容回答学生提问 | 大模型 + 知识库(教材) |
| 面试模拟教练 | 模拟面试官提问并给出反馈 | 大模型 + 角色设定 |
| 高情商对话助手 | 输入一段愤怒的消息,转化为礼貌且有力的沟通文字 | 大模型 + 角色设定 |
| 苏格拉底式助教 | 不直接给答案,通过提问引导用户自主思考 | 大模型 + 提示词工程 |
| 长辈用机助手 | 将复杂新闻或政策文件转化为通俗易懂的”大白话” | 大模型 + 知识库 + TTS 插件 |
拓展任务:搭建一个自己的 Agent
从以上创意中选择一个(或自拟主题),在扣子平台上搭建并测试。要求: 1. 包含至少一个工作流; 2. 使用知识库或插件中的至少一项; 3. 记录搭建过程和测试结果。
阅读材料:京东 JIMI 智能客服——从关键词匹配到情感分析的进化
京东的智能客服 JIMI 经历了三代技术演进:第一代基于关键词匹配,用户说”退货”就弹出退货流程,机械且死板;第二代引入自然语言理解(NLU),能识别”我买的东西不想要了”也是退货意图;第三代加入情感分析,能感知用户的情绪状态——当检测到用户愤怒时,会自动转接人工客服,并提醒客服人员注意安抚。
JIMI 的进化史,就是 AI Agent 从”规则驱动”到”智能驱动”的缩影。今天我们在扣子平台上搭建的 Agent,正处于这一进化链条的前端——虽然还比较简单,但核心思路是一致的:感知用户需求、调用合适的工具、给出有用的回应。
7.4 深度学习基础(进阶选修)
本节面向有编程基础和进一步探索兴趣的同学。如果暂时不打算深入技术细节,可以跳过本节。
在前三节中,我们已经学会了在扣子平台上搭建 Agent——拖拽节点、配置提示词、设置触发器。这些操作的背后,是大模型在驱动 Agent 的”思考”能力。本节将走进大模型的技术基础——深度学习,理解 Agent 之所以”聪明”的底层原因。
一、从机器学习到深度学习
6.3 节中我们用 scikit-learn 实现了线性回归——这是经典机器学习的范畴。深度学习则更进一步,使用神经网络来处理更复杂的任务。
为什么需要深度学习?经典机器学习在处理表格数据(如房价预测)时表现出色,但面对图像、语音、自然语言等非结构化数据时,往往力不从心。原因在于:这类数据的特征极其复杂,人工设计特征的方式难以穷尽所有可能。深度学习的突破在于——让模型自己学习特征。
核心区别:
表7-14 经典机器学习与深度学习对比
| 特征 | 经典机器学习 | 深度学习 |
|---|---|---|
| 特征提取 | 需要人工设计特征 | 自动学习特征 |
| 模型结构 | 相对简单(线性回归、决策树) | 多层神经网络 |
| 数据需求 | 较少数据即可 | 通常需要大量数据 |
| 计算资源 | 普通电脑即可 | 通常需要 GPU 加速 |
| 典型应用 | 表格数据分析、简单分类 | 图像识别、语音识别、文本生成 |
二、神经网络的基本原理
神经网络的灵感来源于人脑的神经元连接方式。一个最简单的神经网络包含三层:
输入层 → 隐藏层 → 输出层
输入层:接收原始数据(如图片的像素值);
隐藏层:对数据进行变换和特征提取(可以有多层,层数越多越”深”);
输出层:给出最终结果(如”这是一只猫”的概率)。
每一层由若干”神经元”组成,神经元之间通过”权重”连接。训练的过程就是不断调整这些权重,使模型的预测结果越来越准确。之所以叫”深度”学习,正是因为隐藏层可以有很多层——现代大模型的神经网络往往有数十甚至上百层,层层叠加使模型能够捕捉从简单到复杂的多层次特征。
训练过程的直觉理解:
想象一个人在学投篮。每次投篮后,观察球偏了多少(这叫”损失”),然后调整出手角度和力度(这叫”更新权重”)。经过成百上千次练习,命中率越来越高。神经网络的训练过程与此类似:
输入数据 → 模型预测 → 计算误差(损失函数)
→ 反向传播误差 → 调整权重 → 重复直到误差足够小
这个过程叫反向传播(Backpropagation),是深度学习最核心的训练算法。
推荐使用 Jupyter 官方在线环境(jupyter.org/try-jupyter),无需在本地安装任何软件,打开浏览器即可编写和运行 Python 代码(详见 6.3 节的环境准备说明)。
三、用 Keras 构建简单神经网络
以下用一个手写数字识别的例子,演示如何用 TensorFlow/Keras 构建神经网络。
import tensorflow as tf
from tensorflow import keras
## 加载 MNIST 手写数字数据集
(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()
## 数据预处理:归一化到 0-1 范围
x_train = x_train / 255.0
x_test = x_test / 255.0
## 构建模型
model = keras.Sequential([
keras.layers.Flatten(input_shape=(28, 28)), # 将 28x28 图片展平为 784 维向量
keras.layers.Dense(128, activation='relu'), # 隐藏层:128 个神经元
keras.layers.Dense(10, activation='softmax') # 输出层:10 个类别(0-9)
])
## 编译模型
model.compile(optimizer='adam',
loss='sparse_categorical_crossentropy',
metrics=['accuracy'])
## 训练模型
model.fit(x_train, y_train, epochs=5)
## 评估模型
test_loss, test_acc = model.evaluate(x_test, y_test)
print(f"测试集准确率:{test_acc:.2%}")代码解读:
- MNIST 数据集包含 6 万张手写数字图片(28×28 像素),是深度学习的”Hello World”;
Flatten层将二维图片展平为一维向量;Dense(128)是一个全连接隐藏层,relu是激活函数;Dense(10, softmax)输出 10 个概率值,对应数字 0—9;- 训练 5 轮后,准确率通常可达 97% 以上。
四、卷积神经网络(CNN)简介
对于图像识别任务,卷积神经网络(CNN)比普通神经网络更加高效。CNN 的核心思想是:用”卷积核”在图片上滑动扫描,自动提取边缘、纹理、形状等特征。
输入图片 → 卷积层(提取特征)→ 池化层(压缩信息)→ 全连接层 → 输出
CNN 的工作方式类似于人类观察图片的过程:人不会一次性看完整张图片的每个像素,而是先注意到局部的边缘和纹理,再逐步组合成完整的物体。CNN 的卷积层正是模拟了这一过程——底层卷积核识别边缘和颜色,中层组合出纹理和形状,高层识别出完整的物体。
CNN 是计算机视觉领域的基础架构,从人脸识别到自动驾驶,背后都有 CNN 的身影。2012 年,AlexNet(一种 CNN 架构)在 ImageNet 图像识别竞赛中大幅超越传统方法,将错误率从 26% 降至 16%,被视为深度学习革命的起点。此后,CNN 的变体不断涌现——VGG、ResNet、EfficientNet 等,推动图像识别准确率超越了人类水平。
深度学习与 Agent 的关系:本章前三节介绍的 AI Agent,其”大脑”正是基于深度学习技术构建的大语言模型。大语言模型使用的 Transformer 架构(1.3 节已介绍)是深度学习的最新成果之一。理解了神经网络的基本原理,就能更好地理解 Agent 为什么能”理解”自然语言、为什么会产生”幻觉”(8.1 节)、以及为什么需要通过提示词工程来引导它的行为。
▲ 进阶挑战:用 Python 复现朴素贝叶斯文本分类
使用 scikit-learn 的朴素贝叶斯分类器,完成一个简单的文本分类任务(如垃圾邮件识别)。要求: 1. 使用 CountVectorizer 将文本转换为特征向量; 2. 使用 MultinomialNB 训练分类模型; 3. 在测试集上评估准确率; 4. 尝试输入自定义文本,观察分类结果。
思辨时刻:当 AI 能自己造 AI——Agent 的能力边界在哪里?
2024 年,多家 AI 公司开始探索让 AI Agent 自主编写代码、自主调试、甚至自主创建新的 Agent。这意味着 AI 正在获得”自我复制”和”自我改进”的能力。
思考以下问题: 1. 如果一个 Agent 能自主创建更强大的 Agent,这个过程是否需要人类监督? 2. Agent 的”自主行动”应该有哪些边界?它能自主发送邮件吗?能自主花钱吗? 3. 当 Agent 犯了错误(如发送了错误的信息),责任应该由谁承担——开发者、使用者,还是 Agent 本身?
本章小结
本章从 AI Agent 的基本原理讲起,通过扣子(Coze)平台的实操,带领读者亲手搭建能感知、能思考、能行动的智能体。Agent 的核心价值在于让 AI 从”对话框”走向”做事”,实现自动化的任务闭环。
| 小节 | 核心内容 | 关键概念 |
|---|---|---|
| 7.1 什么是 AI Agent | 定义 Agent 的四大核心要素(感知、规划、行动、记忆),理解其与普通对话 AI 的区别 | AI Agent、感知、规划、行动、记忆 |
| 7.2 工作流设计实战 | 在扣子平台上设计线性工作流,配置大模型、插件和知识库,实现自动化闭环 | 工作流、插件(Plugin)、知识库 |
| 7.3 进阶案例与自动化 | 探索多 Agent 协作与定时触发等高级功能,实现主动工作的智能体 | 多 Agent 协作、定时触发、自动化 |
| 7.4 深度学习基础 | 理解神经网络(CNN/RNN)的基本原理,为 Agent 的”智能”溯源(进阶选修) | CNN、RNN、神经网络 |
从使用现成工具到搭建专属助手,标志着 AI 应用能力的质的飞跃。第三篇至此完结,下一篇将转向批判性视角,审视 AI 的局限、风险与治理。
第七章 实践与练习
这里的”搭建”不是写代码,而是设计逻辑。逻辑通了,Agent 就活了。
一、选择题
- AI Agent 与普通 AI 对话的核心区别是:
- A. Agent 的回答更准确
- B. Agent 能自主规划任务、调用工具并执行多步操作
- C. Agent 只能处理文字任务
- D. Agent 不需要提示词
- 在扣子平台中,知识库的作用是:
- A. 存储 Agent 的对话历史
- B. 让 Agent 基于上传的文档检索信息来回答问题
- C. 提升 Agent 的运行速度
- D. 自动生成工作流
- 以下哪种触发方式适合”每天早上自动生成新闻简报”的场景?
- A. 消息触发
- B. Webhook 触发
- C. 定时触发
- D. 手动触发
- 神经网络训练过程中,“反向传播”的作用是:
- A. 将数据从输入层传递到输出层
- B. 根据预测误差反向调整各层的权重参数
- C. 将训练数据分成多个批次
- D. 自动选择最优的网络结构
二、简答题
请用自己的话解释 AI Agent 的四个核心能力(感知、规划、行动、记忆),并举一个生活中的例子说明 Agent 如何串联这四个能力完成任务。
知识库在 Agent 中扮演什么角色?如果不配置知识库,Agent 回答专业问题时可能出现什么问题?
三、实操题
Agent 搭建:在扣子平台上搭建一个”课程答疑助手”。要求:上传至少一份课程资料到知识库,设计包含大模型节点的工作流,测试至少 5 个问题并记录回答质量。
工作流设计:为”期末复习计划生成器”设计一个工作流草图(可手绘或用文字描述)。要求:包含至少 3 个节点,说明每个节点的输入、处理逻辑和输出。
(进阶)神经网络实验:在 Jupyter 在线环境(jupyter.org/try-jupyter)中运行 7.4 节的 MNIST 手写数字识别代码,观察训练过程中准确率的变化。尝试修改隐藏层神经元数量(如从 128 改为 64 或 256),记录对准确率的影响。
参考答案(选择题):1-B 2-B 3-C 4-B
四、进阶挑战:全能导师 Agent
背景:你想自学 Python,但不知道从哪开始。
任务:搭建一个”Python 学习导师” Agent。
工作流设计:
- 评估:先问用户目前的水平(小白/有基础)。
- 规划:调用搜索插件,找最适合的教程。
- 出题:每天出一道练习题。
- 批改:用户提交代码,LLM 负责运行(代码解释器)并给出反馈。
思考:这个 Agent 能否替代真正的老师?它缺什么?(情感支持?监督?)
五、延伸阅读
- 文档:Coze 官方帮助文档 —— 最好的说明书
- 论文:Generative Agents: Interactive Simulacra of Human Behavior —— 斯坦福神作,25 个 AI 智能体在虚拟小镇里生活、社交