7.1 什么是 AI Agent
如果说 ChatGPT 是一个"问一句答一句"的助手,那么 AI Agent 就是一个能"自己想、自己干"的员工。
一、从"对话"到"行动":为什么需要 Agent
在前面的章节中,你已经学会了用 AI 完成各种任务——写文案、画图、做视频。但你可能注意到一个问题:每次都需要你手动操作。写完文案要手动复制到排版工具,生成图片要手动下载再上传,做视频要在多个工具之间来回切换。
能不能让 AI 自己串联这些步骤,一次性完成整个任务?这就是 AI Agent 要解决的问题。
打个比方:普通的 AI 对话像是一个"只会接电话的前台"——你问什么它答什么,但不会主动做事。而 AI Agent 更像是一个"王牌业务员"——你告诉它目标,它会自己拆解任务、调用资源、逐步执行,直到完成。这个"王牌业务员"不仅能听懂你的需求,还能主动搜集信息、制定方案、协调资源,甚至在遇到问题时自己调整策略。
用一个公式来概括:
AI Agent = 大模型 + 记忆 + 主动规划 + 工具使用
大模型赋予 Agent "思考"的能力,记忆让它能积累经验,主动规划让它能拆解复杂任务,工具使用让它能与外部世界交互。四者缺一不可——缺少任何一项,Agent 就退化为普通的对话式 AI。
二、Agent 的核心要素
AI Agent(智能体)是一种能够自主完成任务的 AI 系统。与普通的对话式 AI 不同,Agent 具备四个核心能力,构成"感知—规划—行动—记忆"的闭环:
感知(Perception)→ 规划(Planning)→ 行动(Action)→ 记忆(Memory)
↑ |
└────────────────── 反馈循环 ──────────────────────────┘
| 能力 | 含义 | 类比 |
|---|---|---|
| 感知 | 接收外部信息(用户输入、网页内容、数据库数据) | 眼睛和耳朵 |
| 规划 | 将复杂任务拆解为多个步骤,制定执行计划 | 大脑的思考 |
| 行动 | 调用工具完成具体操作(搜索、计算、生成内容) | 手和脚 |
| 记忆 | 存储历史对话和知识,供后续任务参考 | 笔记本 |
其中,"规划"环节是 Agent 区别于普通 AI 的关键。Agent 采用的规划方法之一叫做 ReAct(Reasoning and Acting),即"推理与行动"交替进行。它的工作方式是:先推理当前应该做什么(Reason),然后执行具体操作(Act),再根据执行结果继续推理下一步。例如:
用户:帮我查一下明天南京的天气,如果下雨就提醒我带伞。
Agent 的 ReAct 过程:
思考:用户需要明天南京的天气信息,我需要调用天气查询工具。
行动:调用天气插件,查询"南京 明天"。
观察:结果显示明天小雨,气温 12-18°C。
思考:天气预报显示有雨,我需要提醒用户带伞。
行动:生成回复——"明天南京小雨,12-18°C,建议带伞出门。"
这种"想一步、做一步、看一步"的模式,让 Agent 能够灵活应对复杂和动态变化的任务,而不是像传统程序那样只能按预设的固定流程执行。
Agent 还具备四个关键特性:
| 特性 | 含义 | 举例 |
|---|---|---|
| 自主性 | 无需人类时刻干预,能根据目标自主调节行为 | 自动完成多步骤任务 |
| 反应性 | 能感知环境变化并做出实时响应 | 检测到新邮件后自动处理 |
| 社会性 | 能与其他 Agent 或人类进行协作交互 | 多个 Agent 分工合作 |
| 进化性 | 在交互中逐步适应环境,积累经验 | 越用越"懂"你的偏好 |
普通 AI 对话 vs Agent 的区别:
| 维度 | 普通 AI 对话(Copilot 模式) | AI Agent(自主模式) |
|---|---|---|
| 交互方式 | 用户指令驱动,一问一答 | 目标驱动,自主规划执行 |
| 任务复杂度 | 单步任务(写一段文案) | 多步任务(调研+写作+排版+发布) |
| 工具使用 | 不调用外部工具 | 主动调用搜索、数据库、API 等 |
| 记忆能力 | 仅限当前对话上下文 | 具备长期记忆,跨对话积累经验 |
| 角色定位 | "副驾驶"——辅助你完成任务 | "驾驶员"——你定目标,它来执行 |
一个具体的对比:
| 场景 | 普通 AI 对话 | AI Agent |
|---|---|---|
| "帮我写一篇推文" | 直接生成一篇推文 | 先搜索热点话题,分析目标受众,生成初稿,自动配图,排版后发布 |
| "分析这份数据" | 给出文字分析 | 读取数据文件,清洗异常值,生成图表,撰写报告,发送邮件 |
三、扣子(Coze)平台介绍
扣子(Coze)是字节跳动推出的 AI Agent 搭建平台,支持零代码创建智能体。它的核心组件包括:
| 组件 | 功能 | 类比 |
|---|---|---|
| 工作流(Workflow) | 定义任务的执行步骤和流程 | 流水线 |
| 知识库(Knowledge Base) | 存储专属文档,供 Agent 检索参考 | 资料柜 |
| 变量(Variables) | 在节点之间传递数据 | 传送带 |
| 插件(Plugins) | 扩展 Agent 的能力(搜索、读取网页等) | 工具箱 |
扣子平台的基本操作:
- 访问 coze.cn,注册并登录;
- 点击"创建 Bot",输入名称和描述;
📷 【截图位置】:扣子(Coze)平台首页截图,标注"创建 Bot"按钮位置(建议尺寸:宽度占满页面)
- 在"人设与回复逻辑"中设定 Agent 的角色和行为规则;
- 根据需要添加工作流、知识库和插件;
- 在右侧预览区测试对话效果;
- 发布到飞书、微信等平台。
四、从"用工具"到"造工具"的思维跃迁
搭建 Agent 的过程,本质上是一次"产品设计"的练习:
- 明确需求:这个 Agent 要解决什么问题?目标用户是谁?
- 设计流程:任务应该分几步完成?每步需要什么输入和输出?
- 选择工具:需要调用哪些插件?是否需要知识库?
- 测试迭代:实际对话中是否符合预期?哪里需要优化?
这种"需求分析 → 流程设计 → 实现 → 测试"的思维方式,不仅适用于 AI Agent 搭建,也是软件开发和项目管理的通用方法论。
□ 术语卡片
| 术语 | 解释 |
|---|---|
| Agent(智能体) | 能够自主感知环境、制定计划、执行行动的 AI 系统,区别于被动应答的对话式 AI |
| 工作流(Workflow) | 将复杂任务拆解为多个有序步骤的流程图,每个步骤称为一个"节点" |
| 知识库(Knowledge Base) | Agent 的专属"资料库",上传文档后 Agent 可以从中检索信息来回答问题 |
| RAG 的实践意义 | 1.3 节介绍的 RAG 技术在 Agent 中的具体应用——让 Agent 基于你上传的文档回答问题,而非仅依赖训练数据 |