7.1 什么是 AI Agent

如果说 ChatGPT 是一个"问一句答一句"的助手,那么 AI Agent 就是一个能"自己想、自己干"的员工。

一、从"对话"到"行动":为什么需要 Agent

在前面的章节中,你已经学会了用 AI 完成各种任务——写文案、画图、做视频。但你可能注意到一个问题:每次都需要你手动操作。写完文案要手动复制到排版工具,生成图片要手动下载再上传,做视频要在多个工具之间来回切换。

能不能让 AI 自己串联这些步骤,一次性完成整个任务?这就是 AI Agent 要解决的问题。

打个比方:普通的 AI 对话像是一个"只会接电话的前台"——你问什么它答什么,但不会主动做事。而 AI Agent 更像是一个"王牌业务员"——你告诉它目标,它会自己拆解任务、调用资源、逐步执行,直到完成。这个"王牌业务员"不仅能听懂你的需求,还能主动搜集信息、制定方案、协调资源,甚至在遇到问题时自己调整策略。

用一个公式来概括:

AI Agent = 大模型 + 记忆 + 主动规划 + 工具使用

大模型赋予 Agent "思考"的能力,记忆让它能积累经验,主动规划让它能拆解复杂任务,工具使用让它能与外部世界交互。四者缺一不可——缺少任何一项,Agent 就退化为普通的对话式 AI。

二、Agent 的核心要素

AI Agent(智能体)是一种能够自主完成任务的 AI 系统。与普通的对话式 AI 不同,Agent 具备四个核心能力,构成"感知—规划—行动—记忆"的闭环:

感知(Perception)→ 规划(Planning)→ 行动(Action)→ 记忆(Memory)
         ↑                                                    |
         └────────────────── 反馈循环 ──────────────────────────┘
能力 含义 类比
感知 接收外部信息(用户输入、网页内容、数据库数据) 眼睛和耳朵
规划 将复杂任务拆解为多个步骤,制定执行计划 大脑的思考
行动 调用工具完成具体操作(搜索、计算、生成内容) 手和脚
记忆 存储历史对话和知识,供后续任务参考 笔记本

其中,"规划"环节是 Agent 区别于普通 AI 的关键。Agent 采用的规划方法之一叫做 ReAct(Reasoning and Acting),即"推理与行动"交替进行。它的工作方式是:先推理当前应该做什么(Reason),然后执行具体操作(Act),再根据执行结果继续推理下一步。例如:

用户:帮我查一下明天南京的天气,如果下雨就提醒我带伞。

Agent 的 ReAct 过程:
  思考:用户需要明天南京的天气信息,我需要调用天气查询工具。
  行动:调用天气插件,查询"南京 明天"。
  观察:结果显示明天小雨,气温 12-18°C。
  思考:天气预报显示有雨,我需要提醒用户带伞。
  行动:生成回复——"明天南京小雨,12-18°C,建议带伞出门。"

这种"想一步、做一步、看一步"的模式,让 Agent 能够灵活应对复杂和动态变化的任务,而不是像传统程序那样只能按预设的固定流程执行。

Agent 还具备四个关键特性:

特性 含义 举例
自主性 无需人类时刻干预,能根据目标自主调节行为 自动完成多步骤任务
反应性 能感知环境变化并做出实时响应 检测到新邮件后自动处理
社会性 能与其他 Agent 或人类进行协作交互 多个 Agent 分工合作
进化性 在交互中逐步适应环境,积累经验 越用越"懂"你的偏好

普通 AI 对话 vs Agent 的区别:

维度 普通 AI 对话(Copilot 模式) AI Agent(自主模式)
交互方式 用户指令驱动,一问一答 目标驱动,自主规划执行
任务复杂度 单步任务(写一段文案) 多步任务(调研+写作+排版+发布)
工具使用 不调用外部工具 主动调用搜索、数据库、API 等
记忆能力 仅限当前对话上下文 具备长期记忆,跨对话积累经验
角色定位 "副驾驶"——辅助你完成任务 "驾驶员"——你定目标,它来执行

一个具体的对比:

场景 普通 AI 对话 AI Agent
"帮我写一篇推文" 直接生成一篇推文 先搜索热点话题,分析目标受众,生成初稿,自动配图,排版后发布
"分析这份数据" 给出文字分析 读取数据文件,清洗异常值,生成图表,撰写报告,发送邮件

三、扣子(Coze)平台介绍

扣子(Coze)是字节跳动推出的 AI Agent 搭建平台,支持零代码创建智能体。它的核心组件包括:

组件 功能 类比
工作流(Workflow) 定义任务的执行步骤和流程 流水线
知识库(Knowledge Base) 存储专属文档,供 Agent 检索参考 资料柜
变量(Variables) 在节点之间传递数据 传送带
插件(Plugins) 扩展 Agent 的能力(搜索、读取网页等) 工具箱

扣子平台的基本操作:

  1. 访问 coze.cn,注册并登录;
  2. 点击"创建 Bot",输入名称和描述;

📷 【截图位置】:扣子(Coze)平台首页截图,标注"创建 Bot"按钮位置(建议尺寸:宽度占满页面)

  1. 在"人设与回复逻辑"中设定 Agent 的角色和行为规则;
  2. 根据需要添加工作流、知识库和插件;
  3. 在右侧预览区测试对话效果;
  4. 发布到飞书、微信等平台。

四、从"用工具"到"造工具"的思维跃迁

搭建 Agent 的过程,本质上是一次"产品设计"的练习:

  1. 明确需求:这个 Agent 要解决什么问题?目标用户是谁?
  2. 设计流程:任务应该分几步完成?每步需要什么输入和输出?
  3. 选择工具:需要调用哪些插件?是否需要知识库?
  4. 测试迭代:实际对话中是否符合预期?哪里需要优化?

这种"需求分析 → 流程设计 → 实现 → 测试"的思维方式,不仅适用于 AI Agent 搭建,也是软件开发和项目管理的通用方法论。


术语卡片

术语 解释
Agent(智能体) 能够自主感知环境、制定计划、执行行动的 AI 系统,区别于被动应答的对话式 AI
工作流(Workflow) 将复杂任务拆解为多个有序步骤的流程图,每个步骤称为一个"节点"
知识库(Knowledge Base) Agent 的专属"资料库",上传文档后 Agent 可以从中检索信息来回答问题
RAG 的实践意义 1.3 节介绍的 RAG 技术在 Agent 中的具体应用——让 Agent 基于你上传的文档回答问题,而非仅依赖训练数据

results matching ""

    No results matching ""