6.1 数据分析基础
一份杂乱的 Excel 表格,AI 能帮你在几分钟内完成清洗、分析和可视化——前提是你会"提问"。
一、为什么需要数据分析
你可能觉得"数据分析"是统计学专业的事。但实际上,数据分析能力已经成为各行各业的基础技能。
举个例子:班长需要统计全班同学的成绩,找出哪些科目的不及格率最高;社团负责人需要分析活动报名数据,判断哪种宣传渠道效果最好;创业团队需要分析用户反馈,决定下一步产品方向。这些场景都需要从数据中提取有价值的信息。
AI 工具的出现,大幅降低了数据分析的门槛。你不需要精通 Excel 函数,也不需要会写代码——只要能清楚地描述你的分析需求,AI 就能帮你完成。
几个基础统计概念:
在让 AI 分析数据之前,你需要了解几个常用的统计指标,这样才能看懂 AI 的输出结果:
| 指标 | 含义 | 通俗解释 |
|---|---|---|
| 均值(Mean) | 所有数据的算术平均 | "大家平均考了多少分" |
| 中位数(Median) | 排序后位于中间的值 | "排在正中间的同学考了多少分" |
| 标准差(Std) | 数据的离散程度 | "大家的成绩差距大不大" |
| 最大/最小值 | 数据的极端值 | "最高分和最低分是多少" |
小贴士:均值容易受极端值影响。比如一个班 30 人,29 人考了 80 分,1 人考了 20 分,均值是 78 分,但中位数是 80 分。中位数更能反映"大多数人"的水平。
二、AI 辅助数据分析的基本流程
无论数据来自哪里,AI 辅助分析通常遵循以下流程:

每个环节都可以借助 AI 工具来加速。
三、数据清洗:让"脏数据"变干净
真实世界的数据往往存在缺失值、重复项、格式不统一等问题。直接分析"脏数据"会导致错误的结论。
常见的数据质量问题:
| 问题类型 | 示例 | AI 辅助解决方式 |
|---|---|---|
| 缺失值 | 某些学生的成绩为空 | 让 AI 生成填充公式(均值/中位数填充) |
| 重复项 | 同一条记录出现两次 | 让 AI 生成去重公式或 VBA 脚本 |
| 格式不统一 | 日期格式混乱(2024/1/1 vs 1月1日) | 让 AI 生成格式转换公式 |
| 异常值 | 某学生成绩为 999 分 | 让 AI 识别并标记异常数据 |
提示词示例(数据清洗):
以下是一份班级成绩表的部分数据(粘贴数据)。请帮我:
1. 检查是否存在缺失值,并建议填充方案;
2. 检查是否存在重复记录;
3. 检查是否存在明显的异常值;
4. 给出用于清洗的 Excel 公式。
四、用 AI 生成 Excel 公式
对于不熟悉 Excel 函数的用户,AI 可以根据自然语言描述直接生成公式。
常见场景与提示词:
| 需求描述 | AI 生成的公式 |
|---|---|
| "计算 B 列所有大于 60 分的平均值" | =AVERAGEIF(B:B,">60") |
| "统计 C 列中'优秀'出现的次数" | =COUNTIF(C:C,"优秀") |
| "如果 D 列大于 90 显示'A',大于 80 显示'B',否则显示'C'" | =IF(D2>90,"A",IF(D2>80,"B","C")) |
| "按班级分组计算各科平均分" | 数据透视表操作步骤 |
提示词模板:
我有一份 Excel 表格,列结构如下:[描述列名和数据类型]。
请帮我生成公式,实现以下功能:[描述需求]。
请同时说明公式的含义和使用方法。
五、数据可视化:让数字"说话"
数据分析的结果需要通过可视化来直观呈现。AI 可以帮助你选择合适的图表类型并生成代码。
图表类型选择指南:
| 分析目的 | 推荐图表 | 适用场景 |
|---|---|---|
| 比较大小 | 柱状图 / 条形图 | 各班平均分对比 |
| 展示趋势 | 折线图 | 月度成绩变化 |
| 显示占比 | 饼图 / 环形图 | 各等级人数占比 |
| 分析分布 | 直方图 / 箱线图 | 成绩分布情况 |
| 展示关系 | 散点图 | 学习时长与成绩的关系 |
使用 Mermaid 生成简单图表:
AI 可以直接生成 Mermaid 语法的图表代码,适合快速嵌入报告。
请根据以下数据生成一个 Mermaid 柱状图:
一班平均分 82,二班 78,三班 85,四班 80。
AI 生成结果:

六、实操演示:用 DeepSeek 分析一份成绩数据
第 1 步:准备数据。假设你有以下 10 名同学的期末成绩(语文、数学、英语):
姓名,语文,数学,英语
张三,85,92,78
李四,72,65,80
王五,90,88,95
赵六,68,,75
钱七,85,92,78
孙八,55,48,60
周九,78,82,85
吴十,92,95,90
郑十一,999,80,72
张三,85,92,78
注意:这份数据故意包含了几个问题——赵六的数学成绩缺失、郑十一的语文成绩异常(999)、张三的记录重复。
第 2 步:将数据粘贴到 DeepSeek,输入提示词:
📷 【截图位置】:DeepSeek 对话界面中输入数据分析提示词的截图,展示粘贴的数据和提示词内容(建议尺寸:宽度占满页面)
以下是一份班级期末成绩数据。请帮我完成:
1. 数据质量检查:找出缺失值、重复项和异常值;
2. 数据清洗建议:给出处理方案;
3. 基本统计分析:计算各科的均值、中位数、标准差;
4. 找出偏科严重的学生(某科与其他科差距超过 20 分)。
DeepSeek 输出示例:
数据质量检查:
- 缺失值:赵六的数学成绩为空
- 重复项:张三出现了 2 次,数据完全相同
- 异常值:郑十一的语文成绩为 999,明显超出合理范围
清洗建议:
- 赵六的数学成绩:建议用其他科目的平均分(71.5)估算,或标记为待补录
- 张三的重复记录:删除其中一条
- 郑十一的语文 999 分:建议联系教务确认,暂时标记为缺失
基本统计(清洗后):
科目 均值 中位数 标准差 语文 77.5 78.0 12.1 数学 80.3 82.0 15.2 英语 79.4 78.0 10.3 偏科学生:
- 孙八:数学 48 分,与英语(60)差距 12 分,与语文(55)差距 7 分,数学明显偏弱
第 3 步:检查 AI 的分析结果。重点核实:数据问题是否都被发现了?统计数字是否正确?建议是否合理?
★ 主线任务:分析一份班级期末成绩数据,生成分析报告
使用以下模拟数据(或你自己的真实数据),完成一份完整的数据分析报告:
- 将数据粘贴给 DeepSeek,要求进行数据清洗和基本统计(均值、中位数、标准差);
- 让 AI 生成各科成绩分布的可视化图表;
- 让 AI 识别成绩异常的学生并分析可能原因;
- 将分析结果整理为一份结构化的报告。