6.1 数据分析基础

一份杂乱的 Excel 表格,AI 能帮你在几分钟内完成清洗、分析和可视化——前提是你会"提问"。

一、为什么需要数据分析

你可能觉得"数据分析"是统计学专业的事。但实际上,数据分析能力已经成为各行各业的基础技能。

举个例子:班长需要统计全班同学的成绩,找出哪些科目的不及格率最高;社团负责人需要分析活动报名数据,判断哪种宣传渠道效果最好;创业团队需要分析用户反馈,决定下一步产品方向。这些场景都需要从数据中提取有价值的信息。

AI 工具的出现,大幅降低了数据分析的门槛。你不需要精通 Excel 函数,也不需要会写代码——只要能清楚地描述你的分析需求,AI 就能帮你完成。

几个基础统计概念:

在让 AI 分析数据之前,你需要了解几个常用的统计指标,这样才能看懂 AI 的输出结果:

指标 含义 通俗解释
均值(Mean) 所有数据的算术平均 "大家平均考了多少分"
中位数(Median) 排序后位于中间的值 "排在正中间的同学考了多少分"
标准差(Std) 数据的离散程度 "大家的成绩差距大不大"
最大/最小值 数据的极端值 "最高分和最低分是多少"

小贴士:均值容易受极端值影响。比如一个班 30 人,29 人考了 80 分,1 人考了 20 分,均值是 78 分,但中位数是 80 分。中位数更能反映"大多数人"的水平。

二、AI 辅助数据分析的基本流程

无论数据来自哪里,AI 辅助分析通常遵循以下流程:

数据分析流程

每个环节都可以借助 AI 工具来加速。

三、数据清洗:让"脏数据"变干净

真实世界的数据往往存在缺失值、重复项、格式不统一等问题。直接分析"脏数据"会导致错误的结论。

常见的数据质量问题:

问题类型 示例 AI 辅助解决方式
缺失值 某些学生的成绩为空 让 AI 生成填充公式(均值/中位数填充)
重复项 同一条记录出现两次 让 AI 生成去重公式或 VBA 脚本
格式不统一 日期格式混乱(2024/1/1 vs 1月1日) 让 AI 生成格式转换公式
异常值 某学生成绩为 999 分 让 AI 识别并标记异常数据

提示词示例(数据清洗):

以下是一份班级成绩表的部分数据(粘贴数据)。请帮我:
1. 检查是否存在缺失值,并建议填充方案;
2. 检查是否存在重复记录;
3. 检查是否存在明显的异常值;
4. 给出用于清洗的 Excel 公式。

四、用 AI 生成 Excel 公式

对于不熟悉 Excel 函数的用户,AI 可以根据自然语言描述直接生成公式。

常见场景与提示词:

需求描述 AI 生成的公式
"计算 B 列所有大于 60 分的平均值" =AVERAGEIF(B:B,">60")
"统计 C 列中'优秀'出现的次数" =COUNTIF(C:C,"优秀")
"如果 D 列大于 90 显示'A',大于 80 显示'B',否则显示'C'" =IF(D2>90,"A",IF(D2>80,"B","C"))
"按班级分组计算各科平均分" 数据透视表操作步骤

提示词模板:

我有一份 Excel 表格,列结构如下:[描述列名和数据类型]。
请帮我生成公式,实现以下功能:[描述需求]。
请同时说明公式的含义和使用方法。

五、数据可视化:让数字"说话"

数据分析的结果需要通过可视化来直观呈现。AI 可以帮助你选择合适的图表类型并生成代码。

图表类型选择指南:

分析目的 推荐图表 适用场景
比较大小 柱状图 / 条形图 各班平均分对比
展示趋势 折线图 月度成绩变化
显示占比 饼图 / 环形图 各等级人数占比
分析分布 直方图 / 箱线图 成绩分布情况
展示关系 散点图 学习时长与成绩的关系

使用 Mermaid 生成简单图表:

AI 可以直接生成 Mermaid 语法的图表代码,适合快速嵌入报告。

请根据以下数据生成一个 Mermaid 柱状图:
一班平均分 82,二班 78,三班 85,四班 80。

AI 生成结果:

各班平均分对比

六、实操演示:用 DeepSeek 分析一份成绩数据

第 1 步:准备数据。假设你有以下 10 名同学的期末成绩(语文、数学、英语):

姓名,语文,数学,英语
张三,85,92,78
李四,72,65,80
王五,90,88,95
赵六,68,,75
钱七,85,92,78
孙八,55,48,60
周九,78,82,85
吴十,92,95,90
郑十一,999,80,72
张三,85,92,78

注意:这份数据故意包含了几个问题——赵六的数学成绩缺失、郑十一的语文成绩异常(999)、张三的记录重复。

第 2 步:将数据粘贴到 DeepSeek,输入提示词:

📷 【截图位置】:DeepSeek 对话界面中输入数据分析提示词的截图,展示粘贴的数据和提示词内容(建议尺寸:宽度占满页面)

以下是一份班级期末成绩数据。请帮我完成:
1. 数据质量检查:找出缺失值、重复项和异常值;
2. 数据清洗建议:给出处理方案;
3. 基本统计分析:计算各科的均值、中位数、标准差;
4. 找出偏科严重的学生(某科与其他科差距超过 20 分)。

DeepSeek 输出示例:

数据质量检查:

  • 缺失值:赵六的数学成绩为空
  • 重复项:张三出现了 2 次,数据完全相同
  • 异常值:郑十一的语文成绩为 999,明显超出合理范围

清洗建议:

  • 赵六的数学成绩:建议用其他科目的平均分(71.5)估算,或标记为待补录
  • 张三的重复记录:删除其中一条
  • 郑十一的语文 999 分:建议联系教务确认,暂时标记为缺失

基本统计(清洗后):

科目 均值 中位数 标准差
语文 77.5 78.0 12.1
数学 80.3 82.0 15.2
英语 79.4 78.0 10.3

偏科学生:

  • 孙八:数学 48 分,与英语(60)差距 12 分,与语文(55)差距 7 分,数学明显偏弱

第 3 步:检查 AI 的分析结果。重点核实:数据问题是否都被发现了?统计数字是否正确?建议是否合理?


主线任务:分析一份班级期末成绩数据,生成分析报告

使用以下模拟数据(或你自己的真实数据),完成一份完整的数据分析报告:

  1. 将数据粘贴给 DeepSeek,要求进行数据清洗和基本统计(均值、中位数、标准差);
  2. 让 AI 生成各科成绩分布的可视化图表;
  3. 让 AI 识别成绩异常的学生并分析可能原因;
  4. 将分析结果整理为一份结构化的报告。

results matching ""

    No results matching ""