8.2 算法偏见:谁的 AI?
AI 不会"歧视",但训练它的数据和设计它的人可能会。
一、什么是算法偏见?
算法偏见(Algorithmic Bias)是指 AI 系统在决策过程中,对某些群体产生系统性的不公平对待。这种偏见通常不是开发者有意为之,而是隐藏在训练数据和模型设计的各个环节中。
你可能会想:AI 是数学和代码构成的,怎么会有"偏见"?关键在于——AI 从数据中学习,而数据来自人类社会。如果社会中存在偏见,数据就会携带偏见,AI 就会"学会"偏见。更危险的是,AI 的偏见被包装在"客观算法"的外衣下,比人类的偏见更难被察觉和质疑。哈佛大学法学院教授凯斯·桑斯坦(Cass Sunstein)将这种现象称为"算法的权威幻觉"——人们倾向于认为机器的判断比人类更公正,从而放松了对其输出结果的审视。
二、五个经典案例
以下案例涵盖了招聘、执法、公共服务、消费和司法等不同领域,展示了算法偏见的普遍性和多样性。
案例一:亚马逊招聘 AI 歧视女性
2018 年,亚马逊被曝其内部使用的 AI 招聘系统对女性候选人存在系统性歧视。该系统在筛选简历时,会自动降低包含"女性"相关词汇(如"女子大学""女子棋社")的简历评分。
原因分析:该系统的训练数据来自亚马逊过去 10 年的招聘记录。由于科技行业历史上以男性员工为主,AI 从数据中"学到"了一个错误的规律——男性候选人更"优秀"。
案例二:面部识别的肤色偏差
MIT 研究员 Joy Buolamwini 的研究发现,主流面部识别系统对深色肤色人群的错误率高达 34.7%,而对浅色肤色人群的错误率仅为 0.8%。
原因分析:训练数据中深色肤色的面部图片严重不足,导致模型对这一群体的识别能力远低于其他群体。
案例三:波士顿修路 App 的数据偏差
波士顿市政府开发了一款 App,市民可以通过手机报告路面坑洞,政府据此安排修路优先级。结果发现,富裕社区的道路修复速度远快于低收入社区。
原因分析:富裕社区的居民智能手机普及率更高、使用 App 的意愿更强,因此报告的坑洞数量更多。AI 系统将"报告数量多"等同于"问题更严重",导致资源分配向富裕社区倾斜。
案例四:"大数据杀熟"
同一款商品或服务,老用户看到的价格比新用户更高;使用高端手机的用户看到的价格比普通手机用户更高。这种现象被称为"大数据杀熟",本质上是算法基于用户画像进行的价格歧视。
案例五:COMPAS 司法评估系统的种族偏见
美国多个州使用的 COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)系统,用于评估犯罪嫌疑人的再犯风险,辅助法官做出保释和量刑决定。调查发现,该系统对非裔美国人的再犯风险评估显著偏高——在实际未再犯的人群中,非裔被错误标记为"高风险"的比例是白人的近两倍。
原因分析:系统的训练数据来自历史司法记录,而美国司法系统长期存在对少数族裔的不平等执法,这些历史偏见被 AI "学习"并放大了。
三、实操演示:亲手检测 AI 的性别偏见
你可以用一个简单的实验来检测 AI 是否存在性别刻板印象。
第 1 步:向 DeepSeek 提问:"请描述一位优秀的护士。"记录 AI 的回答,注意它使用的代词是"他"还是"她"。
📷 【截图位置】:DeepSeek 对话界面中分别输入"描述优秀护士"和"描述优秀程序员"的提问及 AI 回答截图,用于对比性别偏见(建议尺寸:宽度占满页面,可用两张图并排展示)
第 2 步:再提问:"请描述一位优秀的程序员。"同样记录代词和描述特征。
第 3 步:对比两次回答。你可能会发现:
AI 描述护士时倾向于使用"她",强调"温柔""细心""耐心"等特质;描述程序员时倾向于使用"他",强调"逻辑思维""专注""技术能力"等特质。
第 4 步:继续测试更多职业——CEO、幼儿园教师、科学家、秘书。记录每个职业中 AI 默认使用的性别代词和性格描述。
结果分析:如果 AI 对不同职业有明显的性别倾向,说明训练数据中包含了社会的性别刻板印象。AI 并非"客观"地描述职业,而是在复制人类社会中"护士=女性""程序员=男性"的偏见。
核心教训:当你使用 AI 生成招聘启事、人物描写或角色设定时,要有意识地检查输出中是否包含性别、年龄、种族等方面的刻板印象。
四、偏见从哪里来?
上述案例看似各不相同,但背后的偏见来源可以归纳为四种类型:
| 偏见来源 | 说明 | 对应案例 |
|---|---|---|
| 数据偏差 | 训练数据不能代表全部群体 | 面部识别、亚马逊招聘 |
| 样本偏差 | 数据收集方式导致某些群体被遗漏 | 波士顿修路 App |
| 标签偏差 | 人工标注数据时带入主观偏见 | 内容审核系统 |
| 设计偏差 | 系统设计者的价值观影响算法逻辑 | 大数据杀熟 |
? 思辨时刻:如何识别和对抗算法偏见?
算法偏见的危险之处在于它的"隐蔽性"——它藏在代码和数据中,不像人类的偏见那样容易被察觉和质疑。
思考以下问题:
- 如果你是一名教师,使用 AI 系统为学生推荐学习资源,你会如何检查系统是否存在偏见?
- "AI 只是反映了社会中已有的偏见"——这个说法能否成为 AI 偏见的免责理由?
- 你在日常生活中是否遇到过疑似"算法偏见"的情况?(如搜索结果、推荐内容、价格差异)