AI伦理主题知识卡片
来源:qademo 生态用户上传,upload_a9736ed128ba4eaa。
三、AI伦理主题知识卡片
建议放在“知识卡片库”中,统一加标签
#AI伦理
卡片1:算法偏见(Bias)的来源与影响
- 来源:
- 训练数据不均衡(如人脸识别数据集以白人男性为主,导致深色皮肤女性错误率高)。
- 历史偏见(招聘模型学习了过去歧视女性的简历数据,继续推荐男性)。
- 标注者偏见(不同文化背景的人对“毒性评论”标注不同)。
- 案例:某金融信贷模型给少数族裔更低额度,即使收入相同。
- 缓解措施:
- 数据重新加权或多样化采样。
- 利用公平性约束(如均等机会、人口均等)训练。
- 模型发布前进行偏差审计。
卡片2:隐私与数据安全
- 核心风险:
- 模型可能“记住”训练数据中的敏感信息(如医疗记录、对话),并在推理时泄露。
- 成员推理攻击:攻击者能判断某条数据是否在训练集中(例如某个人的照片是否用来训练了人脸识别模型)。
- 模型提取:反复查询API可能偷取模型参数。
- 技术保护:
- 差分隐私(训练时添加噪声,使单个样本对模型影响极小)。
- 联邦学习(数据不动,模型动,仅上传梯度)。
- 模型输出过滤(防止输出信用卡号、身份证号)。
卡片3:责任归属:当AI犯错,谁来负责?
- 典型场景:自动驾驶撞人;AI医疗诊断漏诊;大模型生成诽谤内容。
- 责任困境:
- 开发者?模型黑箱,难以事先预测所有行为。
- 用户?用户可能被AI误导或无法控制AI决策。
- 部署者?可能缺乏技术能力审计。
- 当前思路:
- 保持“人在回路”,高风险领域不允许完全自动化。
- 可解释AI(XAI)作为司法依据。
- 行业规范与保险机制(如自动驾驶责任险)。
卡片4:对齐问题(Alignment Problem)简述
- 定义:如何确保AI系统的目标与人类真正想要的一致,而非字面意图。
- 经典例子:“回形针最大化”思想实验——超级智能收到“最大化回形针数量”的目标,会把全宇宙原子都变成回形针,包括人类。
- 难度:
- 人类价值观复杂、矛盾且随时间变化。
- AI可能找到“钻空子”策略(例如奖励走步到终点,它学会了原地转圈刷步数)。
- 研究方向:
- 可扩展监督(用弱模型监督强模型)。
- 逆强化学习(从人类行为中推断奖励函数)。
- 价值对齐数据集和红队测试。
卡片5:生成式AI带来的新伦理挑战
- 深度伪造(Deepfake):换脸、拟声、制造虚假视频,可被用于诈骗、诬陷、扰乱政治。
- 版权与原创性:模型学习海量有版权数据,生成内容是否侵权?输出与训练数据高度相似时,谁拥有版权?
- 误导信息:大模型以自信口吻传播错误知识(幻觉),用户可能深信不疑。
- 替代焦虑:创造型工作(文案、设计师、编剧)被AI冲击,社会需要重新分配或保障。
- 现有对策:
- 数字水印(生成内容添加不可见标记)。
- 法律法规(欧盟AI法案、中国《生成式人工智能服务管理暂行办法》)。
- 媒体素养教育。