AI生态社群知识库

伦理

AI伦理主题知识卡片

来源：生态用户上传资料，经 WKB-SM-017 / WKB-SM-014 上料流程整理为前台文章。

AI伦理主题知识卡片

来源：qademo 生态用户上传，upload_a9736ed128ba4eaa。

三、AI伦理主题知识卡片

建议放在“知识卡片库”中，统一加标签 #AI伦理

卡片1：算法偏见（Bias）的来源与影响

来源：
训练数据不均衡（如人脸识别数据集以白人男性为主，导致深色皮肤女性错误率高）。
历史偏见（招聘模型学习了过去歧视女性的简历数据，继续推荐男性）。
标注者偏见（不同文化背景的人对“毒性评论”标注不同）。
案例：某金融信贷模型给少数族裔更低额度，即使收入相同。
缓解措施：
数据重新加权或多样化采样。
利用公平性约束（如均等机会、人口均等）训练。
模型发布前进行偏差审计。

卡片2：隐私与数据安全

核心风险：
模型可能“记住”训练数据中的敏感信息（如医疗记录、对话），并在推理时泄露。
成员推理攻击：攻击者能判断某条数据是否在训练集中（例如某个人的照片是否用来训练了人脸识别模型）。
模型提取：反复查询API可能偷取模型参数。
技术保护：
差分隐私（训练时添加噪声，使单个样本对模型影响极小）。
联邦学习（数据不动，模型动，仅上传梯度）。
模型输出过滤（防止输出信用卡号、身份证号）。

卡片3：责任归属：当AI犯错，谁来负责？

典型场景：自动驾驶撞人；AI医疗诊断漏诊；大模型生成诽谤内容。
责任困境：
开发者？模型黑箱，难以事先预测所有行为。
用户？用户可能被AI误导或无法控制AI决策。
部署者？可能缺乏技术能力审计。
当前思路：
保持“人在回路”，高风险领域不允许完全自动化。
可解释AI（XAI）作为司法依据。
行业规范与保险机制（如自动驾驶责任险）。

卡片4：对齐问题（Alignment Problem）简述

定义：如何确保AI系统的目标与人类真正想要的一致，而非字面意图。
经典例子：“回形针最大化”思想实验——超级智能收到“最大化回形针数量”的目标，会把全宇宙原子都变成回形针，包括人类。
难度：
人类价值观复杂、矛盾且随时间变化。
AI可能找到“钻空子”策略（例如奖励走步到终点，它学会了原地转圈刷步数）。
研究方向：
可扩展监督（用弱模型监督强模型）。
逆强化学习（从人类行为中推断奖励函数）。
价值对齐数据集和红队测试。

卡片5：生成式AI带来的新伦理挑战

深度伪造（Deepfake）：换脸、拟声、制造虚假视频，可被用于诈骗、诬陷、扰乱政治。
版权与原创性：模型学习海量有版权数据，生成内容是否侵权？输出与训练数据高度相似时，谁拥有版权？
误导信息：大模型以自信口吻传播错误知识（幻觉），用户可能深信不疑。
替代焦虑：创造型工作（文案、设计师、编剧）被AI冲击，社会需要重新分配或保障。
现有对策：
数字水印（生成内容添加不可见标记）。
法律法规（欧盟AI法案、中国《生成式人工智能服务管理暂行办法》）。
媒体素养教育。