1. 分类
1.1. 塞缪尔·莫顿
-
1.1.1. Samuel Morton
-
1.1.1.1. 美国颅骨学家
-
1.1.1.2. 医生和自然历史学家
-
1.1.1.3. 费城自然科学院的成员
-
1.1.2. 通过比较头骨的物理特征,来“客观地”对人类进行分类和排名
-
1.1.3. 将世界上的人类划分为五个“种族”:非洲人、美洲原住民、高加索人、马来人和蒙古人
-
1.1.3.1. 分类基于“多基因论”
-
1.1.3.2. 相信不同的人类种族在不同时期先后进化
-
1.1.3.3. 主导地缘政治的殖民主义心态的反映
-
1.1.4. 颅骨测量法逐渐成为欧美白人学者的主要方法之一,因为该方法声称能够准确评估人类的差异和优势
-
1.1.5. 研究在美国被用来维护奴隶制和种族隔离的合法性
-
1.1.5.1. 被用于为统治阶级服务
1.2. 《人类的误测》
-
1.2.1. The Mismeasure of Man
-
1.2.2. 斯蒂芬·杰伊·古尔德(Stephen Jay Gould)
-
1.2.3. 莫顿的总结是为了控制先验信念的利益而捏造、榨取和拼凑出的结果
-
1.2.3.1. 没有发现有意识欺诈的证据
-
1.2.3.2. 无意识欺诈的盛行表明了关于科学社会背景的一般结论
-
1.2.4. 如果科学家们可以诚实地自欺欺人到莫顿的程度,那么在任何地方都可能发现既存的偏见,甚至是在测量骨骼与计算总和的基础领域
-
1.2.5. 颅骨测量学是“19世纪占主导地位的基于生物决定论的数字科学”,它的核心基本假设存在“严重错误”:即大脑大小与智力成正比
1.3. “先验偏见”作为一种看待世界的方式,塑造了莫顿所认为的客观科学以及一个自我强化的循环,影响了他的发现,就像充满铅的头骨本身一样
1.4. 莫顿的成果预示着当今人工智能领域中测量和分类的一些认识论层面的问题
-
1.4.1. 更严重的错误在于激发这种方法论的潜在世界观
-
1.4.2. 目标不应该是要求更准确或“公平”的头骨测量,以支持种族主义的智力模型,而是完全谴责这种测量方法
-
1.4.3. 莫顿使用的分类实践在本质上是政治性的,他对智力、种族和生物学的无效假设产生了广泛的社会和经济影响
1.5. 分类政治学是人工智能的核心实践
-
1.5.1. 分类实践说明了“机器智能”是如何在从大学实验室到科技行业的过程中产生的
-
1.5.2. 关注人工智能中的偏见的趋势,会使我们偏离评估人工智能分类的核心实践及其伴随的政治问题
1.6. 分类是强大的技术。当被嵌入工作基础设施中时,它们会变得相对不可见,而又不会失去任何力量。
-
1.6.1. 杰弗里·鲍克(Geoffrey Bowker)和苏珊·利·斯塔尔(Susan Leigh Star)
-
1.6.2. 成为基础设施、习惯,以及理所当然的东西
1.7. 为了塑造技术系统而随意选择的分类,可以在塑造社会和物质世界方面发挥动态作用
2. 循环逻辑系统
2.1. 图像识别工具对黑人面部信息进行错误归类,聊天机器人采用种族主义和厌女的语言,语音识别软件无法识别女性声音,社交媒体平台向男性展示的高薪招聘广告多于女性等
2.2. 模型不仅作为一个分类体系对女性持有偏见,而且对常见的语言的性别化形式也存在偏见
2.3. 工具强化了亚马逊现有的动态,并突出了过去和现在人工智能行业缺乏多样性的特征
2.4. 人工智能行业习惯性地将偏见问题理解为一个需要修复的错误,而不是分类本身的特征
- 2.4.1. 各个公司都只专注于调整技术系统以在不同的群体之间产生更大的数量平等
2.5. 理解偏见与分类之间的关系,需要超越对知识生产的分析
-
2.5.1. 确定数据集是“有偏见的”还是“无偏见的”
-
2.5.2. 需要观察历史上的不平等模式是如何影响资源和机会的获取,进而对数据产生影响的
-
2.5.3. 产生了一种统计学上的循环形态:一种自我强化的歧视机器,以技术中立为幌子,放大了社会不平等
3. 去偏见系统的限制
3.1. 人脸多样性
-
3.1.1. Diversity in Faces, DiF
-
3.1.2. 数据集来回应对AI系统存在偏见的担忧
-
3.1.3. 对于肤色较深的人,尤其是女性的识别错误率要高得多
3.2. Flickr
- 3.2.1. 当时互联网上最大的公开可用数据集
3.3. 公平”被简化为仅仅意味着机器主导的面部识别系统的准确率更高,而“多样性”是指用于训练模型和提高准确率的更大范围的人脸数据
3.4. 分类实践的本质是集中权力:即决定哪些差异拥有能够产生影响的权力
- 3.4.1. 所有这些特征都是可变的、可转移的、具备文化解释特性,并具有不稳定意义
3.5. 工具的可供性成了真理的地平线
- 3.5.1. 只是用来增加对“准确性”的特定理解的一种方式
4. 偏见的多重定义
4.1. 自古以来,分类行为就与权力保持一致
-
4.1.1. 在神学中,命名和划分事物的能力是上帝的神圣行为
-
4.1.2. “范畴”(category)一词来自古希腊语katēgoríā,其由两个词根组成:kata(反对)和agoreuo(公开讲话)
-
4.1.3. 在希腊语中,这个词可指审判中的逻辑主张或指控—暗指科学和法律的分类方法
-
4.1.4. 权力的持续不对称,无论设计者的意图如何,技术系统都保持了结构性的不平等
4.2. 偏见
-
4.2.1. 作为一个术语的历史谱系的出现时间则更晚近
-
4.2.2. 首次出现于14世纪,在几何学中它指的是斜线或对角线
-
4.2.3. 到了16世纪,它已经具有了类似于目前大众所理解的含义,即“不适当的成见”
-
4.2.4. 到20世纪初,偏差在统计学中发展出更具技术性的含义,它指的是样本和总体之间的系统差异,而样本并不能真正地反映整体
4.3. 机器学习系统旨在从大量训练示例中进行归纳,并对未包含在训练数据集中的新观察对象进行正确分类
- 4.3.1. 机器学习系统可以执行一种归纳,即从特定示例中学习以决定在新示例中寻找哪些数据点
4.4. 偏差指的是在泛化的预测过程中可能发生的一种错误类型,即系统在呈现新示例时表现出的系统性或经常性再现的分类错误
4.5. 方差是指算法对训练数据差异的敏感性
4.6. 具有高偏差和低方差的模型可能对数据欠拟合—未能捕获其所有重要特征或信号
4.7. 具有高方差和低偏差的模型可能会过度拟合数据—构建的模型离训练数据太近,因此除了数据的重要特征外,它还可能捕获一些“噪声”
4.8. “认知偏见”,即人类判断系统地偏离概率预期的方式
4.9. 内隐偏见的研究,强调了无意识态度和刻板印象是如何“造成与一个人公开声明的或认可的信念或原则背道而驰的行为方式”
- 4.9.1. 涉及人类的信仰、陈规或不同形式的歧视
4.10. 这些定义上的混淆,限制了偏见作为一个术语的实用性,尤其是当来自不同学科的人们使用这一术语的时候
4.11. 人们可以通过改进技术设计,来更好地考虑其系统是如何产生偏差和歧视性结果的
4.12. 用于训练机器学习系统的每个数据集,无论是在有监督还是无监督机器学习的背景下,无论是否在技术上被视为“有偏见”,都包含一种特定的世界观
-
4.12.1. 创建训练集,即是将一个几乎无限复杂和多变的世界,固定为一个由被谨慎分类的数据点组成的分类体系,这个过程包含了内生性的政治、文化与社会选择
-
4.12.2. 窥见内置于AI世界架构中的各种形式的权力
5. 词网
5.1. 一个词语分类数据库,最初由普林斯顿大学认知科学实验室于1985年开发,由美国海军研究办公室资助
5.2. 词网被构想为一个机器可读的字典,用户可以在其中根据语义而不是字母的相似性进行搜索
5.3. 成了计算语言学和自然语言处理领域的重要资源
5.4. 词网团队收集了尽可能多的单词,从布朗语料库开始—一个在20世纪60年代由一百万个单词汇编而成的集合
5.5. 词网试图将英语组织成“同义词集”(synsets)
6. 图网
6.1. 图网的底层语义结构是从词网导入的
6.2. 图网世界观真正令人感到奇怪的现象,是它的九个顶级类别,其他所有类别都在其下顺序排列
6.3. 九个类别为:植物、地质构造、自然物体、运动、人工制品、真菌、人、动物和杂项
6.4. 图网对人进行分类的方式存在很多问题
- 6.4.1. 图网是一个教训,说明当人们像物品一样被分类时会发生什么
6.5. 在图网的“人类”类别的深处,也有真正令人反感和具有危害性的类别
6.6. 图网中没有中性类别,因为图像的选择总是与单词的含义相互作用
6.7. 分析
-
6.7.1. 图网的创建者从谷歌等图像搜索引擎中收集了大量的图像,在人们不知情的情况下提取他们的自拍照和度假照片,然后使用土耳其机器人的工作人员对这些照片进行标记和重新包装
-
6.7.2. 搜索引擎返回结果时出现的所有偏差和偏见,都被后续来对其进行抓取和标记的技术系统收录在内
-
6.7.3. 低收入的众包工人被要求理解这些图像,并以每分钟50张的速度将它们分类,而这几乎是不可能的
-
6.7.4. 调查这些标记图像的底层分类原理时,我们会发现它们充满了荒谬和刻板印象,这也许就不足为奇了
6.8. 图网的世界观并不罕见
-
6.8.1. 它是许多AI训练数据集的典型特征,它揭示了自上而下的方案的诸多问题,这些方案将复杂的社会、文化、政治和历史关系扁平化为可量化的实体
-
6.8.2. 当涉及在技术系统中按种族和性别对人进行分类的广泛操作时,这种现象可能是最显而易见且最阴险的
7. 定义“人”的权力
7.1. 将秩序强加于未分化的群体,将现象归于一个范畴,即给事物命名,反过来又是一种将该范畴具体化的手段
7.2. 分类的结果可能是种族主义的、不合逻辑的和残忍的,尤其是在涉及对人施加的标签时
7.3. 在图网的“人类”类别的深处,也有真正令人反感和具有危害性的类别
7.4. 像脸书这样的公司使用的分类方案,是更加难调查和批评的,因为在此类专有系统中,几乎没有为局外人提供调查或审计图像排序和分类方式的方法
7.5. 图像—就像所有形式的数据一样—充满了各种潜在的意义、无法解决的问题和矛盾
7.6. 通过删除攻击性术语使训练集更为“公平”的实践,是无法与被权力驱动的分类抗衡的,并且这一行为排除了对潜在逻辑进行更彻底的评估的可能
8. 种族和性别
8.1. 这些技术存在一定的假设,即性别认同和种族的类别是明确的,机器可以通过编程来分配性别类别,或确定身体和身体部位应该表示什么
- 8.1.1. 监视学学者西蒙·布朗(Simone Browne)
8.2. 具有危害性的还原主义分类被广泛用于许多人类分类训练集,并且多年来一直是人工智能产品渠道的一部分,这一点毋庸置疑
8.3. 南非
-
8.3.1. 种族主义的法律制度支配着人们生活的很大一部分,受影响的绝大多数是南非黑人,他们的行动受到限制并被强行驱逐出他们的土地
-
8.3.2. 种族分类的政治性延伸到了人们生活中最私密的部分
8.4. 机器学习系统正在试图将完全相对性的事物确定为固定的类别
8.5. 机器学习系统正在以一种非常真实的方式创造种族和性别:它们在自己设定的条件内定义世界,这对被分类的人们产生了长期的影响
- 8.5.1. 这限制了人们代表自己并获得理解的方式的范围,并缩小了被承认的身份的范围
8.6. 对人进行分类是帝国的当务之急:臣民在被征服时被帝国分类,并被相关机构和专家归为“某一类人”
- 8.6.1. 伊恩·哈金
8.7. 分类技术产生并限制了认知方式,它们被植入人工智能的逻辑中
9. 测量的界限
9.1. 如果训练数据和技术系统中的大部分分类,都是伪装成科学和测量的权力与政治形式,我们应该如何纠正那些非常真实并被记录在案的影响?
9.2. 需要转变为评估优化指标和统计奇偶性以外的新系统,并了解数学和工程框架出现问题的原因
9.3. 意味着需要了解人工智能系统是如何与数据、工人、环境以及生活受其影响的个人进行交互的
9.4. 需要一种新的方法以应对高密度的分类方案冲突
9.5. 它们不得不降低复杂性,并去除重要的背景信息,以使世界更易于计算
9.6. 机器类别和人们相互作用并相互改变,这是由于机器类别试图在不断变化的形态中找到易读性,以进入“正确”的类别并被列入最有利可图的信息推送中
9.7. 人类分类的最具有危害性的形式—从种族隔离制度到同性恋的病态化—并没有在科学研究和伦理批判阳光的照耀下简单地消失
9.8. 分类模式制定并支持形成它们的权力结构,如果没有相当大的努力,这些结构不会发生变化
9.9. 没有诉求,权力就不会让步。它从来没有,也永远不会让步。
-
9.9.1. 19世纪美国废奴运动领袖弗雷德里克·道格拉斯 (Frederick Douglas)
-
9.9.2. 在机器学习分类的隐形制度中,提出诉求并反对其内部逻辑更难
9.10. 真正庞大的分类引擎是由私营科技公司在全球范围内运营的,无论是脸书和谷歌,还是抖音和百度
-
9.10.1. 这些公司缺乏在运营过程中对用户分类和定位方式进行监督,并且他们未能提供清晰、独立的公共干预途径
-
9.10.2. 当人工智能的匹配过程真正隐藏起来,人们无法了解他们为什么获得优势与劣势或如何获得这些优势与劣势的时候,就需要集体的政治回应