1. 肖莎娜·朱布夫
1.1. Shoshana Zuboff
1.2. 哈佛商学院荣誉退休教授
1.3. 《监控资本主义》
-
1.3.1. 2019年最佳图书之
-
1.3.2. 谷歌和Facebook等公司用一种“感知化、网络化、计算化的基础设施”取代了奥威尔笔下的政府和“老大哥”,朱布夫将其称为“大他者”(Big Other)
-
1.3.3. 技术不再将国家武器化为“全面控制的项目”,而是将市场武器化为“全面确定性的项目”
-
1.3.4. “大他者”通过无处不在的监控运作,在一次一次获取地理位置数据的请求中耗尽我们的个体能动性,吞噬我们个人数据的算法逐渐削弱了我们的自由意志
-
1.3.5. 民主逐渐优化或者说是瓦解为市场驱动的极权主义
-
1.3.5.1. 对不拥堵的出行路线和Yelp上广受好评的比萨外卖的渴望,我们逐渐丧失了自主生活的能力
-
1.3.6. "大他者”掠夺我们的行为以获取数据盈余,却将蕴藏在我们的身体、大脑和跳动的心脏中的意义抛诸脑后,就像为了得到象牙而对大象进行的可怕屠杀一样
1.4. 只要用户从谷歌有效利用这些行为数据的工作中获得了全部价值,这就是一种公平的交换
-
1.4.1. 不仅利用数据改善搜索体验,还创造了诸如翻译软件等全新的产品和服务
-
1.4.2. “行为价值再投资循环”
1.5. 如果你没有为产品或服务支付费用,那“你本身就是产品”
-
1.5.1. 你并不是产品,你只是被遗弃的躯壳
-
1.5.2. "产品”衍生于从你生活中剥夺的数据盈余
2. 数据尾气
2.1. 谷歌在成立初期就意识到,用户在其网站上执行的每一项操作,包括输入的搜索关键词、点击的链接等,都是可追踪的
2.2. 所有这些从某些角度看似毫无价值,有时甚至被称为“数据尾气”而非“数据”的东西,现在却可以被保存、汇总、分析、重新组合,并最终以全新的方式被大规模应用
2.3. 谷歌最终犯下了朱布夫所认为的“监控资本主义”的原罪:它开始将从用户那里收集的一些行为数据用于增强给用户推荐广告的精准性
-
2.3.1. 谷歌的理论是,增强广告与用户的相关性,用户会更频繁地点击广告,广告商也能从这个过程中获得更多利益
-
2.3.2. 从操作层面上讲,这意味着谷歌会把不断增长的行为数据缓存,并将卓越的计算能力和专业知识集中用于将广告与用户搜索相匹配这个单一任务上
-
2.3.3. “部分数据仍会用于改进服务,但越来越多的附加数据将被重新利用,以提升谷歌及其广告商的广告盈利能力”
2.4. 谷歌有6个产品的用户规模超20亿,而iPhone的用户数量约为14.6亿
- 2.4.1. 科技巨头所创造的价值在用户与公司之间是双向流动的
2.5. 广泛而创造性地使用数据通常能为个人用户、整个社会以及开发者创造巨大的价值
3. 提取数据
3.1. 提取数据并不像提取石油、铜矿,或者拔掉一颗牙齿那样
3.2. 当从深埋于地下上千米的煤层中开采出大量烟煤时,地上留下了洞,且这一不可再生资源将不可逆转地被耗尽
3.3. 对于数字文件,提取只是对原件的复制,原件仍然完好无损地保存在其初始位置
3.4. 全球数据储备的增加速度之快超乎想象
-
3.4.1. 如今,人类每小时产生的新内容足以装满一艘虚拟超级油轮,这些内容包括自拍照、社交媒体上的发帖和点赞、营销演示文稿、谷歌搜索、路线规划、小说、医学研究成果和视频等,它们正在不断扩充我们已经用之不竭的数据储备
-
3.4.2. OpenAI的GPT-3是在3000亿个词元上进行训练的,而GPT-4的训练数据集规模更大
-
3.4.3. 非营利性组织Common Crawl维护的同名数据集,包含超过27亿个网页
-
3.4.4. 名为The Pile的数据集,在Common Crawl数据集修改版本的基础上增加了21个子数据集
-
3.4.4.1. 包括来自微软的编码网站GitHub的代码,来自PubMed Central和ArXiv的科学论文、各种书籍和文学作品数据集,来自各种法律项目的法律语料库、美国专利局的资料,以及来自YouTube的视频字幕等
-
3.4.5. 谷歌也创建了自己的数据集C4(Colossal Clean Crawled Corpus),意思是“巨量清洁爬取语料库”
-
3.4.5.1. C4的五大来源分别是:专利检索工具Google Patents、维基百科、文档托管网站scribd.com、《纽约时报》网站和PLOS(一个非营利性的开放性学术出版平台)
-
3.4.6. 所有这些数据集都涵盖了来自网站、书籍和科学出版物的内容,却未获得这些材料版权所有者的明确许可
3.5. AI开发者普遍认为,他们对数据的使用在现行版权法下是合法的,并且对用户和整个社会普遍有益
-
3.5.1. 如果法院裁定,对数据进行训练以提取模式和信息(而非直接复制或整合原作)不属于合理使用,那么我们将需要新的解决方案来管理如此大规模的内容授权
-
3.5.2. 鉴于互联网上几乎所有内容都自动受到版权保护,我们需要全新的机制来进行清权工作,这涉及数十亿的博客文章、用户评论、产品评论、照片、表情包及新闻文章、书籍或故事片等
-
3.5.3. 这样的机制必须平衡内容创作者、AI开发者和公共利益之间的关系
3.6. 广泛而创造性地使用数据通常能为个人用户、整个社会及开发者创造巨大的价值
- 3.6.1. 当那些沉睡的、未被充分利用或仅在特定背景下有意义的数据,被重新利用、合成并以新颖且具有复合效应的方式转化时,就不是一种掠夺,而是一种对资源的有效利用与再创造
3.7. 与其称之为“提取操作”,不如将其视其为一种“数据农业”
3.8. 与“大他者”从用户那里篡夺价值的方式不同,我们看到的是开发者、平台、用户和内容创作者之间的互惠生态系统,这种互动和贡献丰富了数十亿人的生活
3.9. 当那些沉睡的、未被充分利用或仅在特定背景下有意义的数据,被重新利用、合成并以新颖且具有复合效应的方式转化时,就不是一种掠夺,而是一种对资源的有效利用与再创造
- 3.9.1. 在AI时代,数据的价值将会更加凸显
4. 私人公地
4.1. “公地”最有力的定义通常指的是那些既具有开放共享访问权,又受到集体管理的资源,为个体和整个社区的利益服务
-
4.1.1. 公地是我们共享的财产,它不属于任何个人或团体,而是被共同持有
-
4.1.1.1. 布朗大学史蒂文·卢巴尔(Steven Lubar)教授
-
4.1.2. 公园和海滩经常被称为公地,空气、水和公共图书馆也是如此
-
4.1.3. 公共领域的创意作品是公共公地的一部分,语言、文字、计算机语言、老式鸡尾酒的配方,甚至在晴朗夜空中的猎户座的景色也可以算作公共公地
4.2. 公地是一种有意管理的资源,有明确的使用者群体,有明确界定的访问权限,对违规行为的处罚是分级的,具有可明确阐述和可操作的治理特征
- 4.2.1. 2009年荣获诺贝尔经济学奖埃莉诺·奥斯特罗姆(Elinor Ostrom)
4.3. "私人公地”这个短语可能听起来自相矛盾,甚至带有奥威尔式的意味
4.4. 自20世纪90年代互联网首次商业化以来,以用户作为生产者和管理者的、由私人拥有或管理的平台大量涌现
-
4.4.1. 这个模式的不同形式和案例被贴上了各种标签,包括Web2.0、社交媒体、共享经济、零工经济和监控资本主义
-
4.4.2. 免费的或几乎免费的生活管理资源正在涌现,并有效地充当了私有化的社会服务和公用设施,就像福利国家以资本主义的速度发展一样
4.5. 营利性公司和其他私营机构在私人公地的创建中发挥着至关重要的作用,而公众显然也发挥了重要的作用
- 4.5.1. 在Facebook、YouTube、X.com等平台上,个人用户提供的大部分内容、所有的关注,以及所有的用户行为(如点击、社交互动、购买商品等),这些都会帮助平台运营商实现盈利
4.6. 当一种产品或服务免费时,只要消费者对其赋予一定价值,消费者盈余同样可以存在
-
4.6.1. 广播电视和电台多年来就是消费者盈余的主要来源
-
4.6.1.1. 除了购买电视机或收音机的成本,你无须为电视或电台中的节目支付费用,却能获得终身的娱乐和信息服务
4.7. 互联网基本上是一台创造消费者盈余的机器
-
4.7.1. 人们愿意放弃使用搜索引擎一年所需的中位数补偿金高达17530美元
-
4.7.2. 对于电子邮件,这一金额是8414美元
-
4.7.3. 对于数字地图,这一金额则是3648美元
-
4.7.4. 维基百科作为一项免费服务,所包含的文章数量远远超过《不列颠百科全书》,且质量相当
-
4.7.4.1. 《不列颠百科全书》的售价曾高达数千美元,这意味着它的用户认为它至少值那么多钱
-
4.7.4.2. 维基百科不仅免费取代了一个曾经相当昂贵的产品,它也是一个更好的产品,因为它包含的文章数量明显更多
-
4.7.4.3. 维基百科也非常易于使用
4.8. 私人公地通过让知识和机会更公平地被获取,增强了个体能动性、教育机会公平性、社会流动性,并最终促进了职业成长