当前位置：首页 > news >正文

读AI赋能05消费者盈余

news 2025/10/21 23:25:17

1. 肖莎娜·朱布夫

1.1. Shoshana Zuboff

1.2. 哈佛商学院荣誉退休教授

1.3. 《监控资本主义》

1.3.1. 2019年最佳图书之
1.3.2. 谷歌和Facebook等公司用一种“感知化、网络化、计算化的基础设施”取代了奥威尔笔下的政府和“老大哥”，朱布夫将其称为“大他者”(Big Other)
1.3.3. 技术不再将国家武器化为“全面控制的项目”，而是将市场武器化为“全面确定性的项目”
1.3.4. “大他者”通过无处不在的监控运作，在一次一次获取地理位置数据的请求中耗尽我们的个体能动性，吞噬我们个人数据的算法逐渐削弱了我们的自由意志
1.3.5. 民主逐渐优化或者说是瓦解为市场驱动的极权主义
1.3.5.1. 对不拥堵的出行路线和Yelp上广受好评的比萨外卖的渴望，我们逐渐丧失了自主生活的能力
1.3.6. "大他者”掠夺我们的行为以获取数据盈余，却将蕴藏在我们的身体、大脑和跳动的心脏中的意义抛诸脑后，就像为了得到象牙而对大象进行的可怕屠杀一样

1.4. 只要用户从谷歌有效利用这些行为数据的工作中获得了全部价值，这就是一种公平的交换

1.5. 如果你没有为产品或服务支付费用，那“你本身就是产品”

2.1. 谷歌在成立初期就意识到，用户在其网站上执行的每一项操作，包括输入的搜索关键词、点击的链接等，都是可追踪的

2.2. 所有这些从某些角度看似毫无价值，有时甚至被称为“数据尾气”而非“数据”的东西，现在却可以被保存、汇总、分析、重新组合，并最终以全新的方式被大规模应用

2.3. 谷歌最终犯下了朱布夫所认为的“监控资本主义”的原罪：它开始将从用户那里收集的一些行为数据用于增强给用户推荐广告的精准性

2.4. 谷歌有6个产品的用户规模超20亿，而iPhone的用户数量约为14.6亿

2.5. 广泛而创造性地使用数据通常能为个人用户、整个社会以及开发者创造巨大的价值

3.1. 提取数据并不像提取石油、铜矿，或者拔掉一颗牙齿那样

3.2. 当从深埋于地下上千米的煤层中开采出大量烟煤时，地上留下了洞，且这一不可再生资源将不可逆转地被耗尽

3.3. 对于数字文件，提取只是对原件的复制，原件仍然完好无损地保存在其初始位置

3.4. 全球数据储备的增加速度之快超乎想象

3.4.1. 如今，人类每小时产生的新内容足以装满一艘虚拟超级油轮，这些内容包括自拍照、社交媒体上的发帖和点赞、营销演示文稿、谷歌搜索、路线规划、小说、医学研究成果和视频等，它们正在不断扩充我们已经用之不竭的数据储备
3.4.2. OpenAI的GPT-3是在3000亿个词元上进行训练的，而GPT-4的训练数据集规模更大
3.4.3. 非营利性组织Common Crawl维护的同名数据集，包含超过27亿个网页
3.4.4. 名为The Pile的数据集，在Common Crawl数据集修改版本的基础上增加了21个子数据集
3.4.4.1. 包括来自微软的编码网站GitHub的代码，来自PubMed Central和ArXiv的科学论文、各种书籍和文学作品数据集，来自各种法律项目的法律语料库、美国专利局的资料，以及来自YouTube的视频字幕等
3.4.5. 谷歌也创建了自己的数据集C4(Colossal Clean Crawled Corpus)，意思是“巨量清洁爬取语料库”
3.4.5.1. C4的五大来源分别是：专利检索工具Google Patents、维基百科、文档托管网站scribd.com、《纽约时报》网站和PLOS（一个非营利性的开放性学术出版平台）
3.4.6. 所有这些数据集都涵盖了来自网站、书籍和科学出版物的内容，却未获得这些材料版权所有者的明确许可

3.5. AI开发者普遍认为，他们对数据的使用在现行版权法下是合法的，并且对用户和整个社会普遍有益

3.5.1. 如果法院裁定，对数据进行训练以提取模式和信息（而非直接复制或整合原作）不属于合理使用，那么我们将需要新的解决方案来管理如此大规模的内容授权
3.5.2. 鉴于互联网上几乎所有内容都自动受到版权保护，我们需要全新的机制来进行清权工作，这涉及数十亿的博客文章、用户评论、产品评论、照片、表情包及新闻文章、书籍或故事片等
3.5.3. 这样的机制必须平衡内容创作者、AI开发者和公共利益之间的关系

3.6. 广泛而创造性地使用数据通常能为个人用户、整个社会及开发者创造巨大的价值