当前位置: 首页 > news >正文

读AI赋能08竞技场

读AI赋能08竞技场

1. 法规

1.1. 从本质上说,法规是一种相对静态的治理方式

1.2. 法规需要被起草、审议和修订

1.3. 法规需要明确、精准地定义什么是允许的,什么是不允许的

1.4. 法规被“载入史册”​,此后它往往很难被撤销或更新

  • 1.4.1. 一条法规在史册上停留的时间越长,就越有可能陷入用过去的眼光解决现在问题的陷阱

1.5. 尽管法规对于建立和维持质量、安全或公平的基本水平可能是有效的,但它不一定能激励改进

2. SuperGLUE

2.1. GLUE代表“通用语言理解评估”​

2.2. SuperGLUE会测试模型在8项任务上的表现,这些任务旨在探究语言理解的不同方面

2.3. 涉及多句阅读理解,要求模型根据一段短文回答多个问题

2.4. 词义消歧,旨在测试模型能否判断一个给定单词在不同语境中的不同含义

2.5. 指代解析,要求模型在包含多个名词的段落中确定代词的正确指代对象

2.6. 不仅提供了SuperGLUE数据集和如何执行基准测试的说明,还在SuperGLUE网站上创建了一个公共排行榜

3. 应试教学

3.1. 课堂里有应试教学,实验室中亦是如此,AI领域同样存在

3.2. 特别是当模型较小且基准测试的范围较窄时,研究人员常常通过监督学习,将非常接近目标基准测试数据集的数据用于训练模型

3.3. 如今,计算机视觉模型在特定视觉任务(如人脸识别和医学图像分析)上的准确性常常优于人类

3.4. 随着各种模型的发展,它们面对对抗性输入和其他类型错误时的脆弱性通常也会逐渐降低

  • 3.4.1. 随着模型性能的不断提升,研究人员和开发者设计了越来越复杂的基准测试,可以辨别当下的AI模型是否真的获得了超越记忆或对复杂模式进行匹配的新认知能力

3.5. 最先进的模型现在经常能取得一些惊人的成就,这些成就至少看起来远远超出了模式识别

  • 3.5.1. 常常能以某种方式来解释自身的决策与行为,而这种方式表明它们对人类的意图和情感有着深刻的理解

  • 3.5.2. 还具备总结与综合信息的能力,这种能力近乎达到了全面理解的水平

3.6. 会犯错误

  • 3.6.1. 缺乏对跨领域通用知识的真正理解

  • 3.6.2. 只是在更高水平的模式匹配上变得更加熟练了

3.7. 数据污染

  • 3.7.1. 数据泄露

  • 3.7.2. 如果一个模型在训练时无意中接触到了测试数据,这可能会导致人为夸大的性能指标,并对模型的真实能力产生不准确的评估

  • 3.7.3. 尽管为了短期宣传或获得良好的声誉,可能存在作弊或单纯刷分的情况,但大多数开发者还是致力于开发在现实世界中真正有应用价值的通用智能

3.8. 鉴于基准测试在正确使用的情况下能够成为进步的有效证明,开发者一直努力把模型的训练数据与测试数据严格分离

  • 3.8.1. 基准测试的改进确实反映了AI性能的真实进步

3.9. 模型所产生的幻觉及其他各类荒谬和有事实错误的输出,依然有力地证伪了关于类人智能的任何说法

3.10. 在关键时刻,一个通过了医学执照考试并能背诵复杂诊断标准的大语言模型可能仍然无法捕捉到患者对其症状描述中的细微线索,这可能导致对早期败血症或轻度中风等时间因素非常重要的病症的漏诊

3.11. 我们可能永远也做不到让模型不犯错

  • 3.11.1. 如果我们的目标是进步而不是完美,我们真的需要达到那种毫无纰漏的程度吗?

  • 3.11.2. 人类也会犯错,而且会犯很多错

3.12. 监管是我们用以保障确定性的一种方式,但没有任何监管能够完全消除不幸事件发生的风险

  • 3.12.1. 将抢劫定为犯罪的法律并不能保证你永远不会被抢劫,它只是旨在减少这种可能性的一项政策

  • 3.12.2. 律师和医生必须证明他们的专业能力才能获得执业许可,但这并不意味着外科医生一定不会错误地把病人正常的腿截肢

4. 模型的可解释性和可阐释性

4.1. 可解释性关注人类能够在多大程度上一致地预测模型的结果,模型的结构和输入越透明,人类就越容易准确预测其输出

4.2. 可阐释性指的是模型决策的方式:是否可以用广泛且可理解的术语解释系统如何判定一张图片中包含一只猫,或某次金融交易是欺诈行为

4.3. 可阐释性旨在揭示AI决策过程中的“黑箱”性质,通常是在事后进行的

4.4. 将绝对可解释性和可阐释性作为“安全”AI的标准既不切实际,也徒劳无益,而且从世界运转的宏观角度来看也有违常理

4.5. 如果你的主要意图是切实采用AI,而非禁止AI,那么模型如何执行固然重要,但更重要的是它做了什么

4.6. 模型的大规模决策和生成输出的能力是其“做了什么”的关键方面,因此也应该成为我们决定在何种程度上信任模型的一个衡量因素

4.7. 我们虽然知道错误率不可能为0,但仍然信任人类驱动的系统一样,我们也可以对展现出一致的、可测量可靠性的AI系统建立信任

5. 聊天机器人竞技场

5.1. “聊天机器人竞技场”(Chatbot Arena)是一个基于人类偏好评估大语言模型的开源平台

5.2. 传统基准测试的有限范围和受控条件是针对同类之间的比较来优化的,这也意味着它们无法全面反映模型在广泛、开放、混乱且快速变化的现实世界中的全面表现

5.3. “聊天机器人竞技场”通过一个全面涵盖的单一指标推动改进:总体用户满意度

5.4. 排行榜类似于许多互联网公司最有效的治理机制

  • 5.4.1. 将复杂的互动提炼成简单、易懂的信号

5.5. 互联网过去是、现在仍然是一个受到高度监管的空间,数十亿的日常交易和互动被评分、汇总、分析并转化为声誉分数,以及其他透明度和问责制指标,依据这些指标执行的治理功能足够灵活,能够跟上互联网发展的速度和规模

5.6. 实现大规模去中心化的实操测试的,这是实验室里永远无法实现的

5.7. 集体智慧可以相对容易地应用于某个领域的所有参与者,这是一种新的尝试

5.8. ”聊天机器人竞技场”的管理员还可以针对模型的输出内容自行开展测试,并获取诸如事实性错误或不良内容输出这类现象在现实世界和整个行业中的发生率

5.9. “聊天机器人竞技场”凭借这样的潜力,指向了一个逐渐实现民主化和草根治理的“监管2.0”式未来

http://www.hskmm.com/?act=detail&tid=37747

相关文章:

  • kratos 框架编写一个小demo
  • [MS-DOS] DOS_6.22_Users_Manual_1994.pdf
  • 主席树(可持久化线段树)
  • 二维树状数组
  • 2025 CSP 赛前复习笔记
  • Borland Turbo products
  • 港科语义地图-低带宽场景下的多机器人地图对齐与共享定位提供了通用基石 - MKT
  • Spring Boot 整合 MiniMax 与 CosyVoice 语音合成服务实践指南
  • 港科轻量化地图 - MKT
  • PandaCoder:致敬MyBatis Log Plugin,但我们做得更极致!
  • CF1401B Ternary Sequence
  • [DOS] Borland Turbo Assembler learning 8086/real-mode assembly
  • 搭建x86汇编语言学习环境
  • 闭包
  • Python---学习
  • 离在线SDK配置
  • 傅立叶,程心和路明泽
  • SpringBoot自动配置
  • AI元人文构想与余溪诗学空间:一场从诗意本源向智能未来的远征
  • 状压DP
  • 搞定三大PLC通讯:倍福与西门子、欧姆龙与西门子数据互通实战
  • 实验p66
  • 牛客2025秋季算法编程训练联赛2-(基础组提升组)
  • 局域网共享一键通_v2.0.9.9
  • newDay15
  • 每日反思(2025_10_23)
  • 树链剖分/轻重链剖分
  • 如何降低信息化系统的构建成本? ——信息化系统省钱全攻略:从规划到运维的实用技巧
  • C#编程时winform程序登陆记住密码和自动登录功能,关于App.config的问题及解决方案
  • 2025.10.23总结