当前位置: 首页 > news >正文

AI 真能胜任专业工程师的工作吗?

AI 真能胜任专业工程师的工作吗?

近年来,人工智能(AI)的发展速度令人目不暇接,能够完成写诗、绘画、考试,甚至编写复杂的计算机代码。然而,有一个疑问始终在用户的心头环绕,得不到答案:这位“学霸”走出考场,真的能胜任日常工作中那些复杂、琐碎且充满变化的真实任务吗?

OpenAI,最近推出了一套名为 GDPval 的全新大模型能力评估体系,初步能够回答那个核心问题:当今最顶尖的 AI,究竟离成为我们合格的“工作搭档”还有多远?

问题所在:为何需要新“尺子”?

在 GDPval 出现之前,衡量 AI 模型能力的主流方式是各种学术基准测试,例如衡量语言理解能力的 MMLU、衡量软件开发能力的 SWE-Bench 等。这些测试在推动 AI 技术进步上功不可没,但它们存在一个天然的局限性:它们模拟的是“考场”,而非“职场”

这就像评价厨师,不品尝他做的菜,而是让他做一张关于烹饪的试卷。或者评判汽车修理工,不看他修车,而是让他完成一份关于发动机原理的考题。卷面成绩能反映的是知识,却无法衡量真实能力​。

这种“理论”与“实践”的脱节,使得关于 AI 对真实工作任务的影响的讨论常常流于空泛的猜测。GDPval 的诞生,将用真实世界的数据来校准社会对 AI 能力的认知。

GDPval 的精髓:用“工作”来检验 AI

GDPval 这个名字本身就揭示了其核心理念:“GDP”代表国民生产总值,“val”是评估(evaluation)的缩短。它的目标非常明确:衡量 AI 在那些对经济至关重要的真实工作任务中的表现

它如何实现这一目标?其设计思路主要有三点:

  1. 测评任务源于真实职业: GDPval 的评估任务库,直接来源于对美国 GDP 贡献显著的 9 大行业(制造业、金融保险、医疗健康、专业科技服务、政府、房地产、零售、批发贸易和信息业)、44 个关键职业(涵盖律师、注册护士、机械工程师、合规官、软件开发者、会计师、药剂师等,文理兼备)。这些测评任务由该领域的资深专家亲自设计,确保其高度贴近现实。例如,任务可能包括:请像一位律师一样,审查并修改一份合同草案;像一位市场分析师一样,根据财报数据撰写一份前景分析报告;或者像一位软件工程师一样,为一段代码寻找缺陷并提出优化方案。
  2. 标准来自行业专家: 评估 AI 工作成果的“考官”,同样是这些行业内的专家。他们会根据自己多年从业经验中形成的标准——如准确性、完整性、实用性、创造性等——来对 AI 的产出进行打分。
  3. 直接与人类对比: GDPval 最引人注目的一点是,它进行了一场“人机对决”。在评估中,AI 生成的作品会与人类专家完成的同类作品放在一起,由另一位专家进行“盲审”(即不知道哪份是 AI 所做)。这种直接比较,使得评估结果变得异常直观。

为确保任务的专业性,资深专家平均拥有 14 年以上经验。每项任务平均经过 5 轮专家评审,最终形成包含 1,320 项任务的完整数据集,其中 220 项已开源。

测试示例:机械工程师完成工装夹具的设计任务

这是 2025 年 6 月,你是一名汽车装配线上的制造工程师。产品是一台用于地下采矿作业的电缆卷盘小车,你正在审核最终测试环节。在最终测试中,需要将一大卷电缆进行两次收放操作,以确保电缆卷盘功能符合要求。当前的测试操作流程需要两名人员配合完成:
- 第一个人负责将电缆卷盘搬运并放置到测试设备附近;
- 第二个人则将电缆卷盘的开端连接到测试设备上,并启动收缆(reel in)步骤。当电缆从卷盘上放出并卷绕到小车上时,第一个人需要手动旋转卷盘,以协助电缆顺利放出。当电缆完全收卷到小车上后,下一步是反向操作,即将电缆从小车上放出,重新卷回到原来的卷盘上。此测试需重复一次,以确保功能正常。该任务复杂、存在相关风险、需要大量人力,且会使工作区域变得杂乱。你的经理要求你设计一个工装夹具(jig/fixture),以简化电缆卷盘的收放操作,使该测试可由一人独立完成。随本请求附有一份信息文档,其中提供了关于电缆卷盘尺寸的基本信息、设计电缆卷盘工装夹具的参考资料以及交付成果的结构说明。本次任务的交付成果仅为初步概念设计方案。后续将单独开展诸如应力计算、强度分析、成本效益分析等设计基础工作。你需要使用三维建模软件设计该工装夹具,并使用 Microsoft PowerPoint 制作一份演示文稿。作为交付内容的一部分,请仅上传一份 PDF 文档,用于总结设计方案,并包含你所创建的三维设计截图。**无需提交三维设计文件本身。

image

OpenAI 的模型已经能操作三维建模软件了吗?

初步“体检报告”:AI 的表现令人惊讶

那么,这些 AI“学霸”,表现究竟如何?

在工作质量上,顶尖 AI 正在迅速接近甚至超越人类专业人士。 报告显示,在接近一半的测试任务中,最先进的 AI 模型(如 GPT-4 系列)的产出,被专家评为“与人类专家相当”或“优于人类专家”。这是一个里程碑式的信号,意味着 AI 的能力已经从完成简单、重复性的任务,跃升至可以处理需要深度专业知识和复杂判断的认知性工作。

更令人惊讶的是进步速度。从 2024 年春季发布的 GPT-4o 到 2025 年夏季的 GPT-5,模型在 GDPval 任务上的表现在一年内提升了三倍以上,呈现出清晰的线性增长趋势。

在工作效率上,AI 则展现出压倒性优势。 速度约为人类的 100 倍,成本仅为 1/100。当然,报告也非常严谨地指出了目前的局限性。AI 的惊人效率并未计入人类编写提示词、审查修改、以及将其工作成果整合进上层流程中的时间成本。

人机协作,而非替代

OpenAI 强调,GDPval 的目的并非宣告“AI 将取代人类”,而是揭示 AI 如何作为“增强工具”提升生产力

大多数知识工作并非孤立任务的简单叠加,而是包含沟通、判断、创意和责任承担的复杂过程。例如,律师不仅要写法律简报,还需理解客户模糊的需求、权衡诉讼风险、与对方谈判。这些高阶能力目前仍是人类的专属领域。

GDPval 的意义在于:将重复性、程序化的部分交给 AI,让人专注于需要创造力、同理心和战略思维的工作。比如,工程师可让 AI 生成初版设计文档,自己则聚焦于创新结构或安全验证;护士可由 AI 整理病人数据,从而有更多时间进行床边照护。

这种 “AI 打草稿,人类定稿” 的协作模式,有望在不牺牲质量的前提下,大幅降低知识工作的边际成本,进而推动整体经济增长。

尚待完善的标尺

据 OpenAI 称,目前的 GDPval 1.0 版本并非完美。它主要衡量的是“一次性”的任务完成能力,而真实的工作往往是动态和交互的,充满了沟通、反馈和多轮修改。这正是 GDPval 未来需要演进的方向——从评估“交作业”的能力,走向评估“协作完成一个项目”的能力。

尽管如此,GDPval 的推出依然意义重大。提供了一个基于实际证据的框架,去观察和理解 AI 向真实世界渗透的进程。

小编点评

虽然 GDPval 当前未包含核能行业(因其未进入美国 GDP 前九),但其方法论极具迁移价值。核能领域的研发、设计、安全评审、运维文档、应急响应等环节,同样高度依赖结构化知识输出。未来若构建“核能版 GDPval”,将有助于科学评估 AI 在提升核电安全性与经济性方面的潜力——前提是建立严格的人机协同与验证机制,确保“增强”而非“冒险”。

http://www.hskmm.com/?act=detail&tid=22077

相关文章:

  • 容器中与内存相关的几个参数
  • 第一次软工作业
  • OpenWRT中备份多个docker容器的脚本 -
  • 动态分区分配算法
  • 上海殡葬一条龙服务权威推荐:寿衣、骨灰盒购买定制服务暖心陪伴与专业仪式之选
  • potplayer截图
  • OpenAI发布提示词集
  • 303、杂诗
  • 完整教程:第三方软件测试公司:【Gatling基于Scala的开源高性能负载测试工具】
  • 微信小程序开发 - MrFlySand
  • 电脑性能优化综合指南:从网络到硬件的不全面解答
  • 连续分配管理方式
  • 验证码破解:机器学习辅助电商爬虫 - 教程
  • 【光照】[PBR][几何遮蔽]实现方法对比
  • 完整教程:C++设计模式之结构型模式:适配器模式(Adapter)
  • 网页访问速度很慢,远程仓库调用很慢
  • 深入解析:【项目】Vision Master OpenCV 3.0 版本(预)发行说明
  • 2025木方厂家权威推荐榜:实力工厂与优质供应之选
  • 10 月做题记录
  • LoRa/LoRaWAN技术手册
  • 便宜的 VPS
  • 2025南通宠物医院权威推荐榜:专业诊疗与暖心服务口碑之选
  • 【JavaScript 性能优化实战】第六篇:性能监控与自动化优化 - 指南
  • linux 系统cshrc 资料
  • 2025 年西安品质楼盘住宅推荐排行榜权威发布,精选优质楼盘推荐
  • 某商业银行项目管理建设演进报告 - 指南
  • 题解:P14073 [GESP202509 五级] 数字选取
  • 2025西安新房住宅推荐排行榜发布,房屋品质、周边配套、交通便利性多维度选择指南!
  • 华为造车“内战”!徐直军下场做“启境”,会比余承东五界更强?
  • 余承东的新职位传递了华为重大信息