当前位置: 首页 > news >正文

自监督提示优化SPO

SPO这是一个无需外部参考即可为封闭式和开放式任务发现有效提示的高效框架。受提示质量直接体现在LLM输出中以及LLM能够有效评估对任务要求的遵循程

度的观察启发,我们仅从输出比较中得出评估和优化信号。具体来说,SPO通过LLM评估器评估的成对输出比较来选择更优的提示,然后通过LLM优化器将输出

与任务要求对齐。大量实验表明,SPO在性能上优于现有的最先进的提示优化方法,同时成本显著降低(例如,仅为现有方法的1.1%到5.6%),并且所需的样本

更少(例如,仅需三个样本)。代码可在https://github.com/geekan/MetaGPT获取。

SPO在基本的优化-执行-评估循环基础上,引入了几个创新机制:

1)。输出作为成对评估参考:SPO的核心是采用成对比较方法,评估不同提示的输出的相对质量。这种评估机制利用了LLM理解任务要求的固有能力,在没有外部参考的情况下验证优化的有效性。
2)。输出作为优化指导:SPO通过LLM对当前最佳输出的更好解决方案的理解来优化提示。这个过程自然地将提示修改与模型对最佳任务解决方案的理解保持一致,而不是依赖明确的优化信号。

主要优化:

1).自监督提示优化框架。我们介绍了SPO,这是一个新颖的框架,它利用LLM输出的成对比较来指导提示优化,无需外部参考。
2).成本效益优化。SPO以最少的计算开销(每个数据集0.15美元)和样本需求(3个样本)优化提示,显著降低了资源需求。
3).广泛的评估。如图2所示,SPO仅需现有方法1.1%到5.6%的成本,同时在封闭式和开放式任务中保持卓越的性能。

提示优化中的评估框架

提示优化评估框架,涵盖了三个关键组成部分:评估来源、评估方法和反馈类型

SPO 的理论基础建立在两个关键观察之上:

1)输出作为优化指导。

2)输出作为成对评估参考。 

摘自有删改:SPO:自监督提示词优化

http://www.hskmm.com/?act=detail&tid=35998

相关文章:

  • Java中的注释
  • 实测!不同场景下,哪款 AI IDE 能真正帮你少加班?
  • CSP-S模拟36 2025.10.21
  • 2025 年 AI 编程工具生成效果全景比拼:从技术实力到综合评分
  • 打造AI IDE标杆产品,腾讯CodeBuddy深度全方位解析
  • C语言项目开发常用目录结构 - Invinc
  • 2025年不锈钢水箱厂家权威推荐榜:方形/圆形/消防/生活/保温/承压/装配式/焊接水箱及水塔水罐全解析
  • day03-Coze记忆-对话体验
  • 2025年流量计厂家权威推荐榜单:电磁流量计、超声波流量计、涡街流量计、质量流量计专业制造商深度解析
  • RNDIS让Air8000的USB上网更智能、更快速!
  • 如果k8s有三个calico节点A,B,C 使用bgp模式的话是如何进行BGP对等会话的
  • 10.21
  • home-assistant-Onboarding Home Assistant(入职家庭助理)
  • Day1标签语法
  • home-assistant-Concepts and terminology概念和术语
  • 2025年印染水洗机厂家权威推荐榜:高效水洗设备与环保节能技术深度解析,专业水洗机厂家精选
  • 高级语言程序设计第二次作业
  • 有关K8s calico IPIP模式的一些疑惑和思考
  • 1.正手握拍
  • 2025年角接触轴承厂家推荐排行榜,高精度/高承载/高精密/机床主轴/汽车/定制/可替代进口/高转速/高刚性角接触球轴承公司推荐
  • 7-Zip最新版 7-Zip25.01
  • 2025年精密球轴承厂家权威推荐榜:半导体设备轴承,机床主轴轴承,真空泵轴承,国产高端精密球轴承,晶圆搬运机械手臂不锈钢轴承
  • 结对项目-实现四则运算题目的命令行程序
  • 从易路iBuilder平台看企业人力资源的AI转型升级与变革
  • 从零开始,搭建自己的AI平台写小说
  • UMDF驱动开发入门:创建虚拟设备,从安装到I/O交互全解析
  • 2025年AI优化公司电话推荐:十家可验证服务商沟通备忘
  • 2025深圳离婚律所电话推荐:家理律所福田诺德中心25楼
  • 1242. 多线程网页爬虫
  • 使用SpringBoot + Thymeleaf + MyBatisPlus实现一个简单的书籍管理系统-demo2