当前位置: 首页 > news >正文

记一次的AI Agent开发的思维误区

image

写在前面

无论博客还是公号,我都很久不写东西了,去年、今年两年发生了太多的事,我没法梳理,也不想梳理了,本能的想着用时间来冲淡一切的一切,但是现实就是无法如愿。

自然文章、博客也就停滞了,相应的阅读量和粉丝也严重下滑了,也在学着接受了现实的一切,更多的是和自己和解的过程吧。

为什么写这篇文章

可能是灵感来了吧, 说实话,这篇文章应该产出在好几个月之前的吧,现在的我看来只能算是余温尚存吧,也许再过个把月,也就忘了,算是记录下笔记用。

事情起因

废话文学部分结束,下面进入正题。

时间可以追溯到MCP突然爆火那段时间,也学着参考官方demo,天气预报的例子,顺便加了个学生管理的工具,大改搞明白了这东西是咋回事,唯一难得就是需要一个支持tools和function call这种的模型,无奈真穷,先告一段落。

从此,大模型在心里扎根了,总有一种跃跃欲试的感觉。

终于,一次偶然的机会,之前开发的插件,用户在使用过程遇到了不兼容的情况,导致无法被程序识别处理。

我就在想,"要是能把眼睛附加在识别程序上,那该多酷呀!"

于是,我便想到了大模型,从此入坑了大模型开发了。

由于公司有自己部署的大模型,按照上面的思路,我的应用得有眼睛和思考功能。

所以优先考虑了多模态模型,也就是要有视觉识别、图像推理、有关图像的处理的能力,这里我选用的是Llama-4。

整体思路:大模型视觉识别图像 - > 图像推理 - > 给出判断 -> 执行对应逻辑

遇到的问题

很快,我将LLM接入应用,同样,也遇到了很多问题!
image

现将遇到的问题记录如下:

  1. 同一个图片,大模型返回结果不一致
  2. 整体处理时间延长三倍以上
  3. 针对特殊位置的图片识无法识别
  4. 机器学习覆盖率低
  5. 记忆库无法命中实时图片,badcase越来越多
  6. 缓存虽能提速降本,但因语义误判、上下文丢失和信息过时等问题易导致准确性下降。
  7. 很多大模型没有置信度那个字段返回,硬头皮写也没意义

解决方案

1、同一个图片,大模型返回结果不一致

优化提示词,使用提示词路由来区分,分层管理提示词,即专业的人办专业的事,方便维护管理。

2、整体处理时间延长三倍以上

性能范畴,大模型的优化,使用缓存技术,一定程度可以降低大模型调用压力及返回提速

3、针对特殊位置的图片识无法识别

采用记忆库感知哈希标记特殊图片

4、机器学习覆盖率低,记忆库无法命中实时图片,badcase越来越多

机器学习训练数据覆盖有限,泛化能力弱,难以应对用户上传的各种奇葩图片,容易误判,弃用该方案。

5、缓存虽能提速降本,但因语义误判、上下文丢失和信息过时等问题易导致准确性下降。

本质是为了解决大模型调用返回慢,并发调用会出现调用失败和返回错误问题,而且使用缓存会影响大模型的返回结果,该方案弃用。

6、很多大模型没有置信度那个字段返回,硬头皮写也没意义

目前绝大多数大模型 API(如 GPT、通义、文心等)不会返回置信度字段,强行在应用层“硬写”一个置信度,属于自欺欺人,无实际意义,该方案弃用。

最后解决方案

由于用户上传图片极为多样,100张训练图片无法覆盖所有情况,小模型方案不适合我的业务场景,因此机器学习方案弃用!

大模型虽然能力强,但性能和稳定性不达标,准去率上不去,鲁棒性差,无法作为主力方案,因此大模型这条路也堵死了!

得出结论

OpenCV直接对图片做特征提取和规则判断是当前最优解,可通过不断优化规则和特征检测,覆盖绝大多数场景,且性能高、成本低、易于维护。

对极端异常图片,采用人工审核,但不作为主流程。

写在最后

在打开文章草稿箱才发现,这篇文章写于一个多月前,而且还没写完!

image

隔着屏幕都感受到我多尴尬了,主要是写文章的思路和感觉都断了,可能会让读的人,叔你写的文章,好随意呀!

抱歉,岁数大了,我后面注意,尽量一气呵成!

本文旨在记录一次大模型开发的真实感受,虽然,最终未采用大模型技术,但还是体验了一把大模型开发的感觉,也算值了!

image

正应了那句,没有条件创造条件也要上,哈哈!

用文字记录成长,我还是要勤奋一些的,后面还是争取多一些分享,如文章对你有帮助,帮我点个赞即可,谢谢啦!

http://www.hskmm.com/?act=detail&tid=29499

相关文章:

  • 3_Linux 文件管理三部曲:操作、结构与权限控制
  • 2_终端入门:从 “不敢点” 到 “离不开” 的 5 个核心命令(附高频命令补充)
  • 1_从 0 到 1 入门 Linux:认知、选型、安装
  • 02020509 EF Core高级09-生成静态表达式树、动态创建表达式树、简化表达式树
  • 决胜职场:以准备为刃,破局而出
  • python的流程控制
  • 卖萌求 AccessKey
  • 详细介绍:【Linux】线程控制
  • 初识pytorch:关于数据展示的组件tensorboard
  • win11家庭版升级到专业版教程,专业版改为家庭版教程
  • 计网思维导图总结
  • 如何下载不同版本的像素地牢
  • 一生一芯学习:多道程序 yield-os.c
  • 速通ACM省铜第十六天 赋源码(Sigma Cubes和Find Permutation 2和Rotate and Sum Query) - 教程
  • Linux操作系统扫盲汇总
  • ABC round 427
  • 卸载驱动模块,内核崩溃排查调试记录
  • 详细介绍:游戏引擎以及游戏开发
  • springboot大学校园旧物捐赠网站(代码+数据库+LW) - 详解
  • DropLoRA 论文浅读:通过动态子空间学习突破 LoRA 的性能瓶颈
  • python基础知识
  • switch语句的简单应用
  • 操作系统CPU和内核思维导图总结
  • defold游戏引擎与lua(teal)编程语言
  • 03 数值类型拓展
  • python如何引用变量的名称
  • Python GIL与No-GIL技术详解
  • fuse.js前端搜索简单使用的三个案例
  • 题解:AT_abc288_h [ABC288Ex] A Nameless Counting Problem
  • 2025 年 CBN 砂轮源头厂家最新推荐榜单:专业实力与客户满意度全景解析及选购指南