当前位置：首页 > news >正文

记一次的AI Agent开发的思维误区

news 2025/10/12 19:10:29

写在前面

无论博客还是公号，我都很久不写东西了，去年、今年两年发生了太多的事，我没法梳理，也不想梳理了，本能的想着用时间来冲淡一切的一切，但是现实就是无法如愿。

自然文章、博客也就停滞了，相应的阅读量和粉丝也严重下滑了，也在学着接受了现实的一切，更多的是和自己和解的过程吧。

为什么写这篇文章

可能是灵感来了吧，说实话，这篇文章应该产出在好几个月之前的吧，现在的我看来只能算是余温尚存吧，也许再过个把月，也就忘了，算是记录下笔记用。

事情起因

废话文学部分结束，下面进入正题。

时间可以追溯到MCP突然爆火那段时间，也学着参考官方demo，天气预报的例子，顺便加了个学生管理的工具，大改搞明白了这东西是咋回事，唯一难得就是需要一个支持tools和function call这种的模型，无奈真穷，先告一段落。

从此，大模型在心里扎根了，总有一种跃跃欲试的感觉。

终于，一次偶然的机会，之前开发的插件，用户在使用过程遇到了不兼容的情况，导致无法被程序识别处理。

我就在想，"要是能把眼睛附加在识别程序上，那该多酷呀！"

于是，我便想到了大模型，从此入坑了大模型开发了。

由于公司有自己部署的大模型，按照上面的思路，我的应用得有眼睛和思考功能。

所以优先考虑了多模态模型，也就是要有视觉识别、图像推理、有关图像的处理的能力，这里我选用的是Llama-4。

整体思路：大模型视觉识别图像 - > 图像推理 - > 给出判断 -> 执行对应逻辑

遇到的问题

很快，我将LLM接入应用，同样，也遇到了很多问题！

现将遇到的问题记录如下：

同一个图片，大模型返回结果不一致
整体处理时间延长三倍以上
针对特殊位置的图片识无法识别
机器学习覆盖率低
记忆库无法命中实时图片，badcase越来越多
缓存虽能提速降本，但因语义误判、上下文丢失和信息过时等问题易导致准确性下降。
很多大模型没有置信度那个字段返回，硬头皮写也没意义

解决方案

1、同一个图片，大模型返回结果不一致

优化提示词，使用提示词路由来区分，分层管理提示词，即专业的人办专业的事，方便维护管理。

2、整体处理时间延长三倍以上

性能范畴，大模型的优化，使用缓存技术，一定程度可以降低大模型调用压力及返回提速

3、针对特殊位置的图片识无法识别

采用记忆库感知哈希标记特殊图片

4、机器学习覆盖率低，记忆库无法命中实时图片，badcase越来越多

机器学习训练数据覆盖有限，泛化能力弱，难以应对用户上传的各种奇葩图片，容易误判，弃用该方案。

5、缓存虽能提速降本，但因语义误判、上下文丢失和信息过时等问题易导致准确性下降。

本质是为了解决大模型调用返回慢，并发调用会出现调用失败和返回错误问题，而且使用缓存会影响大模型的返回结果，该方案弃用。

6、很多大模型没有置信度那个字段返回，硬头皮写也没意义

目前绝大多数大模型 API（如 GPT、通义、文心等）不会返回置信度字段，强行在应用层“硬写”一个置信度，属于自欺欺人，无实际意义，该方案弃用。

最后解决方案

由于用户上传图片极为多样，100张训练图片无法覆盖所有情况，小模型方案不适合我的业务场景，因此机器学习方案弃用！

大模型虽然能力强，但性能和稳定性不达标，准去率上不去，鲁棒性差，无法作为主力方案，因此大模型这条路也堵死了！

得出结论

OpenCV直接对图片做特征提取和规则判断是当前最优解，可通过不断优化规则和特征检测，覆盖绝大多数场景，且性能高、成本低、易于维护。

对极端异常图片，采用人工审核，但不作为主流程。

写在最后

在打开文章草稿箱才发现，这篇文章写于一个多月前，而且还没写完！

隔着屏幕都感受到我多尴尬了，主要是写文章的思路和感觉都断了，可能会让读的人，叔你写的文章，好随意呀！

抱歉，岁数大了，我后面注意，尽量一气呵成！

本文旨在记录一次大模型开发的真实感受，虽然，最终未采用大模型技术，但还是体验了一把大模型开发的感觉，也算值了！

正应了那句，没有条件创造条件也要上，哈哈！

用文字记录成长，我还是要勤奋一些的，后面还是争取多一些分享，如文章对你有帮助，帮我点个赞即可，谢谢啦！

查看全文

http://www.hskmm.com/?act=detail&tid=29499

3_Linux 文件管理三部曲：操作、结构与权限控制

2_终端入门：从 “不敢点” 到 “离不开” 的 5 个核心命令（附高频命令补充）

1_从 0 到 1 入门 Linux：认知、选型、安装

02020509 EF Core高级09-生成静态表达式树、动态创建表达式树、简化表达式树

初识pytorch：关于数据展示的组件tensorboard

win11家庭版升级到专业版教程，专业版改为家庭版教程

计网思维导图总结

如何下载不同版本的像素地牢

一生一芯学习：多道程序 yield-os.c

速通ACM省铜第十六天赋源码（Sigma Cubes和Find Permutation 2和Rotate and Sum Query） - 教程

springboot大学校园旧物捐赠网站（代码+数据库+LW） - 详解

DropLoRA 论文浅读：通过动态子空间学习突破 LoRA 的性能瓶颈

python基础知识

switch语句的简单应用

操作系统CPU和内核思维导图总结

defold游戏引擎与lua(teal)编程语言

03 数值类型拓展

python如何引用变量的名称

Python GIL与No-GIL技术详解

fuse.js前端搜索简单使用的三个案例

题解：AT_abc288_h [ABC288Ex] A Nameless Counting Problem