写在前面
无论博客还是公号,我都很久不写东西了,去年、今年两年发生了太多的事,我没法梳理,也不想梳理了,本能的想着用时间来冲淡一切的一切,但是现实就是无法如愿。
自然文章、博客也就停滞了,相应的阅读量和粉丝也严重下滑了,也在学着接受了现实的一切,更多的是和自己和解的过程吧。
为什么写这篇文章
可能是灵感来了吧, 说实话,这篇文章应该产出在好几个月之前的吧,现在的我看来只能算是余温尚存吧,也许再过个把月,也就忘了,算是记录下笔记用。
事情起因
废话文学部分结束,下面进入正题。
时间可以追溯到MCP突然爆火那段时间,也学着参考官方demo,天气预报的例子,顺便加了个学生管理的工具,大改搞明白了这东西是咋回事,唯一难得就是需要一个支持tools和function call这种的模型,无奈真穷,先告一段落。
从此,大模型在心里扎根了,总有一种跃跃欲试的感觉。
终于,一次偶然的机会,之前开发的插件,用户在使用过程遇到了不兼容的情况,导致无法被程序识别处理。
我就在想,"要是能把眼睛附加在识别程序上,那该多酷呀!"
于是,我便想到了大模型,从此入坑了大模型开发了。
由于公司有自己部署的大模型,按照上面的思路,我的应用得有眼睛和思考功能。
所以优先考虑了多模态模型,也就是要有视觉识别、图像推理、有关图像的处理的能力,这里我选用的是Llama-4。
整体思路:大模型视觉识别图像 - > 图像推理 - > 给出判断 -> 执行对应逻辑
遇到的问题
很快,我将LLM接入应用,同样,也遇到了很多问题!
现将遇到的问题记录如下:
- 同一个图片,大模型返回结果不一致
- 整体处理时间延长三倍以上
- 针对特殊位置的图片识无法识别
- 机器学习覆盖率低
- 记忆库无法命中实时图片,badcase越来越多
- 缓存虽能提速降本,但因语义误判、上下文丢失和信息过时等问题易导致准确性下降。
- 很多大模型没有置信度那个字段返回,硬头皮写也没意义
解决方案
1、同一个图片,大模型返回结果不一致
优化提示词,使用提示词路由来区分,分层管理提示词,即专业的人办专业的事,方便维护管理。
2、整体处理时间延长三倍以上
性能范畴,大模型的优化,使用缓存技术,一定程度可以降低大模型调用压力及返回提速
3、针对特殊位置的图片识无法识别
采用记忆库感知哈希标记特殊图片
4、机器学习覆盖率低,记忆库无法命中实时图片,badcase越来越多
机器学习训练数据覆盖有限,泛化能力弱,难以应对用户上传的各种奇葩图片,容易误判,弃用该方案。
5、缓存虽能提速降本,但因语义误判、上下文丢失和信息过时等问题易导致准确性下降。
本质是为了解决大模型调用返回慢,并发调用会出现调用失败和返回错误问题,而且使用缓存会影响大模型的返回结果,该方案弃用。
6、很多大模型没有置信度那个字段返回,硬头皮写也没意义
目前绝大多数大模型 API(如 GPT、通义、文心等)不会返回置信度字段,强行在应用层“硬写”一个置信度,属于自欺欺人,无实际意义,该方案弃用。
最后解决方案
由于用户上传图片极为多样,100张训练图片无法覆盖所有情况,小模型方案不适合我的业务场景,因此机器学习方案弃用!
大模型虽然能力强,但性能和稳定性不达标,准去率上不去,鲁棒性差,无法作为主力方案,因此大模型这条路也堵死了!
得出结论
OpenCV直接对图片做特征提取和规则判断是当前最优解,可通过不断优化规则和特征检测,覆盖绝大多数场景,且性能高、成本低、易于维护。
对极端异常图片,采用人工审核,但不作为主流程。
写在最后
在打开文章草稿箱才发现,这篇文章写于一个多月前,而且还没写完!
隔着屏幕都感受到我多尴尬了,主要是写文章的思路和感觉都断了,可能会让读的人,叔你写的文章,好随意呀!
抱歉,岁数大了,我后面注意,尽量一气呵成!
本文旨在记录一次大模型开发的真实感受,虽然,最终未采用大模型技术,但还是体验了一把大模型开发的感觉,也算值了!
正应了那句,没有条件创造条件也要上,哈哈!
用文字记录成长,我还是要勤奋一些的,后面还是争取多一些分享,如文章对你有帮助,帮我点个赞即可,谢谢啦!