当前位置：首页 > news >正文

LLM安全新威胁：为什么几百个毒样本就能破坏整个模型

news 2025/10/25 19:10:32

数据投毒，也叫模型投毒或训练数据后门攻击，本质上是在LLM的训练、微调或检索阶段偷偷塞入精心构造的恶意数据。一旦模型遇到特定的触发词，就会表现出各种异常行为——输出乱码、泄露训练数据、甚至直接绕过安全限制。

这跟提示注入完全是两码事。提示注入发生在推理阶段，属于临时性攻击；而投毒直接改写了模型的权重，把恶意行为永久刻进了模型里。

几种主流的攻击方式

预训练投毒最隐蔽，攻击者把恶意文档混进海量的预训练语料，在模型最底层埋下后门。微调投毒则是在RLHF或监督学习阶段动手脚，贡献一些看起来正常实则带毒的样本。

RAG系统也不安全。攻击者可以污染向量数据库里的文档或embedding，让检索系统在生成回答时调用错误甚至恶意的上下文。还有标签翻转这种简单粗暴的方法，直接改掉训练样本的标签来扭曲模型的决策边界。

最巧妙的是后门触发器攻击——把一个看似无害的短语或token序列跟特定的恶意输出绑定。模型一旦在推理时碰到这个触发器，就会立刻执行预设的恶意行为。

https://avoid.overfit.cn/post/b5f759d6ec8b4174afbf1f4ce46c2fa7

http://www.hskmm.com/?act=detail&tid=38968

相关文章：

文档扩展名.js .jsx .ts .tsx区别（JavaScript扩展名、React扩展名、TypeScript扩展名）

MySQL5.7安装及配置

ASP.NET Core Blazor简介和快速入门三（布局和路由）

碎碎念（0....）

玩转单片机之智能车小露——通过UART为单片机增加TTY终端

mysql数据库学习之用户权限管理(四) - 实践

2025超纯水推荐品牌，哪个品牌口碑好？

cnbook主题风格美化 —— 01（未完成）

2025 年热镀锌方管立柱制造厂家最新推荐榜，技术实力与市场口碑深度解析佛山/顺德/广州薄壁/异形/Q235厂家推荐

【嵌入式】IIC和SPI的比较

session、cookie、token的区别

AppSec与事件响应的融合实践

权威调研榜单：电磁加热器厂家TOP3榜单好评深度解析

CSP-S模拟39 ( 2025多校冲刺CSP模拟赛8 )

2025年市面上双曲铝单板品牌、行业内双曲铝单板厂家、市场双曲铝单板产品、目前双曲铝单板供应商、口碑好的双曲铝单板公司排行榜

2025市面上双曲铝单板品牌、行业内双曲铝单板厂家、市场双曲铝单板产品、口碑好的双曲铝单板厂家、2025年双曲铝单板供应商权威排名

2025市面上双曲铝单板品牌、行业内双曲铝单板生产厂家、市场双曲铝单板供应厂家、目前双曲铝单板实力厂家、口碑好的双曲铝单板公司排行榜

2025 年调直机厂家最新推荐排行榜权威发布：聚焦伺服 / 高速 / 铁线 / 扁铁机型，揭秘行业优质企业

2025年10月导电炭黑厂家全景解析报告，基于专业测评的技术、性能及市场优势深度分析

全新的图形化AI编程软件——aily blockly公测来咯

2025年市面上美国留学品牌、口碑好的美国留学产品、2025年美国留学渠道商、评价高的美国留学服务商、美国留学品牌推荐榜综合评测

2025年市面上美国留学品牌、2025年美国留学品牌、口碑好的美国留学品牌、热门的美国留学品牌、美国留学品牌推荐榜深度评测

gu

2025 年导电炭黑厂家最新推荐榜：聚焦企业专利技术、品质管控及知名客户合作案例的权威解析

docker 端口映射

C语言基础补全

「学习笔记」PHP 基础