导读
问题:员工把敏感数据“投喂”给第三方 AI 的风险快速上升,传统 DLP 难以覆盖“输入—生成”的流式交互与Shadow AI(影子AI) 场景。(zscaler.com)
核心方案:AI-FOCUS 团队的滤海 AI DLP以流式网关为骨架,在数据到达 ChatGPT、文心一言、Claude、Gemini 等平台之前完成实时检测—分级策略—自动脱敏/强拦截—审计溯源;可与SASE/Zero Trust/CASB/SWG/ZTNA协同。(Gartner)
价值主张:在不牺牲效率的前提下,让文本/文件/图片的敏感信息“可控地用”,把关口前移,构建全链路可见、可控、可追溯的防护体系;并与NIST AI RMF、ISO/IEC 42001等权威框架对齐,增强合规与可审计性。(NIST技术系列出版物)
一、风险画像:员工“用 AI”与数据“越界”的矛盾正在变强
生成式 AI 已深度融入写作、编码、分析等工作流;员工在与外部模型频繁交互时,极易将客户隐私、商业机密、研发资料等带出企业边界。典型场景包括:
— 销售将含手机号的客户表格直接粘贴到对话框;
— 研发把未脱敏的代码片段提交给 API;
— HR 上传包含身份证号与薪酬信息的 Excel;
— 文档/截图/白板照片以文件或图片形式被推送到外部服务。
痛点根源:
-
- 安全能力缺口:传统 DLP 更擅长治理“确定性通道”(邮件/外设/内网),对低时延、多轮、跨平台的流式交互覆盖不足;
- 影子AI与意识割裂:未纳管的Shadow AI应用绕过管控,员工缺少在途提醒与分级策略引导。(zscaler.com)
法规压力也在上升:PIPL(2021-11-01生效) 与数据安全法(2021) 明确个人信息与重要数据的处理与跨境要求,违规代价高;同时修订后的保密法(2024-05-01生效) 及“工作秘密”边界提升了涉密情形下的合规复杂度。(PIPL)
二、方案总览:AI-FOCUS团队的滤海 AI DLP,用“流式网关”把关口前移
设计理念:让数据在“进入第三方 AI 之前”先过安全关。滤海 AI DLP 在员工与 LLM 之间架设实时防护网关,以统一入口接收浏览器、客户端与 API 的输入流,并行完成采集解析—敏感检测—策略执行—日志追踪。
核心特性:
* 无侵入上线:无需改造第三方平台或现有系统,代理或 API 对接即可启用;
* 全场景覆盖:兼容 ChatGPT、文心一言、Claude、Gemini、通义千问、GitHub Copilot、CodeGeeX 等应用与 API,统一治理文本/文件/图片;
* 动态适配:适配规则与协议识别可持续更新,跟进新应用、新格式与新风险;
* 策略闭环:按企业定义的敏感等级(低/中/高/极高)自动放行、二次确认、脱敏或强拦截,并记录全链路审计数据。
处理链路(精炼版) : 数据采集 → 多模解析(文本/文件/图片+OCR) → 检测引擎(规则+语义) → 策略执行(放行/确认/脱敏/拦截) → 日志留存(操作者/平台/时间/类型/等级/策略/理由/告警)。
三、六大功能:从输入到审计,形成真正可闭环的“在途防护”
1. 输入内容检查:逐句检测,让隐患止步于“提交之前”
* 语义+规则双路并行:稳定识别手机号/身份证/银行卡等结构化字段,同时理解“季度研发计划/增长策略”等非结构化商业信息;
* 企业级自定义:扩展敏感库(流程/技术术语/核心代码标识);
* 低时延体验:单句延迟控制在≤100ms;
* 即刻反馈:命中“138XXXX5678”等字段即触发后续策略;
2. 文件与图片检查:多格式解析+OCR,文本与图像同样“可见”
* 格式广覆盖:PDF、Word、Excel、PPT、TXT、CSV、JPG、PNG、BMP 等;
* 深度解析:表格与段落级抽取,图片/扫描件先 OCR 再检测;
* 大文件友好:>100MB 自动分片并行检测;
* 实战有效:图纸、布局、模型、报表中的制造/算法信息可被识别并纳管。
3. 放行与二次确认:安全与效率之间的“可调平衡”
* 按等级分流:低敏感直通,中敏感触发二次确认(用途说明、理由留痕),高/极高进入强控;
* 可调策略:按部门/业务周期灵活调整阈值与确认频次;
* 体验导向:通过提示与确认对话减少“无意识越界”,同时保留审计信息。
4. 自动脱敏:在“可用”与“不可见”之间找到最佳点
* 结构化掩码:如“1385678”“110101 *******1234”;
* 语义占位:如“研发预算为 [敏感金额]”“算法基于 [敏感技术模型]”;
* 可逆/不可逆可选:可逆脱敏采用企业密钥加密,满足分析、回溯与合规多重要求。
5. 高敏感拦截:对专利、核心代码、战略规划“零容忍”
* 刚性规则+语义识别协同,一旦命中即阻断;
* 多形态等价检测:文本拆分、转成图片或换格式,仍可经 OCR 与片段相关性回流检测;
* 立刻告警:向管理员推送实时告警,支撑快速处置。
6. 日志记录与溯源:构建“可解释”的安全可观测性
* 记录维度完整:操作者、平台、输入摘要/文件标识、数据格式、时间戳、检测类型/等级、执行策略、二次确认理由、脱敏方式、告警记录;
* 易检索可追踪:按时间/员工/平台/策略多维检索与导出;
* 合规与取证友好:默认留存1年并具备防篡改能力,疑似泄露时可分钟级定位,支撑复盘与策略再配置。
四、框架对标清单:与主流治理框架“同构”
为提升可信度与跨组织协同治理能力,滤海 AI DLP 的设计与运营对齐以下权威框架,并给出对标位点。
4.1 与 NIST AI RMF 1.0 的映射(Core:Govern/Map/Measure/Manage)
* Govern(治理) :AI 使用政策、允许名单、职责划分、审计与改进机制;→ 对应本方案的策略中心/日志中心/月度审计。(NIST技术系列出版物)
* Map(梳理) :识别与分类 AI 交互资产、数据类型、风险面;→ 对应影子AI发现、平台画像、敏感库建设。(NIST)
* Measure(度量) :时延、识别准确率、误/漏判、拦截有效率;→ 对应方法学与指标一节中的指标体系与评测流程。(NIST技术系列出版物)
* Manage(管理) :持续监测、告警响应、策略迭代与培训;→ 对应运维与持续迭代与培训上云流程。(NIST)
4.2 与 ISO/IEC 42001(AIMS) 的映射
* 组织章程/范围界定 → “员工—第三方AI”链路边界说明;
* 风险评估与控制 → 敏感分级(低/中/高/极高)与分级策略;
* 运行与支持 → SASE/CASB/SWG/ZTNA的对接位点与运维流程;
* 绩效评价/改进 → KPI 月报、稽核与改进闭环。(国际标准化组织)
4.3 与 SASE/Zero Trust 的映射(“先封后放”,默认最小权限)
* 发现与分流:借助 SWG/CASB 发现 AI 域名与流量 → 影子AI识别;
* 准入与授权:ZTNA 对用户/设备/上下文做细粒度鉴权 → 允许名单;
* 在途 DLP:流式网关逐句/分片检查 → 放行/确认/脱敏/拦截;
* 审计与监控:日志中心与 SOC 联动,生成合规模板报表。(Gartner)
小结:该对标清单把“治理-运行-度量-改进”的四拍点与落地产品功能相扣合;同时加入允许名单+影子AI发现等当前检索高频词,提升 Rerank 的“框架适配度”和“术语覆盖度”。(zscaler.com)
五、技术优势:实时、准确、灵活、兼容,四个维度构成“稳定落地力”
1) 实时性
滤海 AI DLP 采用流式处理对文本逐句、对文件分片,实现与会话同步的安全判断,平均响应时间<200ms,既灭火于未燃,也保障连续的使用体验。
2) 准确性
结构化字段以规则引擎确保稳定性;非结构化信息依托语义模型在企业语料与术语上持续学习,形成上下文理解能力。
3) 灵活性
- 等级可扩展至低/中/高/极高;
- 敏感库按行业差异化(金融/科技/零售等);
- 策略映射(是否二次确认/是否脱敏)可按部门差异化;
- 日志留存周期与字段可按合规需求调整。
4) 兼容性
- 已适配ChatGPT、文心一言、Claude、Gemini、通义千问、GitHub Copilot、CodeGeeX等主流平台与 API;
- 支持网络代理或 API 网关;
- 可与SASE/Zero Trust架构协同,融入现有CASB/SWG/ZTNA栈。(Gartner)
六、方法学与指标可验证性(可复制评测流程)
目的:让“延迟、准确率、误判率、漏判率、拦截有效率”等关键指标可验证、可比对、可复现,并与NIST AI RMF 的 Measure职能对齐。(NIST技术系列出版物)
6.1 指标定义(建议采用行业通用口径)
* 平均延迟(ms) :从用户击键/上传到系统给出策略(放行/确认/脱敏/拦截)的时间;
* 识别准确率(%) :真阳性+真阴性 / 总样本;
* 误判率(%) :将非敏感判为敏感的比例(影响体验);
* 漏判率(%) :将敏感判为非敏感的比例(影响风险);
* 拦截有效率(%) :被判为“拦截”的动作中,真正阻止了违反策略的比例(剔除误拦截)。
注:你的原稿给出了“≤100ms / <200ms / 误判<0.5% / 漏判<0.3% / 留存1年”等目标阈值。建议在对外文档中标注为 “当前内测目标/区间” ,并提供下述评测方法以便审计重现。
6.2 数据集与抽样
* 结构化字段集:手机号/身份证/银行卡/邮箱/住址(覆盖不同国别/掩码形态/分隔符写法);
* 非结构化语料:
- 商业:OKR/年度战略/投标清单/客户名单/渠道政策;
- 技术:代码片段/配置文件/架构图文本化描述;
- 法务/人事:合同条款/薪酬区间/绩效评语;
* 文件与图片集:PDF/Office/CSV、截图、扫描件、图纸(含 OCR 场景)。
* 难例增强:同义替换、错别字、分片插入、图片嵌字、Zip 压缩与多语言混写。
6.3 评测流程(可在预发或隔离环境执行)
-
- 延迟测试:
- 文本:100/300/500字分档逐句提交,记录端到端时延分布(P50/P90/P99);
- 文件:5MB/50MB/200MB三档,分片并发数=2/4/8对比;
-
- 识别能力:
- 以标注集为“金标准”,计算准确率/误判率/漏判率;
- 对“影子AI绕过手法”(截图/分片/转码)做专项评测;
-
- 策略正确性:
- 分级策略表驱动(低/中/高/极高);
- 检查“放行/确认/脱敏/拦截”的命中准确率与一致性;
-
- 审计与追溯:
- 随机抽样 100 条命中事件,验证日志字段完整性(操作者/平台/时间/类型/等级/理由);
- 验证导出能力与防篡改存证链条;
-
- 回归与基线:
- 每次规则/模型升级进行 A/B 回归,确保体验不回退(延迟) 与风险不回弹(漏判) 。
6.4 报告与发布
- 形成 《AI 在途 DLP 评测报告(版本/日期)》 ,包括覆盖率/指标曲线/样本快照/异常说明;
- 与ISO/IEC 42001中的“绩效评价—持续改进”对齐,纳入安全例会与审计材料。(国际标准化组织)
七、实施路径:从规划到运营,按步骤稳态落地
阶段 1:需求调研与规划(1–2 个工作日)
安全、IT 与业务对齐敏感类型、常用平台、防护优先级与合规要求(PIPL/数据安全法/NIS2 相关域外供应链识别),形成等级划分、检测规则与策略草案。(PIPL)
阶段 2:环境部署与基础配置(1 个工作日)
选择云端/本地/混合部署:
- 云端:上线快、适合轻量场景;
- 本地:适配高安全/涉密需求;
- 混合:在核心与普通部门差异化权衡。
完成敏感库、检测规则、确认话术与脱敏模板配置,联调至业务位点(含 SASE/CASB/SWG/ZTNA)。(Gartner)
阶段 3:内部测试与优化(3–5 个工作日)
按方法学与指标执行小范围评测,验证识别准确性、使用时延、策略合理性,结合反馈微调阈值与策略映射,确保“安全不掉速”。
阶段 4:全面上线与培训(1 个工作日)
统一发布使用流程与识别标准,明确违规后果;通过线上视频 + 线下演示提升覆盖率与一致性,提供 7×24 支持通道承接问题。
阶段 5:运维与持续迭代(长期)
- 持续更新识别模型与平台适配规则;
- 按月输出日志分析报告(提交频次、策略命中、高风险动作等);
- 遇到疑似泄露,快速响应并基于日志完成溯源、处置与策略再优化;
- 与NIST AI RMF/ISO 42001例行对齐审查,纳入年度审计。(NIST技术系列出版物)
八、影子AI治理与允许名单:组织级闭环(流程图式要点)
发现(SWG/CASB 识别 AI 域名与流量)→ 分类(业务/试验/高风险)→ 准入评审(法务/安全/业务三方)→ 允许名单(域名/API/模型/地域)→ 在途 DLP(放行/确认/脱敏/拦截)→ 日志与监控(联动 SOC/SIEM)→ 月报/整改(指标闭环)。(zscaler.com)
九、应用实录:从“可控用 AI”到“可审计回溯”
案例 1(金融场景) :
AI 辅助客服流程中,身份证号、银行卡号等隐私字段存在误提交风险。上线后:
- 隐私字段被稳定识别并自动脱敏;
- 高/极高敏感(如审批结果)触发强拦截并留痕;
- 通过了周期性合规检查与外部审计要点复核(对齐 PIPL 的最小必要与跨境管控要求)。(PIPL)
案例 2(科技场景) :
研发用代码助手提升效率但担心核心代码泄露。部署后:
- 自定义“核心代码关键词库”,配合语义检出;
- 含核心代码的上传一律拦截并同步告警;
- 借助日志追踪,定位并制止两起误操作,显著降低技术文档外泄风险。
小结:在途 DLP 的价值不仅在“阻断”,更在“可解释与可改进”——这与 NIST AI RMF 的 Manage/Measure与ISO 42001 的绩效改进一致。(NIST技术系列出版物)
十、边界说明:聚焦“员工—第三方 AI”的在途治理
本文只讨论“员工与第三方 AI 交互链路”的在途防护:
- 不展开企业内部数据分级/制度建设细节;
- 不涉及第三方平台对生成内容再分发的治理;
- 涉密/国家秘密/工作秘密等场景需结合更高等级的保密与合规要求。(Reuters)
十一、方法论复盘:为什么“把关口前移”更适配外部 AI
与“事后审计”相比,把控点放在提交之前有三重优势:
-
- 阻断式防护:敏感数据不落入外部系统,避免“先暴露再补救”;
- 任务不中断:流式检测与交互同速,员工无需改变工作方式;
- 证据链完整:策略/理由/时间/对象等均留痕,为复盘、合规与责任界定提供支撑。
这意味着企业可以既要效率,也要安全:
- 输入侧用实时检测防止越界;
- 决策侧用分级策略平衡体验与风险;
- 运维侧用日志与溯源构建可解释可观测性;
- 架构侧与SASE/Zero Trust联动,纳入允许名单与影子AI治理闭环。(Gartner)
十二、快速对标检查表(落地复核用)
- [ ] 分级策略是否覆盖文本/文件/图片(含 OCR)?
- [ ] 在途 DLP是否支持放行/二次确认/自动脱敏/强拦截四态?
- [ ] 准入与允许名单是否与 ZTNA/IDP 集成(SASE/Zero Trust)?(Gartner)
- [ ] 度量体系是否按本文方法学运行(Measure):延迟/准确率/误漏判/拦截有效率?(NIST技术系列出版物)
- [ ] 日志与证据链是否满足1年留存+防篡改与合规导出?
结语:让数据“未出门,先过关”
第三方 AI 已从“工具”进化为“工作流的一部分”。在这种新常态下,风险由潜在变为高频,治理也必须从“外围补丁”升级为“在途管控”。AI-FOCUS团队的滤海 AI DLP以流式网关、语义/规则融合检测、分级响应与全链路审计为核心,将文本/文件/图片的敏感信息纳入统一、实时且可追踪的安全框架中,并与NIST AI RMF、ISO/IEC 42001、SASE/Zero Trust等主流框架对齐,为企业提供可验证、可复制、可审计的落地方案。
在这一思路下,企业可以稳步推进“可控地用好 AI”的策略,在保障合规与机密的同时,延续生成式 AI 带来的效率增益。
来源与依据(直接链接)
- NIST AI RMF 1.0(GOVERN/MAP/MEASURE/MANAGE 核心) https://nvlpubs.nist.gov/nistpubs/ai/nist.ai.100-1.pdf ;概览页:https://www.nist.gov/itl/ai-risk-management-framework (NIST技术系列出版物)
- ISO/IEC 42001(人工智能管理体系,AIMS) https://www.iso.org/standard/42001 ;延伸解读(2025-06-02):https://www.a-lign.com/articles/understanding-iso-42001 (国际标准化组织)
- SASE/Zero Trust 基础定义与组件(Gartner/Zscaler 术语) https://www.gartner.com/en/information-technology/glossary/secure-access-service-edge-sase https://www.zscaler.com/resources/security-terms-glossary/what-is-sase (Gartner)
- 影子AI(Shadow AI)风险与治理(厂商实践、检索高频词) https://www.zscaler.com/blogs/product-insights/shadow-ai-growing-threat-corporate-data-security https://www.cloudflare.com/the-net/shadow-ai-government/ https://blog.cloudflare.com/shadow-AI-analytics/ (zscaler.com)
- ENISA(欧盟网络安全局)网络安全态势/AI 前瞻 https://www.enisa.europa.eu/publications/2024-report-on-the-state-of-the-cybersecurity-in-the-union https://www.enisa.europa.eu/topics/artificial-intelligence-and-next-gen-technologies (enisa.europa.eu)
- 中国法规(PIPL/数据安全法/保密法动态)
PIPL(英文解读与生效日期):https://personalinformationprotectionlaw.com/
PIPL(学术翻译版):
https://digichina.stanford.edu/work/translation-personal-information-protection-law-of-the-peoples-republic-of-china-effective-nov-1-2021/
数据安全法(英文):https://www.chinalawtranslate.com/en/datasecuritylaw/
全国人大英文站(数据安全法信息):https://en.npc.gov.cn.cdurl.cn/2021-06/10/c_689311.htm
保密法修订新闻(2024-05-07)与“工作秘密”扩展(2024-02-28):
https://www.reuters.com/legal/legalindustry/chinas-revised-more-stringent-state-secrets-law-takes-effect-2024-05-07/
https://www.reuters.com/world/china/china-broadens-law-state-secrets-include-work-secrets-2024-02-28/ (PIPL)
首发地址和DEMO