当前位置: 首页 > news >正文

开源隐私计算框架SecretFlow | 基于隐语的金融全链路场景介绍和应用实践

打开链接点亮社区Star,照亮技术的前进之路。每一个点赞,都是社区技术大佬前进的动力

Github 地址: https://github.com/secretflow

本文根据蚂蚁集团隐私计算产品专家 陈步华,在「隐语城市行·成都站 X 蓉数大讲堂」的演讲分享整理。

在数字化时代,隐私保护与数据价值的挖掘成为企业关注的焦点。作为蚂蚁隐语团队的产品经理,非常高兴在这里跟大家分享隐语在隐私计算领域的最新实践与探索。

SecretPad 简介

隐语是一个清晰分层、灵活集成的一套框架,可面向不同诉求的使用者。对于具备密码学基础,希望通过隐语的密码库底层能力去补充自己已有的算法协议或优化自己的算法,这时候就可以使用 YACL 库以及 PSI、PIR 相关能力。

对于已有隐私计算平台,希望完善自己本身隐私计算算法的开发者,可以使用 FL、SCQL、SPU 等能力,从而完善自己的算法库。

上面两层其实就是平台的使用者了,最顶层用户可以直接利用 SecretPad 进行端到端的生产研发工作。

然而,在某些特定场景下,用户可能需要定制化自己的平台以适应复杂多变的业务需求。面对这种情况,用户可以通过 Kuscia 实现从顶层到底层的全链路集成,将我们的隐语平台与现有的业务流程深度融合。

这种灵活的架构设计,确保了用户能够根据实际业务需求,选择直接使用平台或进行个性化开发集成。

SecretPad 平台设计注重用户体验,易于上手。比如两家公司希望进行数据合作,首先各自部署一个 SecretPad 平台。平台支持 P2P 和中心化部署模式,双方只需将各自的数据连接至平台,可以通过本地数据上传或者连接一些数据源。

在节点授权阶段,可类似于微信添加好友来添加合作节点,我们可以确保数据的安全共享。完成平台部署和节点授权后,我们可以开始在平台上进行模型研发工作。项目创建后,合作方将本次合作数据授权给项目。

以模型研发为例,大部分工作集中在特征工程上,平台提供了一系列的特征分析和处理算子,一旦模型训练完成并通过评估,我们就会进行模型的打包和发布。

考虑到研发环境与生产环境可能不同,我们需要将模型及其特征预处理打包,并部署到生产环境,然后进行上游业务链路服务集成和调度。

以上就是基于 SecretPad 的完整使用流程。

应用实践

  • 金融风控

金融风控场景在蚂蚁集团内部的应用已久,并已成功在多家银行落地实施。

在金融风控领域,合规性要求极高,监管严格,数据无法出银行本地域。然而,跨机构数据合作对于金融机构是刚需

以银行为例,当用户通过银行 APP 提交贷款申请时,银行需要综合评估来决定是否准入,因为银行有贷款不良率、授信余额规模等评估指标。为了平衡这些指标,我们通常需要融合多方数据进行精准评估,如与金融机构进行联合建模或联合分析。

面对数据流通与数据安全合规之间的挑战,隐语平台提供了一个理想的解决方案。

通过两家机构各自部署隐语节点,我们可以实现数据的联合评估,而无需数据直接交换。

这一实践案例在蚂蚁集团内部取得了显著成效。我们成功阻止了上亿笔高风险贷款的发放,同时识别出数十万名低风险客户。

模型报告显示,与每方机构仅使用自身特征建立的单边模型相比,我们的联合模型在特定数据集上展现出了明显的 KS 效果增益。

整个平台的部署和服务发布流程虽然相似,但关键在于如何整合多方数据进行联合建模。在建模画布上,我们可以进行特征处理、特征工程、模型训练和评估等一系列操作。

以金融风控为例,银行对模型的可解释性要求较高,因此常用逻辑回归算法进行建模。在建模过程中,我们需要训练单方模型和双方模型,从而评估多方数据联合后的效果增益。

在预处理阶段,我们通常会对特征进行 woe 分箱等简单操作。评估阶段则更加关注特征共线性、相关性、模型P值以及二分类评估指标(如 AUC、KS 等),这些在信贷场景中尤为重要。

借助隐语平台,我们可以迅速搭建全链路模型训练和评估体系,以满足金融机构数据安全和效果好的需求。

  • 保险精算

近年来,随着新能源车市场占比的迅猛增长,公众普遍感受到新能源车的保费高昂或被拒保的现象愈发显著。

这背后的原因与保险公司的精确定价策略密切相关。传统燃油车保险定价主要依赖于“从险”特征,而新能源车则因其不同车型的风险和赔付成本差异大,导致部分小型保险公司因为没有精准定价能力而面临亏损。

因此,保险公司急需通过精准定价策略,为优质车主提供更优惠的保费,同时提升对高风险车主的风控水位。

车险定价的核心指标包括 NCD 系数(基于车主历史投保和赔付情况)和自主定价系数。今年4月1日,金融监管总局发布的新能源车新规显著提升了保险公司的定价权。自主定价系数的范围从原先的 0.6-1.35 调整至 0.5-1.5,与燃油车看齐,为保险公司提供了更广阔的定价空间。

在新能源车保险场景中,保险公司可以利用从人和从车相关的数据,结合蚂蚁等互联网公司多年积累的数据,通过精准的数据融合来提升定价的区分度。

目前,我们已与十余家保险公司合作,并在某家保险公司的模型上实现了超过 70% 的区分度。并且引入从人特征因子还有助于培养良好的驾驶习惯,习惯越好的车主保费越低。

在建模过程中,不同场景下的模型选型、预处理和评估方法各异。在保险精算环节,广义线性回归模型较为常用,预处理阶段常采用 one-hot 特征编码。评估阶段,保险公司会构建多个模型,并关注赔付率偏差等指标。

隐语平台提供了丰富的算子,以支持不同场景下的建模需求。

未来规划

隐语平台自开源至今即将满一年,期间支持了 Easy PSI、P2P 部署模式,在3月发布的版本中新增了在线预测功能。

本期实现了服务发布时的资源配置,包括 CPU 和内存配置,确保资源分配更为灵活与高效。同时,在模型训练过程中,我们引入了断点续训功能,有效解决了因长时间训练过程中可能出现的网络抖动或意外中断而导致需要从头训练问题。

未来我们将继续在生产可用性方面深耕,计划支持定时周期任务,支持 MPC、SCQL 串联等更多功能,以提供更加完善与便捷的服务体验。

今天我的分享就到这里,感谢各位!

http://www.hskmm.com/?act=detail&tid=36613

相关文章:

  • 2025 最新智能卫浴镜厂家推荐榜单:家装酒店工装优选,除雾语音多功能品牌权威盘点多功能/语音/蓝牙/led/带灯智能卫浴镜厂家推荐
  • win11暂停更新
  • 2025 年陶土砖生产厂家最新推荐权威榜单:劈开/红色/干挂/砌筑/仿古/透气/耐火/异型/装饰/外墙陶土砖产品及生产流程优势全面解读
  • zlog3
  • 2025多校冲刺CSP模拟赛7
  • 视频汇聚平台EasyCVR级联播放偶发失败排查:TCP主动模式下的3秒超时响应差
  • redis 5.0单机部署
  • 企业微信ipad协议,标准化接口服务解决方案
  • Python-配置PyCharm使用正确的Python解释器
  • pytorch第66页
  • Navicat Premium 17 官方版下载安装教程|支持MySQL、PostgreSQL、MongoDB等数据库
  • 从埋点到用户行为分析:ClkLog 如何帮助企业读懂用户
  • 函数的高级
  • C#实现OPC客户端
  • Gitee:数字化转型浪潮中的项目管理利器
  • 有什么指标可以判断手机是否降频
  • 实用指南:Linux内核kallsyms符号压缩与解压机制
  • 5G企业应用的七大场景与商业机遇
  • 2025 水泥墩源头厂家最新推荐排行榜:光伏 / 围挡 / 交通 / 防撞水泥墩多品类优选,实力品牌权威榜单
  • 高效数据结构 - 循环队列
  • 2025 年国内活塞杆厂家最新推荐排行榜:聚焦精密 / 不锈钢 / 油缸 / 气缸 / 45# 镀铬类产品,助力企业精准挑选可靠合作方
  • Day16
  • 数据类型,二元运算符,自动类型提升规则,关系运算,取余模运算
  • 股票技术面分析平台QuantMatrix深度解析 - 实践
  • 迷宫问题
  • WPF使用MediaCapture开发相机应用(四、相机录视频)
  • 链队
  • Gitee本土化战略深度解析:中国开发者生态的合规与效率革命
  • 2025年10月上海装修公司口碑榜:十强对比评测
  • 02-GPIO-铁头山羊STM32标准库新版笔记