当前位置：首页 > news >正文

隐私保护与联邦学习文献阅读

news 2025/9/27 20:43:07

导读

　　《Federated Machine Learning: Concept and Applications》

　　《A Comprehensive Survey of Privacy-preserving Federated Learning》

　　本文主要对上面两篇联邦学习(FL)综述文章进行了概括总结。

1、FL概念与分类

　FL的定义

　　　定义：联邦学习允许多个客户端在不交换原始数据的情况下协作训练全局模型，其目标是控制模型精度损失在可接受范围内，以实现数据隐私保护与模型性能的平衡。

　　　δ-Accuracy：FL在分布式节点协作得到的模型与传统数据集合上训练的模型精度的差值在δ以内，则说明该FL具有δ-精度损失。

　　　有效性：存在至少一个客户端满足联邦学习协作完成的模型所得到的精度要比这个客户端在本地训练的模型精度要高。

　FL的训练过程

　　FL系统两个主要角色：客户端、服务器。

　　训练过程：

　　　Step1.服务器初始化模型、权重，分配任务，激活客户端。

　　　Step2.在客户端进行本地模型训练和更新。客户端接收全局模型信息并使用本地数据集更新本地模型参数，完成训练后将本地模型参数发送到服务器融合。

　　　Step3.服务器全局模型融合和更新。服务器首先聚合所选客户端发送的信息，然后将更新的信息发送回客户端，最终目标是获得全局最优模型参数。

　　满足终止条件（到达迭代次数或者准确度大于阈值），服务器终止训练，聚合更新并将全局模型分发给所有客户端。

　伪代码分析

　　服务器从n个客户端中随机选择m个客户端组成集合进行训练，根据选中的m个客户端的本地模型返回的权重按本地数据量加权平均聚合,一共进行R轮。

　　被选中的客户端将训练后的模型参数和本地数据量返回给服务器。

　FL的分类

　　水平联邦学习：不同参与者的数据在特征空间上相似，但在样本空间上不同。类比：不同银行的用户特征相似（年龄、收入），但用户群体不同。通信架构：客户端-服务器(c-s)、点对点(p2p)。

　　水平联邦可以划分为client-server和peer-to-peer架构。客户端-服务器体系结构使用集中计算，因为有一个中央服务器用于编排整个训练过程。点对点架构使用去中心化计算，因为没有中心服务器，每轮训练中都会随机选择一个客户端作为服务器。

　　k个具有相同数据结构的参与者在参数或云服务器的帮助下协作学习机器学习模型。过程分四步：

　　Step 1: 参与者在本地计算训练梯度，使用加密，差分隐私或秘密共享技术掩盖梯度的选择，并将掩蔽的结果发送到服务器；

　　Step 2: 服务器执行安全聚合（在不了解有关任何参与的信息情况下）；

　　Step 3: 服务器将汇总结果发回给参与者；

　　Step 4: 参与者使用解密的梯度更新各自的模型。

　　peer-to-peer架构有两种通信协议： 1、循环传输。客户端组织成一个循环链，依照链的顺序发送更新模型，满足终止条件后停止训练。 2、随机传输。在这个协议中，客户随机挑选另一个客户并发送模型信息，后者收到信息后使用本地数据集更新收到的信息，然后同样随机发送给别的客户机。直到满足停止条件后停止。

　　垂直联邦学习：不同参与者的数据在样本空间上相似，但在特征空间上不同。类比：同一地区的银行和电商，用户群相同，但特征不同。通信架构：有/无第三方协调器。

　　有第三方：C1和C2不直接交换敏感信息，通过C3中转。计算和通信的负担部分转移给了C3。安全性较高，但存在单点故障/信任风险。如果C3被攻破或与某一方合谋，隐私可能泄露。

　　无第三方：C1和C2直接进行多轮安全通信。双方需要执行更多的加密、解密和交互步骤。安全性更高。消除了对第三方的依赖，隐私保护完全由密码学协议（同态加密、秘密共享等）保证。

　　联邦迁移学习：样本和特征空间都很少重叠。可分为3类：基于实例、基于特征、基于参数的FTL。

　　基于实例：假设源域中数据集中的一些标记实例可以重新加权并应用于目标域中的训练。（水平样本重新加权，垂直提取有好特征的样本）

　　基于特征：最小化域差异学习良好的特征表示，从而可以有效地编码从源域到目标域的转换知识。（水平最小化数据集差异，垂直最小化特征差异）

　　基于参数：利用源域和目标域模型之间共享的参数或超参数的先验分布来有效地编码转换知识。（水平训练全局模型，根据不同客户端微调。垂直训练对齐标签样本预测模型来预测未对齐标签样本）

2、相关概念与工作

　　分布式机器学习：分为数据并行、模型并行。数据并行：数据分区，本地训练模型。模型并行：模型划分，在本地用全部数据集进行训练。

　　移动边缘计算：通过更靠近边缘用户的地方执行计算任务减少网络的拥塞。因此，它可以为客户快速部署新服务或应用程序。

　　分割计算：无需与中央服务器交换数据集。每个用户将一个模型训练切割层。然后将中间参数传输到中央服务器，完成剩余层的训练。

　　隐私保护的机器学习：参数服务器将数据存储在分布式工作节点上，通过中央调度节点分配数据和计算资源，从而更有效地训练模型。

　　联邦数据库系统：联邦数据库系统在彼此交互的过程中不包含任何隐私保护机制

3、通用隐私保护机制综述

　　隐私保护的三种类型的通用隐私保护机制：加密技术、扰动技术和匿名技术

加密技术

　　同态加密：一种加密方法，允许在加密后的数据上直接进行计算，而无需先解密数据。分为部分同态加密（只支持+ or *）和完全同态加密（同时支持+ and *）。

　　秘密共享：形式为（t，n），即对于n个参与方，至少有t个参与方共享才能够重新重构秘钥。原理是将秘密分成若干份，交给不同的人去保管，设定管理秘密的一定数量的人贡献出自己持有的秘密，就可以恢复秘密。

　　多方安全计算：假设存在 n 个参与方 P1, P2 ... Pn，每个参与方都有一个私有输入数据 Xi，所有参与方共同计算某个函数 f(x1，x2 ... xn），且要求在计算结束时，每个参与方 Pi 只能得到私有输入数据 Xi 的输出，而不能获取其他参与方的输入信息及输出结果信息。

扰动技术

　　差分隐私：基于概率统计模型来量化数据集中实例的隐私信息泄露程度。分为全局差分隐私技术和局部差分隐私技术。全局有可信第三方，在查询结果上加噪声。局部无可信第三方，每个用户在本地加噪声。

　　加性扰动：加法：通过添加来自特定分布（例如均匀分布或高斯分布）的随机噪声来保护原始数据的隐私。

　　乘性扰动：乘法：使用来自特定分布的噪声与原始数据相乘，将原始数据点转换到某个空间。与加性扰动相比，乘性扰动更有效，因为从乘性扰动的扰动数据重建原始数据更困难。

匿名技术

　　保持已发布数据的实用性的同时，通过删除可识别信息来实现基于组的匿名化。有三种广泛可用的匿名技术：k-匿名，l-多样性，t-亲密度。这些技术主要是为了结构化数据开发的，包括主要的三个属性：ID，敏感属性，非敏感属性。

隐私保护指标

　　1、度量数据集隐私损失的隐私指标。（隐私损失了多少）2、度量受保护数据的效用指标。（数据还有多有用）

4、PPFL分类与综述

5w场景分类法

　　WHO:内部参与者（参与客户端和中央服务器）和外部参与者（模型消费者和窃听者）。风险从高到低依次为：恶意服务器 > 恶意模型使用者 > 恶意客户机 > 窃听者。

　　WHAT:被动攻击：被动黑盒攻击和被动白盒攻击。黑盒只能查询结果，而不能访问模型参数或中间训练更新。白盒可以访问中间训练更新、模型参数和查询结果。 主动攻击旨在主动影响训练过程，提取训练数据集的敏感信息。影响:主动攻击>被动白盒攻击>被动黑盒攻击。

　　WHEN:训练阶段、推理阶段。训练阶段风险主要在模型更新时。推理阶段风险与最终模型有关。1、基于模型参数的攻击。利用模型参数进行推理攻击，提取参与者训练数据集的敏感信息。2、基于模型查询的攻击。隐私泄露主要是由推理攻击引起的。

　　WHERE:权重更新、梯度更新和最终模型。训练过程：梯度/权重泄露风险传输中的梯度或权重更新源于私有数据，可能被恶意参与者或窃听者获取，用于推断原始信息。模型聚合：权重分析风险恶意服务器或参与者可通过分析聚合权重，并比较不同轮次的模型差异，来实施更复杂的属性推断攻击。模型发布：最终模型泄露风险（最严重）发布的最终模型编码了全部训练数据的特征。

　　WHY:隐私攻击的目的通常是推断训练数据集的敏感信息推理攻击可以分为四类： 1、类代表的推理:生成代表样本，这些代表样本不是训练数据集的真实数据实例，但可以用来研究训练数据集的敏感信息；2、成员关系的推断:确定一个数据样本是否已被用于模型训练；3、训练数据的属性推断:对训练数据集的属性信息进行推断；4、推理训练样本和标签:重建原始训练数据样本和相应的标签.