Vertical Federated Learning Concepts,Advances, and Challenges

# 综述论文“Vertical Federated Learning: Concepts,Advances, and Challenges”分享

提示

垂直联邦学习VFL：概念、进展与挑战

论文地址：https://arxiv.org/abs/2211.12814

摘要 — 垂直联邦学习（VFL）是一种联邦学习环境，多个参与方拥有同一用户集的不同特征数据，共同训练机器学习模型，而无需暴露原始数据或模型参数。鉴于VFL研究和实际应用的快速增长，本文综述了VFL的概念、算法以及当前的进展和挑战，包括效率、效果和隐私方面。我们提供了VFL环境和隐私保护协议的全面分类，并全面分析了每种协议的隐私攻击和防御策略。最后，我们提出了一个统一的框架，称为VFLow，该框架在通信、计算、隐私以及效率和公平性限制下考虑了VFL问题。我们还回顾了工业应用中的最新进展，突出了VFL的开放挑战和未来方向。

关键词 — 垂直联邦学习，数据隐私，特征分割协作学习

# 1. 引言

联邦学习（FL）是一种新型机器学习范式，多个参与方合作建立机器学习模型，而不集中其数据。FL的概念最初由谷歌在2016年提出，用于描述数百万移动设备通过中央服务器协调而不传输本地数据的跨设备场景。这一概念很快扩展到了机构之间的跨孔隙协作场景，少数可靠的机构加入联盟以训练机器学习模型。本文中，FL首次根据样本和特征空间中的数据分区被分类为水平联邦学习（HFL）、垂直联邦学习（VFL）和联邦迁移学习（FTL）。

HFL 指的是参与者共享相同特征空间但持有不同样本的FL设置。
VFL 指的是数据集共享相同的样本/用户但持有不同特征的FL设置。
FTL 指的是数据集在特征和样本空间都不同，只有有限的重叠。

由于数据分区的不同，HFL和VFL采用了非常不同的训练协议。

HFL中的每个参与方训练一个本地模型并发送模型更新（即参数或梯度）到服务器，服务器聚合这些更新并将聚合结果发送回每个参与方。而在VFL中，每个参与方保留其数据和模型，但交换中间计算结果。HFL的训练过程输出一个所有参与方共享的全局模型，而VFL中的每个参与方在训练后拥有一个单独的本地模型。在推理过程中，HFL中的每个参与方分别使用全局模型，而VFL中的参与方需要合作进行推理。

随着对VFL的需求在工业界的迅猛增长，仅拥有少量和碎片化数据的公司和机构一直在寻找补偿数据合作伙伴，以共同开发人工智能技术，最大限度地利用数据。同时，由于公众对数据泄露和隐私侵犯的担忧日益增加，全球的数据隐私和安全法规也在不断加强。因此，许多隐私保护项目和支持VFL的平台在过去三年中得到了开发。

# 2. 垂直联邦学习框架

在本节中，我们将概述VFL的基本构架、变体和算法。

# 2.1 问题定义

一个VFL系统的目标是利用数据集 $D = {(x_{i}, y_{i})}_{i = 1}^{N}$ 协同训练一个联合机器学习模型 $Θ$ ，同时保护本地数据和模型的隐私和安全。我们按以下方式定义VFL的损失函数：

min_{Θ} ℓ (Θ; D) \equiv \frac{1}{N} \sum_{i = 1}^{N} f (Θ; x_{i}, y_{i}) + λ \sum_{k = 1}^{K} γ (Θ)

其中， $Θ$ 表示联合机器学习模型； $f (\cdot)$ 和 $γ (\cdot)$ 分别表示损失函数和正则化项；而 $λ$ 是控制 $γ$ 强度的超参数。

在VFL中，假设数据按特征空间分区。根据文献 [3, 18]，数据集 $D$ 中的每个特征向量 $x_{i} \in R^{1 \times d}$ 被分配给 $K$ 个参与方，其中 $x_{i, k} \in R^{1 \times d_{k}}$ 表示第 $k$ 个参与方的特征维度，对于 $k \in [K - 1]$ ，而第 $K$ 个参与方拥有标签信息 $y_{i} = y_{i, K}$ 。我们将拥有标签的第 $K$ 个参与方称为活跃方，其余参与方称为被动方。每个被动方 $k$ 拥有数据集 $D_{k} = {x_{i, k}}_{i = 1}^{N}$ ，而活跃方拥有数据集 $D_{K} = {(x_{i, K}, y_{i, K})}_{i = 1}^{N}$ 。

为了简化表达，我们将 $Θ$ 分解为局部模型 $G_{k}$ （由 $θ_{k}$ 参数化， $k \in {1, \dots, K}$ ），仅在本地数据上运行，以及一个全局模块 $F_{K}$ （由 $ψ_{K}$ 参数化），仅供活跃方 $K$ 访问。我们将损失 $f (Θ; x_{i}, y_{i})$ 重写为：

f (Θ; x_{i}, y_{i}) = L (F_{K} (ψ_{K}; G_{1} (x_{i, 1}, θ_{1}), \dots, G_{K} (x_{i, K}, θ_{K})), y_{i, K})

公式2，其中 $L$ 表示任务损失（例如，均方误差损失、交叉熵损失或hinge损失）。

图 3：VFL 系统的架构和核心组件的图示概述。在协作过程中，每个参与方的本地数据不进行交换。本地模型 $G_{k}$ 可以采取多种形式，包括树 [19]、线性和逻辑回归 [3]、[18]、[20]–[23]、支持向量机 [24]、[25]、神经网络 (NN) [26]–[28]、K-means [29] 和 EM 算法 [30]。

全局模块 $F_{k}$ 可以是可训练的 [28]、[31]、[32] 或不可训练的 [28]、[33]。如果使用可训练的全局模块，这种 VFL 场景与垂直分割 NN [34] 相同，其中整个模型被分割到不同的参与方，因此我们称之为 splitVFL（见图 4(a)）。如果全局模块不可训练，它将作为聚合函数，例如 NN 的 Sigmoid 或树的最佳分割查找函数，聚合参与方的中间结果。我们称这种场景为 aggVFL（见图 4(b)）。

VFL 的另一个变体是当主动参与方不提供特征时。在这种变体中，主动参与方扮演着中心服务器（类似于 HFL 中的中心服务器）的角色。我们将 splitVFL 和 aggVFL 中主动参与方不提供特征的场景分别称为 $s p l i t V F L_{c}$ 和 $a g g V F L_{c}$ 。

在典型的 VFL 系统中，被动参与方仅与主动参与方通信，后者充当协调器，负责训练和推理过程。在某些场景中，第三方参与其中，负责加密和解密 [18]。

图 3：具有三个参与方（两个被动参与方和一个主动参与方）的 VFL 系统示意图。 $G_{1}$ , $G_{2}$ , 和 $G_{3}$ 分别表示三个参与方的本地模型，而 $F_{3}$ 表示主动参与方拥有的全局模块。VFL 训练协议通常涉及两个步骤：1）三个参与方通过私有实体对齐对齐样本；2）三个参与方以隐私保护的方式协同训练 $G_{1}$ , $G_{2}$ , $G_{3}$ 和 $F_{3}$ （见第 2.2 节）。

图 4：具有一个主动参与方和两个被动参与方的 VFL 的两个主要变体。这些变体是根据全局模型 $F_{3}$ 是否可训练定义的。

# 2.2 VFL训练协议

接下来，我们描述一个常见的VFL训练协议，该协议包括两个步骤：1) 隐私保护实体对齐；2) 隐私保护训练（如图3所示）。

# 隐私保护实体对齐

在VFL系统开始协同训练过程之前的第一步是对训练用的数据进行对齐。这个过程称为实体对齐，采用私有集合交集技术找出共有的样本ID，而不泄露未对齐数据集的信息。我们在第5节中讨论这些技术。**传统的VFL框架主要考虑具有精确ID的实体对齐，但最近的研究也展示了针对模糊标识符的耦合设计，以实现一对多对齐，这可能是VFL未来的一个有趣方向。**这意味着即使参与方的数据集中样本的ID不完全匹配或模糊，仍然可以找到并对齐相关的样本。这种方法可以更灵活地处理在实际应用中可能遇到的各种情况，比如数据来源不同或数据质量不一致。例如使用模糊匹配算法，根据样本的部分特征或相似度来确定可能的匹配关系。例如，可以根据用户的姓名、地址、行为特征等进行模糊匹配，以确定哪些样本可能对应同一个实体。

# 隐私保护训练通过交换中间结果

数据对齐之后，参与方可以开始使用已对齐的样本训练VFL模型。最常见的训练协议是使用梯度下降，要求参与方传输本地模型输出和相应的梯度，统称为中间结果，而不是本地数据。算法1描述了基于神经网络使用随机梯度下降（SGD）的一般VFL训练过程。具体来说，每个参与方 $k$ 在一个小批量样本 $x$ 上计算其本地模型输出 $H_{k} = G_{k} (x_{k}, θ_{k})$ ，并将 $H_{k}$ 发送到活跃方。活跃方收到所有 ${H_{k}}_{k = 1}^{K}$ 后，计算训练损失，然后计算其全局模块 $ψ_{K}$ 的梯度 $\frac{\partial ℓ}{\partial ψ_{K}}$ 并更新 $ψ_{K}$ 。接着，活跃方计算每个参与方的梯度 $\frac{\partial ℓ}{\partial H_{k}}$ ，并将它们传回。最后，每个参与方 $k$ 根据以下公式计算其本地模型 $θ_{k}$ 的梯度：

\nabla_{θ_{k}} ℓ = \frac{\partial ℓ}{\partial θ_{k}} = \sum_{i} \frac{\partial ℓ}{\partial H_{i, k}} \frac{\partial H_{i, k}}{\partial θ_{k}}

然后更新 $θ_{k}$ 。此过程迭代至收敛。

$\partial ℓ$ 表示损失函数 $ℓ$ 对某个变量的偏导数。在机器学习和优化中，损失函数通常用于衡量模型预测值与实际值之间的差异，而偏导数则表示损失函数相对于某个变量（如模型参数或中间结果）的变化率。

具体来说：

$\frac{\partial ℓ}{\partial θ_{k}}$ 是损失函数 $ℓ$ 对参与方 $k$ 的模型参数 $θ_{k}$ 的偏导数，表示损失函数相对于这些参数的变化率。
$\frac{\partial ℓ}{\partial H_{i, k}}$ 是损失函数 $ℓ$ 对参与方 $k$ 的本地模型输出 $H_{i, k}$ 的偏导数，表示损失函数相对于这些输出的变化率。
$\frac{\partial H_{i, k}}{\partial θ_{k}}$ 是参与方 $k$ 的本地模型输出 $H_{i, k}$ 对其模型参数 $θ_{k}$ 的偏导数，表示这些输出相对于模型参数的变化率。

通过链式法则，可以将损失函数对模型参数的偏导数拆分成损失函数对输出的偏导数和输出对模型参数的偏导数的乘积。这样，每个参与方就可以利用这些信息来更新自己的模型参数 $θ_{k}$ 。

为防止中间结果 $H_{k}$ 和梯度 $\frac{\partial ℓ}{\partial H_{k}}$ 的隐私泄露，可以引入基于加密的隐私保护技术如同态加密（HE）、安全多方计算（MPC）和可信执行环境（TEE）。例如，而不是发送 $H_{k}$ ，每个参与方 $k$ 发送加密的 $[[H_{k}]]$ ，活跃方则回传加密的 $[[\frac{\partial ℓ}{\partial H_{k}}]]$ 。通常由第三方协作方负责加密和解密。还可以应用其他隐私保护技术如差分隐私（DP）和梯度离散化（GD）来增强VFL系统的隐私和安全性。我们将在第5节详细比较这些技术。

# 2.3 基于树的VFL（Tree-based VFL）

基于树的VFL与基于神经网络的VFL在局部模型 $G_{k}$ 、全局模块 $F_{K}$ 以及每个参与方的训练过程中有所不同，但它们遵循的架构如图3所示，并遵循公式(2)定义的一般损失进行VFL训练。

在树基VFL中，每个参与方 $k$ 的局部模型 $G_{k}$ 包括多个部分树模型，这些部分树模型与其他参与方的对应部分组合成一个完整的树模型。 $F_{K}$ 是一个聚合函数，基于所有参与方接收的特征分割信息确定最佳特征分割。文献中提出了基于GBDT的多种VFL算法。随机森林（RF）是另一种流行的基于树的集成算法，已被整合进VFL。

# 3 提高通信效率

在实际VFL应用中，网络异构性、长地理距离和加密数据的大尺寸使协调成为通信瓶颈。因此，提出的缓解通信开销的方法通常涉及减少协调成本和压缩在参与方之间传输的数据。我们在表2中总结了这些方法，并在本节中讨论它们。

表2：旨在提高VFL通信效率的现有工作总结。在模型列中，LR、NN、XGB、GBT、KNN 和 SVM 分别代表逻辑回归、神经网络、XGBoost、梯度提升决策树、K-最近邻和支持向量机。在收敛率列中，T 代表本地迭代的总次数，而 $\Delta $ 代表随机方差。

# 3.1 多客户端更新

通过允许参与方在每次通信前进行多次本地更新，可以节省通信成本。FedBCD允许每个参与方在每次通信前进行多次客户端更新，以减少同步次数，从而减轻通信开销。Flex-VFL和AdaVFL允许每个参与方在每轮通信和整个训练过程中进行不同次数的本地更新，这通常需要合适的训练参数选择，例如学习率，以改善收敛并在计算资源和通信效率之间取得平衡。

# 3.2 异步协调

异步协调的核心思想是，每个参与方可以异步上传和下载中间结果，以减少空闲时间。然而，异步协调可能导致信息陈旧，如果不妥善处理陈旧信息，可能会损害整体模型性能并危及通信效率。

GP-AVFL和FDML允许参与方异步更新本地模型。它们通过预测梯度和强制有界延迟条件来减轻陈旧信息的影响。AVFL和T-VFL通过移除不稳定和不显著的更新来实现异步训练，并解决陈旧问题。VAFL实施异步协调，通过利用查询-响应策略解耦服务器与客户端之间的协调。AsySQN、VFB2和FDSKL都利用树形结构的通信方案来提高通信效率。FedGBF和VF2Boost通过利用并行性构建提升决策树来提高效率。

异步协调可能会导致额外的计算开销，用于处理异步更新之间的不一致。因此，在应用异步协调方法时应仔细考虑协调和计算开销之间的权衡。

# 3.3 一次性通信

一次性通信通过在整个训练过程中只协调一次来减轻通信开销。所有提出的一次性通信方法都遵循两步训练过程：（1）所有参与方从其原始数据中学习潜在表示；（2）活跃方使用这些潜在表示训练全局模型。

在FedOnce中，每个参与方使用名为NAT（Noise As Targets）的无监督学习方法从其本地数据中提取潜在表示。然后，活跃方使用其本地特征结合来自被动方传递的潜在表示来训练全局模型。AE-VFL利用自动编码器从每个参与方的本地数据中提取潜在表示，而CE-VFL使用主成分分析（PCA）和自动编码器来进行潜在表示提取。

一次性方法的一个折衷是，样本级表示的原始数据被永久传递给活跃方。因此，需要仔细评估泄露这些表示的隐私风险。此外，一次性方法通常涉及计算代价高昂的无监督学习以生成有效的表示，因此，通信与计算之间的权衡值得研究。

# 3.4 压缩

在VFL中，压缩是一种常用的方法，用于减少参与方之间传输的数据量。它可以减轻通信和计算开销，特别是当应用昂贵的加密操作（例如，HE和MPC）时。

基于神经网络的VFL算法自然地将高维输入向量映射到低维表示。一些研究采用了专门的降维技术来压缩数据。AVFL利用主成分分析（PCA）来压缩传输数据，而CE-VFL使用PCA和自动编码器学习原始数据的潜在表示。SecureBoost+和eHE-SecureBoost将加密的一阶和二阶梯度编码成单一消息，以减少加密操作和传输的数据大小，从而节省通信带宽和计算成本。C-VFL允许在传输的嵌入之间应用任意压缩方案，以增强通信效率。GP-AVFL采用双端稀疏压缩（DESC）技术，通过在传输的信息中挤压稀疏性来节省通信成本。未来的VFL研究中也可能考虑使用自适应量化技术。

# 3.5 样本和特征选择

另一种提高通信效率的方法是减少训练和推理使用的数据量。例如，Coreset-VFL构建了一个样本的核心集（coreset）以减轻通信负担，而FedSDG-FS、SFS-VFL、LESS-VFL、FEAST和VFLFS过滤掉不重要的特征以节省通信成本。

# 4 提高效果

传统的VFL只能利用对齐的标记样本。然而，在现实世界的应用中，特别是当参与方数量增加时，对齐样本往往是有限的。标签样本的可用性在许多情况下也是稀缺的，导致性能不令人满意。此外，由于每个参与方训练后只拥有一个子模型，因此需要协作推理。

为了解决这些限制，文献中提出了多种方向，以更好地利用可用数据来构建联合VFL模型或帮助参与方构建本地预测器。为简洁起见，我们通过一个涉及活跃方A和被动方B的两方VFL设置来讨论现有的工作。为了更好地解释这些工作，我们描绘了由这两个参与方形成的一般虚拟数据集（见图5）。我们将这个虚拟数据集分解为几个子数据集，以说明VFL算法使用虚拟数据集的哪些部分来训练模型。我们在表3中总结了现有的工作，并基于各自的学习方法进行说明。

# 4.1 自监督方法

最近，自监督学习（Self-SL）被引入到VFL中，以通过利用未标记的样本，提高VFL模型的性能，这些样本在传统的VFL中未被使用。为了说明目的，我们考虑一个两方VFL场景，并重写公式(1)：

min_{ψ_{A}, θ_{A}, θ_{B}} ℓ_{V F L} (ψ_{A}, θ_{A}, θ_{B}; D)

自监督学习方法在文献中提出，通常通过在最小化任务损失的同时，训练参与方的模型 $ψ_{A}, θ_{A}, θ_{B}$ 来最小化基于未标记样本的自监督学习损失。我们定义一般自监督学习目标如下：

{\tilde{ψ}}_{A}, {\tilde{θ}}_{A}, {\tilde{θ}}_{B} = \arg min_{ψ_{A}, θ_{A}, θ_{B}} ℓ_{S e l f - S L} (ψ_{A}, θ_{A}, θ_{B}; D_{a u}, D_{u u}^{A}, D_{u u}^{B})

其中 $ℓ_{S e l f - S L}$ 是自监督学习损失，使用未标记数据来优化 $ψ_{A}, θ_{A}, θ_{B}$ 。

# 4.2 半监督方法

与利用自监督学习提升表示学习能力不同，FedCVT和FedMC采用半监督学习方法，通过增加标记和对齐样本 $D$ 来提升VFL模型的性能。我们定义一般的基于半监督学习的VFL目标如下：

min_{ψ_{A}, θ_{A}, θ_{B}, \tilde{D}} ℓ_{V F L} (ψ_{A}, θ_{A}, θ_{B}; \tilde{D}) + λ ℓ_{S e m i - S L} (ψ_{A}, θ_{A}, θ_{B}; D, D_{u l}^{A}, D_{u u}^{B})

其中 $ℓ_{S e m i - S L}$ 是半监督学习损失，旨在通过伪标记未标记样本或添加新标记样本来扩展 $D$ ，同时在对新添加的样本进行标记时实现最大的稳定性和精确性。

# 4.3 基于知识蒸馏的方法

在传统的VFL中，活跃方A不能单独进行推理，这限制了活跃方的预测服务的可用性。一些研究提出了帮助活跃方A建立本地预测器的方法，而不是一个VFL模型，同时仍然能够从VFL训练中受益。为此，它们通常利用知识蒸馏（KD）技术，将通过VFL获得的教师模型的知识转移到活跃方A的本地模型中，以提高性能。我们定义一般的基于知识蒸馏的VFL目标如下：

min_{ψ_{A}^{s}, θ_{A}^{s}} ℓ_{A} (ψ_{A}^{s}, θ_{A}^{s}; D_{u l}^{A}) + λ ℓ_{K D} (ψ_{A}^{s}, θ_{A}^{s}, ψ_{A}^{t}, θ_{A}^{t}, θ_{B}^{t}; D_{a u})

其中， $ℓ_{K D}$ 是知识蒸馏损失，用于将从教师模型 $ψ_{A}^{t}, θ_{A}^{t}, θ_{B}^{t}$ 到活跃方A的本地模型 $ψ_{A}^{s}, θ_{A}^{s}$ 的知识转移， $ℓ_{A}$ 是活跃方A的任务损失，基于标记样本 $D_{u l}^{A}$ 来优化 $ψ_{A}^{s}, θ_{A}^{s}$ 。

# 4.4 基于迁移学习的方法

基于迁移学习（TL）的VFL方法将活跃方A视为具有大量标记样本的源域，而被动方B视为只有未标记样本或有限数量标记样本的目标域。这些方法利用VFL作为桥梁，将知识从活跃方A转移到被动方B。我们定义一般的基于迁移学习的VFL目标如下：

min_{ϕ_{B}, θ_{B}} ℓ_{B} (ϕ_{B}, θ_{B}; D_{B}) + λ_{1} ℓ_{A} (ψ_{A}, θ_{A}, θ_{B}; D, D_{u l}^{A}) + λ_{2} ℓ_{T L} (θ_{A}, θ_{B}; D_{a u}, D_{u u}^{A}, D_{u u}^{B})

其中， $ℓ_{T L}$ 是迁移学习损失，旨在减少源域和目标域之间的领域差异， $ℓ_{A}$ 是源活跃方A的任务损失，用于使用源域的样本标签来训练模型。目标方B使用其任务损失 $ℓ_{B}$ 进一步适应转移来的知识到其本地任务上，使用目标域 $D_{B}$ 的标记样本（如果可用）。目标方B可能需要或不需要活跃方A的帮助进行推理，这取决于特定应用的要求。

# 5 保护数据隐私与防御攻击

在VFL系统中，隐私威胁可能来自系统内部或外部，或两者兼有。如果攻击者在不偏离VFL协议的前提下试图了解其他参与方的私有数据，它被视为诚实但好奇的。如果攻击者不遵循VFL协议，则被视为恶意的。在本节中，我们首先回顾VFL框架中涉及的隐私保护协议（第5.1节和5.2节），然后讨论关于攻击和防御策略的新兴研究（第5.3节和5.4节）。

# 5.1 私有实体对齐

私有集合交集（PSI）是VFL中实现隐私保护实体对齐的最常见方法。在PSI协议中，所有参与方合作找到共同的ID交集，同时不泄露任何其他信息。PSI协议可以通过各种技术实现，例如加密和签名策略，以及不经意传输等。标准的PSI协议通常应用于两方VFL系统。已经提出了适用于多方的实体匹配和PSI协议。PSI仍然会泄露公共ID信息。已经有尝试通过使用Pohlig-Hellman加密方案和混淆集来增强交集ID集的隐私。FLORIST通过使用联合ID集和为缺失ID生成合成数据来保护所有参与方的实体成员资格信息，但此方法仅限于不平衡的二分类任务，并且为生成和训练合成数据带来额外的计算成本。

# 5.2 隐私保护训练协议

文献中提出的VFL方法采用了多种安全定义和隐私保护协议。在本节中，我们根据在VFL训练和推理期间受保护和暴露的内容来总结这些协议。首先提供VFL的基本协议。然后讨论采用放松或增强隐私约束的其他协议。

基本协议（P-1）：保持私有数据和模型本地。所有VFL参与者在训练和推理期间都保持其私有数据（例如，标签和特征）以及全局模块FK和模型{Gk}Ki=1的本地性。用于训练和推理的中间结果以明文传输。我们将此设置作为我们的基本协议（称为P-1）。例如，在VFL的训练过程中（见算法1），每个参与方k的中间结果Hk和梯度∂ℓ/∂Hk而不是原始数据被传输，从而防止私有数据被泄露。Liu等人提供了安全证明，证明在没有关于数据的先验知识的情况下，私有特征xk不能在P-1协议下被准确恢复。

放松协议（P-0）：非私有标签或模型。在文献和应用中，也存在放松P-1安全假设的情况，导致几种协议变体：

非私有标签。这些是标签可被所有参与方访问以进行训练

的情况，安全模型仅保护特征[27, 44, 62]。

非私有全局模块或局部模型。这些是全局模块[96]或局部模型[31, 97-99]被认为对对手是白盒的情况。

由于这些变体放松了VFL的基本隐私要求，我们为它们分配了更低的级别（P-0），并使用P-0（y）和P-0（g）分别表示非私有标签和非私有模型场景。

标准协议（P-2）：保护传输的中间结果。在此协议下，满足P-1的所有要求。此外，传输的中间结果通过加密协议进行保护，而每个参与方内部处理的其他训练信息保留为明文，以平衡隐私和效率。例如，同态加密（HE）[3, 100] 可用于加密被传输的样本级输出 $H_{k}$ 和梯度 $\partial ℓ / \partial H_{k}$ ，以防止隐私攻击。在一批次级别内的梯度 $\nabla_{θ_{k}} ℓ$ 仍以明文形式进行高效训练。SecureBoost[19] 是另一个例子，其中使用HE来保护传输的中间结果，但活跃方可以看到聚合后的梯度。

增强协议（P-3）：保护整个训练协议。在此协议下，满足P-2的所有要求。此外，除了最终训练的模型外，不向任何一方披露任何训练信息。例如，批次级信息如局部模型的梯度 $\nabla_{θ_{k}} ℓ$ 和参数 $θ_{k}$ 可以通过采用安全多方计算（MPC）[23] 来保护。大多数现有研究关注诚实但好奇的假设，即假设对手遵守VFL协议。为了进一步处理恶意设置，也集成了更高级的隐私保护技术，如SPDZ[85]。

严格协议（P-4）：保护训练协议和学习模型。此协议进一步增强P-3，使用隐私保护技术如秘密共享[101] 和混合方案结合HE和SS[102, 103] 来保护最终学习的模型。它只披露最终的推理结果，但不泄露任何其他信息。此协议应对的是新兴的隐私挑战，即局部模型被其所有者用来推断其他参与方的私有信息[19, 28, 101]。然而，它需要复杂的计算，限制了其效率和可扩展性。

# 5.3 防御数据推断攻击

在 VFL 系统中，特征和标签通常被认为是私有的。因此，特征和标签保护是 VFL 的关键研究领域。图 7 展示了 VFL 中的数据推断攻击。

# 5.3.1 标签推断攻击（续）

对于特殊场景如二分类，攻击者还可以通过执行范数评分（Norm Scoring, NS）或方向评分（Direction Scoring, DS）攻击[104] 来从样本级梯度推断标签，即使全局模块 $F A$ 是一个可训练的模型（例如，神经网络）。

# 5.3.2 批次级梯度的标签推断攻击

当VFL应用P-2协议时，所有参与方间交换的中间结果（例如，通过同态加密保护）不会被泄露。因此，被动方B（即攻击者）无法获得样本级梯度 $\partial ℓ / \partial H_{B}$ ，但可能能访问批次级（即局部模型）梯度 $\nabla_{θ_{B}} ℓ$ 。研究表明，即使基于 $\nabla_{θ_{B}} ℓ$ ，也可以通过梯度反演攻击（Gradient Inversion, GI）[33, 106] 和残差重建攻击（Residue Reconstruction, RR）[105] 来高精度推断真实标签。前者通过最小化 $\nabla_{θ_{B}} ℓ$ 与 $\nabla_{θ_{B}} ℓ^{\hat{}}$ 之间的距离来预测梯度，后者通过求解梯度匹配问题来推断 $\nabla_{θ_{B}} ℓ^{\hat{}}$ 的明文值。

# 5.3.3 利用训练模型的标签推断攻击

当VFL应用P-3协议时，除了最终训练的局部模型外，没有任何训练信息被泄露给任何一方。P-3协议可以通过基于MPC的VFL方法[23, 103] 实现。一种可能的标签推断策略是，被动方利用辅助标签数据对其训练的局部模型进行微调，然后使用完整模型（即微调的局部模型加上推断头）来预测标签。这种攻击称为被动模型完成（Passive Model Completion, PMC）[28]，其中被动方是半诚实的。还提出了一种主动模型完成（Active Model Completion, AMC）的变体[28]，该变体利用恶意的局部优化器而不是正常的优化器。MC的效果严重依赖于被动方作为攻击者所拥有的辅助数据的充足性。

# 5.3.4 特征推断攻击

个人的原始特征是隐私保护的核心，因为它包含了不允许共享的敏感信息。已经提出了多种攻击方法来从简单模型（例如，逻辑回归和决策树）[97, 108, 109] 和复杂模型（例如，神经网络和随机森林）[31, 97-99] 中推断特征。我们在表4中总结了现有的特征推断攻击。这些攻击通常是在活跃方（拥有标签）A是攻击者的设置下进行的，其目标是恢复被动方B的特征。攻击者可能知道或不知道被动方的模型参数 $θ_{B}$ ，分别称为白盒和黑盒设置。

太多了兄弟们AI也翻译不动了攻防就不说了自己看原文吧

# 6 数据估值和公平性

VFL 开启了跨机构和跨行业合作的新机会。随着工业用例的增长，建立稳定和可持续的联盟的关键挑战之一是缺乏公平的数据估值和激励设计来分配利润。此外，负责的 VFL 框架还应该解决各种偏见问题，以某些群体为目标。在本节中，我们讨论了数据估值、可解释性和公平性的研究进展。

# 6.1 数据估值

目前，大多数关于 FL 框架的数据估值研究仍然集中在 HFL 场景 [135]、[136]，而 VFL 的数据估值研究则较少。[137]、[138] 是最早提出的 VFL 贡献评估框架，使用 Shapley 估值对特征进行评估。Shapley 基于方法通常采用模型性能增益作为关键指标来衡量数据价值。[139] 提出了一个模型自由的方法，使用条件互信息来评估 VFL 中的特征重要性和数据价值。[140] 提出了一个基于嵌入的 Shapley 评估方法，应用于异步和同步设置。[141] 从互信息角度对党级别进行评估，并采用这种评估来选择重要参与者，以提高 VFL 的可扩展性。然而，Shapley 基于和 MI 基于评估计算复杂度高，难以应用于实际案例。提高 Shapley 计算效率是一个重要的研究方向。

# 6.2 可解释性

在高度regulated 的领域，如金融和医疗领域，使训练的 VFL 模型对权威机构和合规性可解释是至关重要的。目前，只有少量的作品提出了 VFL 的可解释性。例如，[142] 提出了一个可解释的 VFL 框架，使用可靠性评估和反事实分析来控制数据质量和解释反事实实例。[143] 设计了一个基于逻辑回归的 VFL 方案，具有可解释的评分卡在信用评分中。[86] 提出了一个特征分组方法，将原始特征转换为可解释的特征组，以增强 VFL 预测模型的可解释性。设计 VFL 的可解释性是一个重要的研究主题，而如何在 VFL 中调和隐私保护和可解释性也是一个关键的研究方向，因为这两个目标可能相互矛盾。

# 6.3 公平性

在协作设置中训练的机器学习模型可能继承某些用户组的偏见。解决 VFL 中的公平性问题是一个新兴的研究主题。FairVFL [144] 是一个使用对抗学习来删除公平敏感特征的框架，在隐私保护的 VFL 设置中。[145] 提出了一个公平目标在 VFL 中，并开发了一个异步梯度坐标下降算法来解决它。解决 VFL 中公平性的核心挑战是识别公平敏感特征并进行协作 debias 训练，同时保留数据隐私和协议效率。

# 6.4 数据集

我们列出了常用的 VFL 工作数据集在表 9 中。大多数 VFL 研究工作使用的数据集来自金融、医疗和广告领域的表格数据集。NUSWIDE 和 Vehicle 数据集包含多模态特征，可以自然地模拟两个党 VFL 场景，而其他数据集需要手动分区。总之，更多的实际数据集和高质量基准仍然需要来促进工业应用和学术研究在 VFL 中。

# 7. VFLow：一个垂直联邦学习优化框架

我们提出了一个全面的垂直联邦学习（VFL）优化框架，该框架涵盖了设置和优化VFL算法的主要考虑因素，如图9所示。我们将这个框架命名为VFLow。

图 9: VFLow: 一个用于设置、设计和优化VFL算法的框架。

在VFLow中，我们考虑了包括实用性、隐私、效率和公平性在内的主要约束，以指导VFL算法的设计，涉及模型架构和分区设置、效果和效率提升策略、隐私防御策略，以及本文所涵盖的公平性提升策略。此外，VFLow包括一个单独的风险评估模块，该模块全面评估数据攻击和防御策略。最后，对于模型使用、参与方贡献、问责制和可验证性工具是建立一个可持续和值得信赖的联盟所必需的（另见第9节）。我们进一步将公式1中形成的目标函数扩展为一个更通用的元目标，我们希望在隐私、效率（即通信和计算）和公平性的约束下最小化主任务损失（即最大化实用性）：

min_{Θ} ℓ (Θ; S, A, E, P, R, D) s.t. M_{p} (Θ; K, P) \leq ϵ_{p}, M_{e} (Θ; E, P) \leq ϵ_{e}, M_{b} (R, D) \leq ϵ_{b}

其中，Θ 和 S 分别代表特定模型和VFL设置；

A 代表效果提升策略，

P 代表隐私防御策略，K 代表攻击算法集合，

E 代表效率提升策略，

R 代表公平性提升策略。 $M_{p}$ 表示通过攻击 K 针对防御策略 P 引起的隐私泄露的测量。 $M_{e}$ 是效率测量，通常与通信负载和计算资源相关。 $M_{b}$ 测量系统偏见。 $ε_{p}$ , $ε_{e}$ , 和 $ε_{b}$ 分别是隐私泄露、效率成本和偏见的约束。这个优化问题可以被视为一个受约束的多目标联邦学习问题[169]。这种表述带来了一组解决方案，每个解决方案都是多个目标之间的最优权衡，从而为利益相关者提供灵活的决策选项。

# 8 应用

推荐系统通常在VFL中被采用以支持广告应用。联邦bandit可以作为一个有前景的技术[170-172]用于FL。Shmueli等[173]提出了一种保护隐私的协同过滤协议。Atarashi等[174]在VFL设置中提出了一个高阶分解机。推荐系统可以在持有不同评级数据的两个平台之间构建。Cui等[175]提出了基于安全计算协议的跨平台推荐。Zhang等[176]提出了一种基于聚类和潜在因子模型的VFL推荐，以减少矩阵的维度并提高推荐精度。

为了实现基于个人数据云的隐私保护推荐，Yuan等[177]提出了一种混合联邦学习推荐算法名为HyFL。许多互联网公司已经采用VFL来支持广告业务。字节跳动开发了基于Fedlearner框架的树形VFL算法，显著提高了其广告效率[178]。基于其9N-FL框架中的VFL模块，京东建立了一个广告联合模型，促进了所有参与方收入的累计增长[179]。腾讯应用其Angel PowerFL平台建立了广告商和广告平台之间的VFL联盟，以提高模型精度[180]。基于可信智能计算服务框架（TICS），华为将VFL应用于广告[181]，以利用分散在不同平台的用户资料和行为数据。

金融是VFL新方法迅速发展的另一个主要应用领域。例如，[143]中提出了一种基于梯度的传统评分卡模型训练方法。在[23]中，设计并应用了一种安全的大规模稀疏逻辑回归算法，用于金融风险控制。Kang等[86]开发了一种细粒度对抗域适应算法，以解决金融领域的标签不足问题。Long等[182]讨论了开放银行中FL的应用和开放挑战。Wang等[138]提供了保险行业中FL用例的概览。微众银行利用合作公司的客户信用数据和发票信息，共同建立了一个风险控制VFL模型[4]。

在VFL的应用研究中，医疗保健一直非常活跃。在[110]中提出了一种保护隐私的逻辑回归方法，并应用于临床诊断。Chen等[51]提出了一个异步VFL框架，并在公共卫生数据集MIMIC-III上验证了这一框架的有效性。在[183]中，作者将VFL应用于癌症生存分析，以预测患者诊断后的生存时间，并分析哪些特征可能与生存机会相关。[59]提出了一种使用自动编码器的高效VFL方法，基于前庭神经瘤数据集预测手术后的听力损失。Song等[184]将VFL应用于移动网络运营商（MNOs）和卫生保健提供者（HP）之间的联合建模。

近年来，新兴应用也在探索如电动汽车和无线通信等领域的新颖数据利用。Teimoori等[185]提出了一种VFL算法来定位电动车充电站，同时保护用户隐私。[186]探讨了VFL在5G无线网络中的应用机会。[187]提出了一种基于VFL的认知无线电网络的协作感知方案。[188]开发了一种光网络解聚的VFL框架。[189]应用VFL进行智能电网应用中的协作电力消费预测。[190]提出了用于智能制造中预测故障的VFL建模方法。

# 9 开放挑战和未来方向

在本节中，我们讨论了 VFL 框架开发面临的一些主要开放挑战，并提出了可能的未来路径。

互操作性。随着 VFL 项目在现实世界场景中的快速发展，现有框架的互操作性缺乏已经成为其工业增长的新痛点。不同的平台采用不同的安全计算和隐私保护训练协议，使跨平台协作变得困难，并将数据孤岛变成平台孤岛。解决这个挑战的一种可能路径是通过开发算法和架构标准来强制平台的互操作性，以便平台可以更容易地连接到其他平台。另一种路径是开发种子项目，以支持基本功能和模块的互操作性作为多样化平台的插件工具。

可靠的 VFL。为了可靠，VFL 框架必须适当地反映特征，如隐私和安全、有效性、效率、公平性、可解释性、鲁棒性和可验证性。数据需要在传输和休息时受到保护，具有明确的安全和隐私定义和范围。尽管最近的研究努力，仍然缺乏普遍有效的防御策略，这些策略是无损的和高度效率的。效用隐私效率之间的权衡 [193] 仍然是未来研究的焦点。在 VFL 中应用多目标优化技术 [169] 是朝着可靠的 VFL [194] 的一个promising研究方向。此外，朝着可靠的 FL 框架的路径是使训练模型变得可验证和可审核。一个可能的路径是使用可验证的知识产权 (IP) 保护方法 [195] 来保护 VFL 中的训练模型，以便在高效的方式下保护模型。

自动 VFL。自动机器学习 (AutoML) 是一种非常感兴趣的技术，可以减少人工努力并实现满意的模型性能 [196]。神经架构搜索 (NAS) 技术已经在 VFL 中被探索 [76]、[197]。对于 VFL，参与者没有标签无法在本地进行训练或评估。因此，他们的超参数嵌套在协作训练中。这使得 VFL 设置中的 AutoML 更具挑战性。通过利用 Blockchain，可以在不需要中央服务器的情况下在网络上交换参与者的本地模型更新。

# 10 结语

垂直联邦学习已经成为解决工业特征分区数据孤岛问题的一个吸引人的解决方案。尽管它在实践中非常有用，证据是越来越多的 VFL 项目和用例，但研究进展的广度和深度仍然落后于 HFL。我们提出了 VFL 中研究进展和挑战的广泛分类，并提出了一个新的框架，以综合地形式化 VFL 的相关方面。我们希望这项工作将鼓励未来的研究努力来解决这个领域中的挑战。

# 致谢

这项工作得到了中国国家重点研发计划（Grant No.2022ZD0160504）的支持，以及清华-丰田联合研究院跨学科项目的支持。

编辑

#垂直联邦学习

上次更新: 2025/04/03, 09:58:11

← Advances and Open Problems in Federated Learning 机器学习中的并行计算→