All Rivers Run to the Sea: Private Learning with Asymmetric Flows

研究背景

在当前的机器学习（ML）时代，云端ML服务因其高端GPU资源而变得不可或缺。然而，确保数据隐私是ML平台面临的最关键挑战之一。在训练过程中，如果训练数据暴露给ML服务提供商，可能会增加遭受潜在攻击的风险。此外，用户在访问包含敏感数据的ML服务时，其推理查询也可能易受攻击。特别地，不受信任的ML平台可能会在用户不知情的情况下缓存、学习和泄露查询数据。

研究意义

本研究旨在提出一种名为Delta的新型私有训练和推理框架，该框架能够在保持与非私有集中式训练相当模型性能的同时，实现强大的隐私保护。Delta通过利用中间表示（IRs）中的不对称结构，将信息敏感部分嵌入到低维空间中，而将信息不敏感部分推送到高维残差中，从而实现了隐私保护和高计算性能的平衡。

文献综述

差分隐私（DP）方法：通过在将数据外包给不受信任的云之前对其进行扰动来确保隐私，但通常在适度隐私约束下会导致模型效用下降。

基于密码学的技术：通过加密方案提供数据保护，但由于其复杂的计算量，尚未证明对于大型模型是高效且可扩展的。

具有私有环境的PPML：如信任执行环境（TEEs）和本地环境，通过物理隔离运行计算环境来提供解决方案，但这些环境通常资源受限，相比公共云服务中的高端GPU，计算性能较低。

结合私有环境和公共GPU的方法：也存在高复杂性，部分原因是私有环境和公共环境之间的通信量大。

具体方法

Delta框架的核心思想源自于对ML模型中间表示（IRs）不对称结构的观察。具体来说，主要敏感信息通常编码在低维空间中，而高维残差包含的信息很少。基于此观察，Delta设计了一个双路训练框架：

不对称IR分解：使用奇异值分解（SVD）和离散余弦变换（DCT）将IR分解为低维信息敏感部分（IR_main）和高维残差部分（IR_res）。

模型设计：为低维IR_main设计一个新的低复杂度模型（M_main），在私有环境中运行；而残差部分则通过添加高斯噪声和二进制量化后，发送到公共环境中的大型模型（M_res）进行处理。

隐私保护：通过DP机制和二进制量化进一步保护残差，并减少私有环境和公共环境之间的通信成本。

私有反向传播：通过分离M_main和M_res的梯度计算，确保M_main的logits不会泄露给M_res。

图1：Delta框架概述

a) 问题设置：

Private Env：私有环境，如云的TEEs（可信执行环境）或本地CPU/GPU，资源受限但安全。
Public Env：公共环境，如云端GPU，计算能力强但不信任。
目标：保护用户训练和推理数据的同时，保持计算性能和模型效用。

b) Delta框架：

Backbone Model (M_bb)：作为特征提取器，提取输入数据的特征并生成中间表示（IRs）。
IR Decomposition：将IRs分解为低维信息敏感部分（IR_main）和高维残差部分（IR_res）。
Model Split：M_main：在私有环境中运行，处理低维IR_main。M_res：在公共环境中运行，处理高维IR_res。
DP & Quantization：对IR_res添加高斯噪声并进行二进制量化，以保护隐私并减少通信成本。
Final Prediction：在私有环境中将M_main和M_res的输出logits相加，得到最终预测结果，该结果不泄露给公共环境。

图2：IRs的不对称结构

a) 通道维度的不对称结构：

通过SVD分析卷积神经网络（CNN）中特征图的通道相关性，发现大部分信息可以嵌入到低秩表示中。
图示展示了随着主成分通道数r的增加，低秩近似误差逐渐减小。

b) 空间维度的不对称结构：

使用DCT分析每个通道内像素的空间相关性，发现通过少量低频分量可以充分近似原始特征图。
图示展示了随着低频分量比例的增加，低频近似误差逐渐减小。

此公式表示SVD（奇异值分解）残差。给定一个中间表示X，首先通过SVD得到其低秩表示X_{lr}，SVD残差则是原始X减去低秩表示X_{lr}的部分，包含从第r+1到c个奇异值及其对应的左右奇异向量。

公式2表示DCT（离散余弦变换）残差。对于每个主通道V_i，首先通过DCT得到其频率域表示C_i，然后只保留低频部分重建V_{i_{lf}}，高频部分则作为DCT残差V_{i_{DCT_{res}}}。

公式3表示低维信息敏感表示IR_{main}。它通过将每个主通道V_i的低频部分V_{i_{lf}}与其对应的奇异值s_i和左奇异向量U_i相乘并求和得到。

公式4表示残差IR_{res}。它是原始中间表示X减去低维信息敏感表示IR_{main}的部分，包含SVD残差和DCT残差。

公式5表示对残差进行归一化。归一化是必要的，以便为差分隐私（DP）机制设定灵敏度界限。其中C是一个缩放参数，|IR_{res}|2表示残差IR{res}的L2范数。

公式描述了对加噪后的残差IR_noisy进行二值量化的过程。如果IR_noisy小于0，则量化结果为0；否则为1。这样做可以显著减少通信开销。

图3：不对称IR分解

展示了如何使用SVD和DCT将IR分解为低维IR_main和高维IR_res的过程。
SVD用于提取通道维度的主成分，DCT用于进一步提取空间维度的低频分量。
最终的IR_main包含主要敏感信息，而IR_res则包含较少的信息。

图4：低维IR_main的模型设计

展示了为低维IR_main设计的低复杂度卷积层结构。
通过将卷积层拆分为两个子层（一个用于学习主成分特征，另一个用于组合这些特征），并添加核正交性正则化，可以在保持信息完整性的同时降低计算复杂度。

公式表示优化低维卷积层的权重θ_1和θ_2，以最小化原始输出Y和低维层输出Y_0之间的Frobenius范数差异。这是为了在保证信息不损失的情况下降低计算复杂度。

图5：模型准确率

展示了在CIFAR-10和CIFAR-100数据集上，使用ResNet-18模型时，不同方案的验证准确率。
M_main：仅使用M_bb和M_main进行训练，无残差信息。
M_main + M_res：使用M_bb、M_main和M_res进行训练，并对IR_res添加DP噪声。
Orig：使用原始模型进行训练，无隐私保护措施。
结果表明，通过添加M_res并使用DP保护残差信息，Delta能够在保持较高准确率的同时实现隐私保护。与直接在原始IR上添加噪声的naive-DP方法相比，Delta在相同隐私预算下显著提高了准确率。

图6：模型准确率对比

数据集与模型：使用CIFAR-10、CIFAR-100和ImageNet数据集，以及ResNet-18和ResNet-34模型进行评估。
方案对比：M_main：仅使用主模型M_main（无残差信息）的准确率。M_main + M_res：结合主模型M_main和残差模型M_res的准确率，其中对残差信息添加了不同隐私预算（ε）的DP噪声。Orig：使用原始模型（无隐私保护）的准确率。
结果分析：M_main由于仅处理低维敏感信息，其准确率已接近原始模型。添加M_res后，Delta框架的准确率进一步提升，接近甚至达到原始模型的准确率。在相同隐私预算下，Delta相比直接在原始IR上添加噪声的naive-DP方法，准确率显著提高。

表1: ResNet-18模型在不同隐私预算下的准确率对比

解释:表1对比了在CIFAR-10数据集上，使用Delta框架（对残差IR_res添加噪声）和直接对原始IR添加噪声（naive-DP）两种策略下，ResNet-18模型的准确率。在相同的隐私预算下，Delta框架通过不对称分解和对残差添加噪声的方式，显著提高了模型的准确率，相比naive-DP方法最高提升了约31.5%。这表明Delta框架通过保留低维敏感信息并仅对高维残差进行扰动，实现了更好的隐私保护与模型效用之间的平衡。

表2: ResNet模型在不同数据集上的理论计算复杂度

解释:表2列出了ResNet-18和ResNet-34模型在CIFAR-10/100和ImageNet数据集上，前向传播过程中各部分的计算复杂度（以MACs为单位）。相比M_res模型，M_bb + M_main模型的计算复杂度显著较低，仅占M_res模型复杂度的约10%。这表明Delta框架通过不对称分解，有效降低了私有环境中的计算量，从而提高了整体计算效率。

表3: 不同训练策略下的每迭代训练和推理时间对比

解释:表3对比了在CIFAR-100数据集上，使用ResNet-18模型时，不同训练策略（私有环境仅训练、3LegRace框架、Slalom框架、Delta框架）下的每迭代训练和推理时间。Delta框架在训练和推理时间上均表现出显著优势，相比私有环境仅训练加速了约22倍和25倍，相比其他隐私保护框架也有明显的速度提升。这表明Delta框架通过优化任务分配和减少跨环境通信，实现了高效的训练和推理过程。

表4: Delta框架在CIFAR-100数据集上的时间分解

解释:表4详细列出了Delta框架在CIFAR-100数据集上使用ResNet-18模型时，前向传播和反向传播过程中各部分的时间消耗。M_bb和IR分解的时间消耗相对较少，而M_main和M_res的前向传播和反向传播占据了大部分时间。尽管M_main的理论计算复杂度低于M_res，但实际运行时间中M_main仍占较大比例，这可能与并行度、内存访问等因素有关。整体上，Delta框架通过优化私有环境和公共环境之间的任务分配，显著缩小了时间差距。

表5: Delta框架对模型反转攻击的防御效果

解释:表5展示了在CIFAR-100数据集上，使用ResNet-18模型时，Delta框架对模型反转攻击的防御效果。无DP噪声时，攻击者能够利用残差信息重建出具有一定特征的图像，这些图像在目标模型上的准确率也较高。添加DP噪声后，重建图像的质量显著下降，SSIM值大幅降低，且在目标模型上的准确率也明显降低。这表明Delta框架通过DP机制有效保护了残差信息中的隐私，从而增强了对模型反转攻击的防御能力。

图7：模型反转攻击效果对比

攻击方法：使用SecretRevealer进行模型反转攻击，允许攻击者使用量化后的残差作为先验知识。
评价指标：SSIM：重构图像与原始图像的结构相似性指数。Acc_M：使用重构图像作为输入时，目标模型的准确率。
结果分析：无DP噪声时，攻击者能利用残差信息重构出具有一定特征的图像，这些图像在目标模型上获得较高的准确率。添加DP噪声后，重构图像的质量显著下降，目标模型的准确率也大幅降低，表明DP机制有效保护了残差信息。

表6: Delta框架对成员推理攻击的防御效果

解释:表6展示了在CIFAR-100数据集上，使用ResNet-18模型时，Delta框架对成员推理攻击的防御效果。无DP噪声时，攻击性能较高，表明攻击者能够利用残差模型M_res的输出进行有效的成员推理。添加DP噪声后，攻击性能显著下降，且随着公共样本数量的减少，攻击性能进一步降低。这表明Delta框架通过DP机制有效防止了攻击者通过残差信息推断出训练数据的成员资格，从而增强了对成员推理攻击的防御能力。

莫方教程网

专业程序员编程教程与实战案例分享

cvpr 2024|百川归海:基于不对称流的私有学习