All Rivers Run to the Sea: Private Learning with Asymmetric Flows
研究背景
在当前的机器学习(ML)时代,云端ML服务因其高端GPU资源而变得不可或缺。然而,确保数据隐私是ML平台面临的最关键挑战之一。在训练过程中,如果训练数据暴露给ML服务提供商,可能会增加遭受潜在攻击的风险。此外,用户在访问包含敏感数据的ML服务时,其推理查询也可能易受攻击。特别地,不受信任的ML平台可能会在用户不知情的情况下缓存、学习和泄露查询数据。
研究意义
本研究旨在提出一种名为Delta的新型私有训练和推理框架,该框架能够在保持与非私有集中式训练相当模型性能的同时,实现强大的隐私保护。Delta通过利用中间表示(IRs)中的不对称结构,将信息敏感部分嵌入到低维空间中,而将信息不敏感部分推送到高维残差中,从而实现了隐私保护和高计算性能的平衡。
文献综述
差分隐私(DP)方法:通过在将数据外包给不受信任的云之前对其进行扰动来确保隐私,但通常在适度隐私约束下会导致模型效用下降。
基于密码学的技术:通过加密方案提供数据保护,但由于其复杂的计算量,尚未证明对于大型模型是高效且可扩展的。
具有私有环境的PPML:如信任执行环境(TEEs)和本地环境,通过物理隔离运行计算环境来提供解决方案,但这些环境通常资源受限,相比公共云服务中的高端GPU,计算性能较低。
结合私有环境和公共GPU的方法:也存在高复杂性,部分原因是私有环境和公共环境之间的通信量大。
具体方法
Delta框架的核心思想源自于对ML模型中间表示(IRs)不对称结构的观察。具体来说,主要敏感信息通常编码在低维空间中,而高维残差包含的信息很少。基于此观察,Delta设计了一个双路训练框架:
不对称IR分解:使用奇异值分解(SVD)和离散余弦变换(DCT)将IR分解为低维信息敏感部分(IR_main)和高维残差部分(IR_res)。
模型设计:为低维IR_main设计一个新的低复杂度模型(M_main),在私有环境中运行;而残差部分则通过添加高斯噪声和二进制量化后,发送到公共环境中的大型模型(M_res)进行处理。
隐私保护:通过DP机制和二进制量化进一步保护残差,并减少私有环境和公共环境之间的通信成本。
私有反向传播:通过分离M_main和M_res的梯度计算,确保M_main的logits不会泄露给M_res。
图1:Delta框架概述
- a) 问题设置:
- Private Env:私有环境,如云的TEEs(可信执行环境)或本地CPU/GPU,资源受限但安全。
- Public Env:公共环境,如云端GPU,计算能力强但不信任。
- 目标:保护用户训练和推理数据的同时,保持计算性能和模型效用。
- b) Delta框架:
- Backbone Model (M_bb):作为特征提取器,提取输入数据的特征并生成中间表示(IRs)。
- IR Decomposition:将IRs分解为低维信息敏感部分(IR_main)和高维残差部分(IR_res)。
- Model Split:M_main:在私有环境中运行,处理低维IR_main。M_res:在公共环境中运行,处理高维IR_res。
- DP & Quantization:对IR_res添加高斯噪声并进行二进制量化,以保护隐私并减少通信成本。
- Final Prediction:在私有环境中将M_main和M_res的输出logits相加,得到最终预测结果,该结果不泄露给公共环境。
图2:IRs的不对称结构
- a) 通道维度的不对称结构:
- 通过SVD分析卷积神经网络(CNN)中特征图的通道相关性,发现大部分信息可以嵌入到低秩表示中。
- 图示展示了随着主成分通道数r的增加,低秩近似误差逐渐减小。
- b) 空间维度的不对称结构:
- 使用DCT分析每个通道内像素的空间相关性,发现通过少量低频分量可以充分近似原始特征图。
- 图示展示了随着低频分量比例的增加,低频近似误差逐渐减小。
此公式表示SVD(奇异值分解)残差。给定一个中间表示X,首先通过SVD得到其低秩表示X_{lr},SVD残差则是原始X减去低秩表示X_{lr}的部分,包含从第r+1到c个奇异值及其对应的左右奇异向量。
公式2表示DCT(离散余弦变换)残差。对于每个主通道V_i,首先通过DCT得到其频率域表示C_i,然后只保留低频部分重建V_{i_{lf}},高频部分则作为DCT残差V_{i_{DCT_{res}}}。
公式3表示低维信息敏感表示IR_{main}。它通过将每个主通道V_i的低频部分V_{i_{lf}}与其对应的奇异值s_i和左奇异向量U_i相乘并求和得到。
公式4表示残差IR_{res}。它是原始中间表示X减去低维信息敏感表示IR_{main}的部分,包含SVD残差和DCT残差。
公式5表示对残差进行归一化。归一化是必要的,以便为差分隐私(DP)机制设定灵敏度界限。其中C是一个缩放参数,|IR_{res}|2表示残差IR{res}的L2范数。
公式描述了对加噪后的残差IR_noisy进行二值量化的过程。如果IR_noisy小于0,则量化结果为0;否则为1。这样做可以显著减少通信开销。
图3:不对称IR分解
- 展示了如何使用SVD和DCT将IR分解为低维IR_main和高维IR_res的过程。
- SVD用于提取通道维度的主成分,DCT用于进一步提取空间维度的低频分量。
- 最终的IR_main包含主要敏感信息,而IR_res则包含较少的信息。
图4:低维IR_main的模型设计
- 展示了为低维IR_main设计的低复杂度卷积层结构。
- 通过将卷积层拆分为两个子层(一个用于学习主成分特征,另一个用于组合这些特征),并添加核正交性正则化,可以在保持信息完整性的同时降低计算复杂度。
公式表示优化低维卷积层的权重θ_1和θ_2,以最小化原始输出Y和低维层输出Y_0之间的Frobenius范数差异。这是为了在保证信息不损失的情况下降低计算复杂度。
图5:模型准确率
- 展示了在CIFAR-10和CIFAR-100数据集上,使用ResNet-18模型时,不同方案的验证准确率。
- M_main:仅使用M_bb和M_main进行训练,无残差信息。
- M_main + M_res:使用M_bb、M_main和M_res进行训练,并对IR_res添加DP噪声。
- Orig:使用原始模型进行训练,无隐私保护措施。
- 结果表明,通过添加M_res并使用DP保护残差信息,Delta能够在保持较高准确率的同时实现隐私保护。与直接在原始IR上添加噪声的naive-DP方法相比,Delta在相同隐私预算下显著提高了准确率。
图6:模型准确率对比
- 数据集与模型:使用CIFAR-10、CIFAR-100和ImageNet数据集,以及ResNet-18和ResNet-34模型进行评估。
- 方案对比:M_main:仅使用主模型M_main(无残差信息)的准确率。M_main + M_res:结合主模型M_main和残差模型M_res的准确率,其中对残差信息添加了不同隐私预算(ε)的DP噪声。Orig:使用原始模型(无隐私保护)的准确率。
- 结果分析:M_main由于仅处理低维敏感信息,其准确率已接近原始模型。添加M_res后,Delta框架的准确率进一步提升,接近甚至达到原始模型的准确率。在相同隐私预算下,Delta相比直接在原始IR上添加噪声的naive-DP方法,准确率显著提高。
表1: ResNet-18模型在不同隐私预算下的准确率对比
- 解释:表1对比了在CIFAR-10数据集上,使用Delta框架(对残差IR_res添加噪声)和直接对原始IR添加噪声(naive-DP)两种策略下,ResNet-18模型的准确率。在相同的隐私预算下,Delta框架通过不对称分解和对残差添加噪声的方式,显著提高了模型的准确率,相比naive-DP方法最高提升了约31.5%。这表明Delta框架通过保留低维敏感信息并仅对高维残差进行扰动,实现了更好的隐私保护与模型效用之间的平衡。
表2: ResNet模型在不同数据集上的理论计算复杂度
- 解释:表2列出了ResNet-18和ResNet-34模型在CIFAR-10/100和ImageNet数据集上,前向传播过程中各部分的计算复杂度(以MACs为单位)。相比M_res模型,M_bb + M_main模型的计算复杂度显著较低,仅占M_res模型复杂度的约10%。这表明Delta框架通过不对称分解,有效降低了私有环境中的计算量,从而提高了整体计算效率。
表3: 不同训练策略下的每迭代训练和推理时间对比
- 解释:表3对比了在CIFAR-100数据集上,使用ResNet-18模型时,不同训练策略(私有环境仅训练、3LegRace框架、Slalom框架、Delta框架)下的每迭代训练和推理时间。Delta框架在训练和推理时间上均表现出显著优势,相比私有环境仅训练加速了约22倍和25倍,相比其他隐私保护框架也有明显的速度提升。这表明Delta框架通过优化任务分配和减少跨环境通信,实现了高效的训练和推理过程。
表4: Delta框架在CIFAR-100数据集上的时间分解
- 解释:表4详细列出了Delta框架在CIFAR-100数据集上使用ResNet-18模型时,前向传播和反向传播过程中各部分的时间消耗。M_bb和IR分解的时间消耗相对较少,而M_main和M_res的前向传播和反向传播占据了大部分时间。尽管M_main的理论计算复杂度低于M_res,但实际运行时间中M_main仍占较大比例,这可能与并行度、内存访问等因素有关。整体上,Delta框架通过优化私有环境和公共环境之间的任务分配,显著缩小了时间差距。
表5: Delta框架对模型反转攻击的防御效果
- 解释:表5展示了在CIFAR-100数据集上,使用ResNet-18模型时,Delta框架对模型反转攻击的防御效果。无DP噪声时,攻击者能够利用残差信息重建出具有一定特征的图像,这些图像在目标模型上的准确率也较高。添加DP噪声后,重建图像的质量显著下降,SSIM值大幅降低,且在目标模型上的准确率也明显降低。这表明Delta框架通过DP机制有效保护了残差信息中的隐私,从而增强了对模型反转攻击的防御能力。
图7:模型反转攻击效果对比
- 攻击方法:使用SecretRevealer进行模型反转攻击,允许攻击者使用量化后的残差作为先验知识。
- 评价指标:SSIM:重构图像与原始图像的结构相似性指数。Acc_M:使用重构图像作为输入时,目标模型的准确率。
- 结果分析:无DP噪声时,攻击者能利用残差信息重构出具有一定特征的图像,这些图像在目标模型上获得较高的准确率。添加DP噪声后,重构图像的质量显著下降,目标模型的准确率也大幅降低,表明DP机制有效保护了残差信息。
表6: Delta框架对成员推理攻击的防御效果
- 解释:表6展示了在CIFAR-100数据集上,使用ResNet-18模型时,Delta框架对成员推理攻击的防御效果。无DP噪声时,攻击性能较高,表明攻击者能够利用残差模型M_res的输出进行有效的成员推理。添加DP噪声后,攻击性能显著下降,且随着公共样本数量的减少,攻击性能进一步降低。这表明Delta框架通过DP机制有效防止了攻击者通过残差信息推断出训练数据的成员资格,从而增强了对成员推理攻击的防御能力。