莫方教程网

专业程序员编程教程与实战案例分享

cvpr 2024|百川归海:基于不对称流的私有学习


All Rivers Run to the Sea: Private Learning with Asymmetric Flows

研究背景

在当前的机器学习(ML)时代,云端ML服务因其高端GPU资源而变得不可或缺。然而,确保数据隐私是ML平台面临的最关键挑战之一。在训练过程中,如果训练数据暴露给ML服务提供商,可能会增加遭受潜在攻击的风险。此外,用户在访问包含敏感数据的ML服务时,其推理查询也可能易受攻击。特别地,不受信任的ML平台可能会在用户不知情的情况下缓存、学习和泄露查询数据。

研究意义

本研究旨在提出一种名为Delta的新型私有训练和推理框架,该框架能够在保持与非私有集中式训练相当模型性能的同时,实现强大的隐私保护。Delta通过利用中间表示(IRs)中的不对称结构,将信息敏感部分嵌入到低维空间中,而将信息不敏感部分推送到高维残差中,从而实现了隐私保护和高计算性能的平衡。

文献综述

差分隐私(DP)方法:通过在将数据外包给不受信任的云之前对其进行扰动来确保隐私,但通常在适度隐私约束下会导致模型效用下降。

基于密码学的技术:通过加密方案提供数据保护,但由于其复杂的计算量,尚未证明对于大型模型是高效且可扩展的。

具有私有环境的PPML:如信任执行环境(TEEs)和本地环境,通过物理隔离运行计算环境来提供解决方案,但这些环境通常资源受限,相比公共云服务中的高端GPU,计算性能较低。

结合私有环境和公共GPU的方法:也存在高复杂性,部分原因是私有环境和公共环境之间的通信量大。

具体方法

Delta框架的核心思想源自于对ML模型中间表示(IRs)不对称结构的观察。具体来说,主要敏感信息通常编码在低维空间中,而高维残差包含的信息很少。基于此观察,Delta设计了一个双路训练框架:

不对称IR分解:使用奇异值分解(SVD)和离散余弦变换(DCT)将IR分解为低维信息敏感部分(IR_main)和高维残差部分(IR_res)。

模型设计:为低维IR_main设计一个新的低复杂度模型(M_main),在私有环境中运行;而残差部分则通过添加高斯噪声和二进制量化后,发送到公共环境中的大型模型(M_res)进行处理。

隐私保护:通过DP机制和二进制量化进一步保护残差,并减少私有环境和公共环境之间的通信成本。

私有反向传播:通过分离M_main和M_res的梯度计算,确保M_main的logits不会泄露给M_res。


图1:Delta框架概述

  • a) 问题设置
    • Private Env:私有环境,如云的TEEs(可信执行环境)或本地CPU/GPU,资源受限但安全。
    • Public Env:公共环境,如云端GPU,计算能力强但不信任。
    • 目标:保护用户训练和推理数据的同时,保持计算性能和模型效用。
  • b) Delta框架
    • Backbone Model (M_bb):作为特征提取器,提取输入数据的特征并生成中间表示(IRs)。
    • IR Decomposition:将IRs分解为低维信息敏感部分(IR_main)和高维残差部分(IR_res)。
    • Model SplitM_main:在私有环境中运行,处理低维IR_main。M_res:在公共环境中运行,处理高维IR_res。
    • DP & Quantization:对IR_res添加高斯噪声并进行二进制量化,以保护隐私并减少通信成本。
    • Final Prediction:在私有环境中将M_main和M_res的输出logits相加,得到最终预测结果,该结果不泄露给公共环境。

图2:IRs的不对称结构

  • a) 通道维度的不对称结构
    • 通过SVD分析卷积神经网络(CNN)中特征图的通道相关性,发现大部分信息可以嵌入到低秩表示中。
    • 图示展示了随着主成分通道数r的增加,低秩近似误差逐渐减小。
  • b) 空间维度的不对称结构
    • 使用DCT分析每个通道内像素的空间相关性,发现通过少量低频分量可以充分近似原始特征图。
    • 图示展示了随着低频分量比例的增加,低频近似误差逐渐减小。

此公式表示SVD(奇异值分解)残差。给定一个中间表示X,首先通过SVD得到其低秩表示X_{lr},SVD残差则是原始X减去低秩表示X_{lr}的部分,包含从第r+1到c个奇异值及其对应的左右奇异向量。

公式2表示DCT(离散余弦变换)残差。对于每个主通道V_i,首先通过DCT得到其频率域表示C_i,然后只保留低频部分重建V_{i_{lf}},高频部分则作为DCT残差V_{i_{DCT_{res}}}。

公式3表示低维信息敏感表示IR_{main}。它通过将每个主通道V_i的低频部分V_{i_{lf}}与其对应的奇异值s_i和左奇异向量U_i相乘并求和得到。

公式4表示残差IR_{res}。它是原始中间表示X减去低维信息敏感表示IR_{main}的部分,包含SVD残差和DCT残差。

公式5表示对残差进行归一化。归一化是必要的,以便为差分隐私(DP)机制设定灵敏度界限。其中C是一个缩放参数,|IR_{res}|2表示残差IR{res}的L2范数。


公式描述了对加噪后的残差IR_noisy进行二值量化的过程。如果IR_noisy小于0,则量化结果为0;否则为1。这样做可以显著减少通信开销。

图3:不对称IR分解

  • 展示了如何使用SVD和DCT将IR分解为低维IR_main和高维IR_res的过程。
  • SVD用于提取通道维度的主成分,DCT用于进一步提取空间维度的低频分量。
  • 最终的IR_main包含主要敏感信息,而IR_res则包含较少的信息。

图4:低维IR_main的模型设计

  • 展示了为低维IR_main设计的低复杂度卷积层结构。
  • 通过将卷积层拆分为两个子层(一个用于学习主成分特征,另一个用于组合这些特征),并添加核正交性正则化,可以在保持信息完整性的同时降低计算复杂度。

公式表示优化低维卷积层的权重θ_1和θ_2,以最小化原始输出Y和低维层输出Y_0之间的Frobenius范数差异。这是为了在保证信息不损失的情况下降低计算复杂度。

图5:模型准确率

  • 展示了在CIFAR-10和CIFAR-100数据集上,使用ResNet-18模型时,不同方案的验证准确率。
  • M_main:仅使用M_bb和M_main进行训练,无残差信息。
  • M_main + M_res:使用M_bb、M_main和M_res进行训练,并对IR_res添加DP噪声。
  • Orig:使用原始模型进行训练,无隐私保护措施。
  • 结果表明,通过添加M_res并使用DP保护残差信息,Delta能够在保持较高准确率的同时实现隐私保护。与直接在原始IR上添加噪声的naive-DP方法相比,Delta在相同隐私预算下显著提高了准确率。

图6:模型准确率对比

  • 数据集与模型:使用CIFAR-10、CIFAR-100和ImageNet数据集,以及ResNet-18和ResNet-34模型进行评估。
  • 方案对比M_main:仅使用主模型M_main(无残差信息)的准确率。M_main + M_res:结合主模型M_main和残差模型M_res的准确率,其中对残差信息添加了不同隐私预算(ε)的DP噪声。Orig:使用原始模型(无隐私保护)的准确率。
  • 结果分析:M_main由于仅处理低维敏感信息,其准确率已接近原始模型。添加M_res后,Delta框架的准确率进一步提升,接近甚至达到原始模型的准确率。在相同隐私预算下,Delta相比直接在原始IR上添加噪声的naive-DP方法,准确率显著提高。

表1: ResNet-18模型在不同隐私预算下的准确率对比

  • 解释:表1对比了在CIFAR-10数据集上,使用Delta框架(对残差IR_res添加噪声)和直接对原始IR添加噪声(naive-DP)两种策略下,ResNet-18模型的准确率。在相同的隐私预算下,Delta框架通过不对称分解和对残差添加噪声的方式,显著提高了模型的准确率,相比naive-DP方法最高提升了约31.5%。这表明Delta框架通过保留低维敏感信息并仅对高维残差进行扰动,实现了更好的隐私保护与模型效用之间的平衡。

表2: ResNet模型在不同数据集上的理论计算复杂度

  • 解释:表2列出了ResNet-18和ResNet-34模型在CIFAR-10/100和ImageNet数据集上,前向传播过程中各部分的计算复杂度(以MACs为单位)。相比M_res模型,M_bb + M_main模型的计算复杂度显著较低,仅占M_res模型复杂度的约10%。这表明Delta框架通过不对称分解,有效降低了私有环境中的计算量,从而提高了整体计算效率。

表3: 不同训练策略下的每迭代训练和推理时间对比

  • 解释:表3对比了在CIFAR-100数据集上,使用ResNet-18模型时,不同训练策略(私有环境仅训练、3LegRace框架、Slalom框架、Delta框架)下的每迭代训练和推理时间。Delta框架在训练和推理时间上均表现出显著优势,相比私有环境仅训练加速了约22倍和25倍,相比其他隐私保护框架也有明显的速度提升。这表明Delta框架通过优化任务分配和减少跨环境通信,实现了高效的训练和推理过程。

表4: Delta框架在CIFAR-100数据集上的时间分解

  • 解释:表4详细列出了Delta框架在CIFAR-100数据集上使用ResNet-18模型时,前向传播和反向传播过程中各部分的时间消耗。M_bb和IR分解的时间消耗相对较少,而M_main和M_res的前向传播和反向传播占据了大部分时间。尽管M_main的理论计算复杂度低于M_res,但实际运行时间中M_main仍占较大比例,这可能与并行度、内存访问等因素有关。整体上,Delta框架通过优化私有环境和公共环境之间的任务分配,显著缩小了时间差距。

表5: Delta框架对模型反转攻击的防御效果

  • 解释:表5展示了在CIFAR-100数据集上,使用ResNet-18模型时,Delta框架对模型反转攻击的防御效果。无DP噪声时,攻击者能够利用残差信息重建出具有一定特征的图像,这些图像在目标模型上的准确率也较高。添加DP噪声后,重建图像的质量显著下降,SSIM值大幅降低,且在目标模型上的准确率也明显降低。这表明Delta框架通过DP机制有效保护了残差信息中的隐私,从而增强了对模型反转攻击的防御能力。

图7:模型反转攻击效果对比

  • 攻击方法:使用SecretRevealer进行模型反转攻击,允许攻击者使用量化后的残差作为先验知识。
  • 评价指标SSIM:重构图像与原始图像的结构相似性指数。Acc_M:使用重构图像作为输入时,目标模型的准确率。
  • 结果分析:无DP噪声时,攻击者能利用残差信息重构出具有一定特征的图像,这些图像在目标模型上获得较高的准确率。添加DP噪声后,重构图像的质量显著下降,目标模型的准确率也大幅降低,表明DP机制有效保护了残差信息。

表6: Delta框架对成员推理攻击的防御效果

  • 解释:表6展示了在CIFAR-100数据集上,使用ResNet-18模型时,Delta框架对成员推理攻击的防御效果。无DP噪声时,攻击性能较高,表明攻击者能够利用残差模型M_res的输出进行有效的成员推理。添加DP噪声后,攻击性能显著下降,且随着公共样本数量的减少,攻击性能进一步降低。这表明Delta框架通过DP机制有效防止了攻击者通过残差信息推断出训练数据的成员资格,从而增强了对成员推理攻击的防御能力。
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言

    滇ICP备2024046894号-1