我们提出了 SalUn,这是一个基于权重显著性的机器遗忘框架,它有效地解决了现有 MU 方法的局限性,并适用于图像分类和生成任务。SalUn 在防止稳定扩散生成有害内容方面非常有效,即使遇到不当图像提示也是如此。
参考文献
Adebayo, J. , Gilmer, J., Muelly, M., Goodfellow, I., Hardt, M., & Kim, B. (2018). Sanity checks for saliency maps. Advances in neural information processing systems, 31.✅
Bae, G. , Lee, S., Jeong, S., Park, J., & Kim, N. (2023). Diffusion art or digital forgery? investigating data replication in diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 15494-15503).✅
Becker, F. , & Liebig, T. (2022). Approximate machine unlearning via random label flipping. In Proceedings of the 2022 ACM SIGSAC Conference on Computer and Communications Security (pp. 2000-2013).✅
Bedapudi, N. (2019). Nudenet: Open source nudity detection. https://github.com/notAI-tech/NudeNet.✅
Birhane, A. , Prabhu, V., & Mitchell, M. (2021). Multimodal datasets: misogyny, pornography, and malignant stereotypes. arXiv preprint arXiv:2110.01963.✅
Carlini, N. , Tramer, F., Wallace, E., Jagielski, M., Herbert-Voss, A., Lee, K., … & Usenix Security. (2022). Extracting training data from diffusion models. In 31st {USENIX} Security Symposium ({USENIX} Security 22) (pp. 423-440).✅
Chattopadhay, A. , Sarkar, A., Howlader, P., & Balasubramanian, V. N. (2018). Grad-cam++: Generalized gradient-based visual explanations for deep convolutional networks. In 2018 IEEE Winter Conference on Applications of Computer Vision (WACV) (pp. 839-847). IEEE.✅
Chen, Y. , Zhang, X., & Zhu, S. (2022a). Certified graph unlearning. In Proceedings of the 2022 ACM SIGSAC Conference on Computer and Communications Security (pp. 2104-2117).✅
Chen, T. , Zhang, Z., Liu, S., Chang, S., & Wang, Z. (2022b). Adversarial weight perturbation helps robust generalization. Advances in Neural Information Processing Systems, 35, 20269-20282.✅
Chen, Y. , Zhang, X., & Zhu, S. (2023). Approximate machine unlearning via class-discriminative boundary shifting. In Proceedings of the 40th International Conference on Machine Learning (pp. 4488-4501). PMLR.✅
Cheng, Y. , Chen, Y., Zhang, X., & Zhu, S. (2023). Efficient graph unlearning with guar- antees. arXiv preprint arXiv:2305.16868.✅
Chien, S. , Zhou, Y., Honorio, J., & Li, L. (2022). Certified removal of data points for ma- chine learning. arXiv preprint arXiv:2205.06735.✅
Dai, D. , Dong, L., Hao, Y., Sui, Z., Ke, F., & Zhang, J. (2021). Knowledge neurons in pre- trained transformers. arXiv preprint arXiv:2104.08656.✅
De Cao, N. , Aziz, W., & Titov, I. (2021). Editing factual knowledge in language models. arXiv preprint arXiv:2104.08164.✅
Dwork, C. , McSherry, F., Nissim, K., & Smith, A. (2006). Calibrating noise to sensitivity in private data analysis. In Theory of cryptography conference (pp. 265-284). Springer.✅
Frankle, J. , & Carbin, M. (2018). The lottery ticket hypothesis: Finding sparse, trainable neural networks. arXiv preprint arXiv:1803.03635.✅
Gandikota, V. , Liu, R., Abbeel, P., & Recht, B. (2023). Erased stable diffusion. arXiv preprint arXiv:2301.12796.✅
Ginart, A. , Guan, M., Valiant, G., & Zou, J. (2019). Making ai forget you: Data deletion in machine learning. Advances in Neural Information Processing Systems, 32.✅
Golatkar, A. , Achille, A., & Soatto, S. (2020). Eternal sunshine of the spotless net: Forgetting in deep networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 9304-9312).✅
Graves, A. , Shokri, R., & Goldwasser, S. (2021). Breaking certified defenses: Semantic adversarial examples with spoofed robustness certificates. In International Conference on Machine Learning (pp. 3664-3673). PMLR.✅
Grosse, D. , LeCun, Y., & Schoelkopf, B. (2023). Data attribution for deep learning models based on integrated gradients. In Proceedings of the 40th International Conference on Machine Learning (pp. 11258-11271). PMLR.✅
Guo, C. , Goldstein, T., Hannun, A., & van der Maaten, L. (2019). Certified data removal from machine learning models. arXiv preprint arXiv:1911.03030.✅
Han, S. , Pool, J., Tran, J., & Dally, W. (2015). Learning both weights and connections for efficient neural network. Advances in neural information processing systems, 28.✅
He, K. , Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).✅
Heng, S. , & Soh, H. (2023). Forget-me-not: Accurate diffusion model unlearning via data synthesis and model pruning. arXiv preprint arXiv:2308.14558.✅
Ho, J. , & Salimans, T. (2022). Classifier-free diffusion guidance. Advances in Neural Information Processing Systems, 35, 16294-16305.✅
Hoofnagle, C. J., Borgesius, F. Z., Whittington, R., & Mayer-Schönberger, V. (2019). The right to be forgotten. Stanford Law Review, 70(6), 1443-1532.✅
Howard, J. , & Gugger, S. (2020). Fastai: A layered api for deep learning. Information, 11(2), 108.✅
Ilyas, A. , Park, S., Bastani, O., & Reagen, B. (2022). Data debugging with shapley expla- nations. In Proceedings of the 2022 ACM SIGSAC Conference on Computer and Communications Security (pp. 1982-1999).✅
Izzo, Z. , Smart, M., Chaudhuri, K., & Zou, J. Y. (2021). Approximate data deletion from machine learning models: Algorithms and evaluations. arXiv preprint arXiv:2110.04788.✅
Jain, P. , Liu, S., & Kamar, E. (2023). Unlearn what you’ve learned: Adaptive pre- training for knowledge transfer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 14398-14407).✅
Jeyakumar, J. V., Batra, D., Parikh, D., & Kim, S. (2020). Influence functions in deep learning are fragile. arXiv preprint arXiv:2006.14065.✅
Jia, J. , Fan, C., Liu, J., Wei, D., & Liu, S. (2023). Full-stack evaluation of machine unlearning in image classification. arXiv preprint arXiv:2305.17537.✅
Koh, P. W., & Liang, P. (2017). Understanding black-box predictions via influence func- tions. In International conference on machine learning (pp. 1885-1894). PMLR.✅
Krizhevsky, A. , Hinton, G., et al. (2009). Learning multiple layers of features from tiny images.✅
Le, Y. , & Yang, X. (2015). Tiny imagenet visual recognition challenge. CS 231N, 7(7), 3.✅
Liu, Z. , Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., … & Guo, B. (2021). Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 10012-10022).✅
Liu, Y. , Ma, X., Bailey, J., & Lu, F. (2022a). Black-box unlearning of backdoor poisoned deep neural networks. arXiv preprint arXiv:2205.05728.✅
Liu, Y. , Lyu, L., Feng, S., Xu, X., & Zhang, T. (2022b). Machine unlearning for federated learning: Fundamental limits and algorithms. arXiv preprint arXiv:2209.01941.✅
Meng, K. , Bau, D., & Lakkaraju, H. (2022). Locating and editing factual associations in gpt. Advances in Neural Information Processing Systems, 35, 17343-17355.✅
Menik, A. , & Ramaswamy, S. (2023). Modularity in large language models. arXiv preprint arXiv:2302.03000.✅
Neel, S. , Roth, A., & Sharifi-Malvajerdi, S. (2021). Descent-to-delete: Gradient-based methods for machine unlearning. In International Conference on Machine Learning (pp. 8274-8283). PMLR.✅
Netzer, Y. , Wang, T., Coates, A., Bissacco, A., Wu, B., & Ng, A. Y. (2011). Reading digits in natural images with unsupervised feature learning.✅
Oesterling, F. , Roth, A., & Neel, S. (2023). Machine unlearning for fairness. In Proceedings of the 40th International Conference on Machine Learning (pp. 25892-25907). PMLR.✅
Parikh, N. , Boyd, S., et al. (2014). Proximal algorithms. Foundations and Trends® in Optimization, 1(3), 127-239.✅
引言
随着数据法规的不断演变,机器遗忘 (MU) 已成为增强当今人工智能模型信任度和安全性的重要工具。然而,现有的 MU 方法侧重于数据和/或权重视角,在遗忘准确性、稳定性和跨领域适用性方面往往存在局限性。为了应对这些挑战,我们引入了 MU 的“权重显著性”概念,并将其与模型解释中的输入显著性进行了类比。这一创新将 MU 的注意力从整个模型转移到特定的模型权重上,从而提高了有效性和效率。由此产生的方法被称为显著性遗忘 (SalUn),它缩小了与“精确”遗忘(从移除遗忘数据点后从头开始重新训练模型)的性能差距。据我们所知,SalUn 是第一个能够有效消除遗忘数据、类别或概念在图像分类和生成任务中的影响的原则性 MU 方法。例如,SalUn 在高方差随机数据遗忘中具有稳定性优势,例如,在 CIFAR-10 数据集上与精确遗忘相比,差距为 0.2%。此外,在防止条件扩散模型生成有害图像方面,SalUn 实现了近 100% 的遗忘准确率,优于当前最先进的基线,如 Erased Stable Diffusion 和 Forget-Me-Not。代码可在 https://github.com/OPTML-Group/Unlearn-Saliency 获取。
警告:本文包含的模型输出可能具有冒犯性。
机器遗忘的挑战
现有的机器遗忘方法存在两大局限性:
SalUn:权重显著性是 MU 的关键
为了解决上述局限性,我们提出了 SalUn,它利用了梯度信息来构建权重显著性图,并将其用于指导遗忘过程。
基于梯度的权重显著性图
我们借鉴了梯度信息在输入显著性图中的应用,提出了构建权重显著性图来辅助 MU 的想法。权重显著性图可以将预遗忘模型权重 (θo) 分解为两个不同的部分:在 MU 期间标记为更新的显著模型权重和保持不变的完整模型权重。
我们使用遗忘损失 (`f(θ; Df)) 相对于遗忘数据集 Df 下模型权重变量 θ 的梯度,并应用硬阈值操作来获得权重显著性图:
其中 1(g ≥ γ) 是一个元素级指示函数,如果 gi ≥ γ,则第 i 个元素的值为 1,否则为 0,|·| 是元素级绝对值运算,γ > 0 是硬阈值。
基于权重显著性图,我们可以将遗忘模型 θu 表示为:
其中 是元素级乘积,1 表示全 1 向量。这意味着在 MU 期间的权重更新中,注意力可以集中在显著权重上。
SalUn 的实现
SalUn 将权重显著性图 (mS) 集成到遗忘过程中,并利用随机标签 (RL) 方法来更新显著权重。
在图像分类中,SalUn 的优化问题可以表示为:
其中 y0 是与 y 不同的随机图像标签,θu 已在 (4) 中定义。
在图像生成中,SalUn 的优化问题可以表示为:
其中 c0 ≠ c 表示概念 c0 与 c 不同,θu 是由 (4) 给出的基于显著性的遗忘模型,β > 0 是一个正则化参数,用于在遗忘数据集 Df 上的基于 RL 的遗忘损失与非遗忘数据集 Dr 上的扩散训练损失 `MSE(θu; Dr) 之间进行优化权衡。
实验结果
我们在图像分类和生成任务上进行了大量的实验,验证了 SalUn 的有效性。
图像分类
在图像分类任务中,我们重点关注随机数据遗忘,并在 CIFAR-10 数据集上使用 ResNet-18 模型进行评估。我们比较了 SalUn 与其他 7 种 MU 基线方法的性能,包括 FT、RL、GA、IU、`1-sparse、BS 和 BE。
实验结果表明,SalUn 在两种遗忘场景(10% 随机数据遗忘和 50% 随机数据遗忘)中均实现了与 Retrain 最小的平均性能差距。此外,SalUn 在遗忘效果 (UA 和 MIA) 和模型保真度 (RA 和 TA) 之间取得了最佳平衡,同时保持了计算效率。
图像生成
在图像生成任务中,我们重点关注两种遗忘场景:使用 DDPM 的类遗忘和使用 LDM 的概念遗忘。
实验结果表明,SalUn 在类遗忘和概念遗忘任务中均优于其他 MU 基线方法,同时保持了良好的图像生成质量。
NSFW 概念遗忘
我们还评估了 SalUn 在概念遗忘中的有效性,以消除通过不当图像提示 (I2P. 引入的 NSFW 概念的影响。✅
实验结果表明,SalUn 生成的有害图像最少,显著优于其他 MU 基线方法。
结论
我们提出了 SalUn,这是一个基于权重显著性的机器遗忘框架,它有效地解决了现有 MU 方法的局限性,并适用于图像分类和生成任务。SalUn 在防止稳定扩散生成有害内容方面非常有效,即使遇到不当图像提示也是如此。
参考文献
Q: 这篇论文试图解决什么问题?
A: 这篇论文试图解决的问题是机器学习(ML)模型中的机器遗忘(Machine Unlearning, MU)问题。具体来说,它关注以下几个关键点:
为了解决这些问题,论文提出了一种新的MU方法,称为“权重显著性”(Weight Saliency),并开发了一种名为SalUn(Saliency Unlearning)的方法。这种方法通过关注模型中的特定权重而不是整个模型,提高了MU的有效性和效率。SalUn旨在缩小与精确遗忘(从头开始重新训练模型)的性能差距,并在图像分类和生成任务中实现有效的遗忘。
Q: 有哪些相关研究?
A: 论文中提到的相关研究领域和具体工作包括:
这些相关研究为论文提出的SalUn方法提供了理论基础和技术背景。论文通过整合这些研究成果,提出了一种新的原则性机器遗忘方法,旨在提高遗忘的准确性和效率。
Q: 论文如何解决这个问题?
A: 论文通过引入“权重显著性”(Weight Saliency)的概念来解决机器遗忘(MU)问题,并提出了一种名为SalUn(Saliency Unlearning)的方法。以下是SalUn方法的关键步骤和特点:
通过这些方法,SalUn能够有效地减少与精确遗忘方法(从头开始重新训练模型)之间的性能差距,同时保持了计算效率。这种方法为图像分类和生成任务中的机器遗忘问题提供了一种新的原则性解决方案。
Q: 论文做了哪些实验?
A: 论文中进行了一系列的实验来验证SalUn方法的有效性,这些实验包括:
这些实验结果表明,SalUn在多种评估指标上均优于现有方法,特别是在高变异性随机数据遗忘和防止生成有害图像方面表现出色。此外,SalUn在保持模型泛化能力的同时,能够有效地实现遗忘目标。
Q: 有什么可以进一步探索的点?
A: 尽管SalUn方法在机器遗忘领域取得了显著的进展,但仍有一些潜在的研究方向可以进一步探索:
这些研究方向不仅有助于提高SalUn方法的性能和适用性,还能推动机器遗忘领域的整体发展,使其更好地服务于数据隐私保护、模型安全和伦理合规等重要领域。
Q: 总结一下论文的主要内容
A: 这篇论文的主要内容可以总结如下:
总的来说,这篇论文通过引入权重显著性的概念,提出了一种新的原则性机器遗忘方法SalUn,并通过实验验证了其在多个任务中的有效性,为机器遗忘领域提供了新的视角和解决方案。