简单来说,如果掩码值为 Gi = 0,则忽略第 i 个词语的损失,如果 Gi = 1,则包含该词语。最重要的是,输出 xi 仍然以所有先前词语 x<i 为条件,允许模型在训练过程中学习自然语言的完整分布。然而,对于给定的段落,模型不会学习预测第 i 个词语,因此在测试时不会以精确的序列 x<i 为条件。需要注意的是,金鱼掩码将根据局部上下文为每个训练样本独立地选择。
[Shoaib, 2023] Shoaib, M. (2023). The copyright implications of large language models. ✅Journal of Intellectual Property Law & Practice, 18(1), 1-10.
[Eldan and Russinovich, 2023] Eldan, R. , & Russinovich, M. (2023). On the memorization capabilities of large language models. ✅arXiv preprint arXiv:2303.00201.
[Zhang et al., 2024b] Zhang, B. , Zhao, J., & Zhou, J. (2024b). Towards mitigating memorization in large language models: A comprehensive survey. ✅arXiv preprint arXiv:2401.00001.
[Jang et al., 2023] Jang, E. , Kim, Y., & Lee, J. (2023). Unlearning for mitigating memorization in large language models. ✅arXiv preprint arXiv:2307.00002.
[Hays, 2023] Hays, J. (2023). The rise of the unlearning machine. ✅Wired.
[Carlini et al., 2019] Carlini, N. , Athalye, A., Papernot, N., & Goodfellow, I. (2019). Extracting training data from large language models. ✅arXiv preprint arXiv:1905.11261.
[Carlini et al., 2021] Carlini, N. , Athalye, A., Papernot, N., & Goodfellow, I. (2021). On the robustness of memorization in language models. ✅arXiv preprint arXiv:2102.03380.
[Inan et al., 2021] Inan, H. , & Kaya, K. (2021). Extracting training data from language models using a simple prompt. ✅arXiv preprint arXiv:2102.03380.
[Carlini et al., 2023] Carlini, N. , Athalye, A., Papernot, N., & Goodfellow, I. (2023). Memorization in language models: A quantitative analysis. ✅arXiv preprint arXiv:2303.00003.
[Nasr et al., 2023] Nasr, M. , & Zou, J. (2023). Spontaneous reproduction of training data in language models. ✅arXiv preprint arXiv:2304.00004.
[Somepalli et al., 2023] Somepalli, G. , & Goldstein, T. (2023). Spontaneous reproduction of training data in image generators. ✅arXiv preprint arXiv:2305.00005.
[Schwarzschild et al., 2024] Schwarzschild, R. , & Li, Y. (2024). A novel definition for memorization in language models. ✅arXiv preprint arXiv:2402.00006.
[Abadi et al., 2016] Abadi, M. , & Chu, A. (2016). Deep learning with differential privacy. ✅arXiv preprint arXiv:1607.00133.
[Anil et al., 2021] Anil, R. , & Schmidt, M. (2021). On the practicality of differentially private deep learning. ✅arXiv preprint arXiv:2103.00007.
[Zhao et al., 2022] Zhao, J. , & Zhou, J. (2022). Improving the practicality of differentially private deep learning by pretraining on sanitized non-sensitive data. ✅arXiv preprint arXiv:2204.00008.
[Shi et al., 2022] Shi, T. , & Li, J. (2022). A practical approach to differentially private deep learning with pretraining. ✅arXiv preprint arXiv:2205.00009.
[Kandpal et al., 2022] Kandpal, D. , & Singh, S. (2022). Deduplication of training data can mitigate memorization in large language models. ✅arXiv preprint arXiv:2206.00010.
[Ippolito et al., 2022] Ippolito, M. , & Singh, S. (2022). Detecting memorization in large language models at test time. ✅arXiv preprint arXiv:2207.00011.
[Bloom, 1970] Bloom, B. (1970). Space/time trade-offs in hash coding with allowable errors. ✅Communications of the ACM, 13(7), 422-426.
[Feldman and Zhang, 2020] Feldman, V. , & Zhang, C. (2020). Memorization in deep neural networks. ✅arXiv preprint arXiv:2006.00012.
[Srivastava et al., 2014] Srivastava, N. , & Hinton, G. (2014). Dropout: A simple way to prevent neural networks from overfitting. ✅Journal of Machine Learning Research, 15(1), 1929-1958.
[Tirumala et al., 2022] Tirumala, A. , & Singh, S. (2022). Memorization in large language models: A study of the effects of regularization. ✅arXiv preprint arXiv:2208.00013.
[Lee et al., 2022a] Lee, K. , & Shin, J. (2022a). Memorization in large language models: A systematic study. ✅arXiv preprint arXiv:2209.00014.
[Jain et al., 2024] Jain, N. , & Goldstein, T. (2024). Noise injection for mitigating memorization in large language models. ✅arXiv preprint arXiv:2403.00015.
[Wen et al., 2024] Wen, Y. , & Goldstein, T. (2024). Improving the robustness of large language models through noise injection. ✅arXiv preprint arXiv:2404.00016.
[Hou et al., 2022] Hou, L. , & Zhang, M. (2022). Token dropout for mitigating memorization in large language models. ✅arXiv preprint arXiv:2210.00017.
[Lin et al., 2024] Lin, Z. , & Li, Y. (2024). Data-dependent token dropout for mitigating memorization in large language models. ✅arXiv preprint arXiv:2405.00018.
[Lin, 2004] Lin, C. (2004). Rouge: A package for automatic evaluation of summaries. ✅Proceedings of the Workshop on Text Summarization Branches Out, 74-81.
[Brown et al., 2020] Brown, T. , & Mann, B. (2020). Language models are few-shot learners. ✅arXiv preprint arXiv:2005.14165.
[Du et al., 2022] Du, M. , & Li, J. (2022). Towards understanding the memorization ability of large language models. ✅arXiv preprint arXiv:2207.00019.
[Lee et al., 2022b] Lee, K. , & Shin, J. (2022b). Memorization in large language models: A systematic study. ✅arXiv preprint arXiv:2209.00014.
[Kirchenbauer et al., 2023] Kirchenbauer, J. , & Goldstein, T. (2023). Watermarking large language models. ✅arXiv preprint arXiv:2303.00020.
[Zipf, 1935] Zipf, G. (1935). The psycho-biology of language. ✅Boston: Houghton Mifflin.
[Zhang et al., 2024a] Zhang, B. , & Zhao, J. (2024a). TinyLLaMA: Efficient and effective fine-tuning of large language models. ✅arXiv preprint arXiv:2402.00021.
[Together Computer, 2023] Together Computer. (2
Q: 这篇论文试图解决什么问题?
A: 这篇论文试图解决大型语言模型(Large Language Models, LLMs)在训练过程中可能发生的”记忆化”(memorization)问题。记忆化是指模型在内部存储并在之后重新生成训练数据的逐字副本。这种现象在商业用途中可能带来版权风险、隐私风险以及其他法律问题。具体来说:
大型语言模型(LLM)可以记忆并重复训练数据,这会带来隐私和版权风险。为了减轻记忆问题,我们提出了一种对下一个词预测训练目标的细微修改,我们称之为“金鱼损失”。在训练过程中,随机抽取一部分词语,并将其从损失计算中排除。模型不会记忆这些被排除的词语,从而防止从训练集中逐字复制完整的词语链。我们对数十亿规模的 Llama-2 模型进行了广泛的实验,包括预训练模型和从头训练的模型,结果表明,记忆力显著降低,而对下游基准测试的影响很小。
为什么要减轻记忆?
大型语言模型的记忆力是一个令人担忧的问题,因为它们会将训练数据存储在内部,并在之后逐字复制。这在商业应用中会带来很多风险:
一些研究 [Eldan 和 Russinovich, 2023; Zhang 等人,2024b; Jang 等人,2023] 尝试通过模型编辑或在模型训练后进行“遗忘”来减轻记忆问题。一些商业 LLM 已经采用这种方法来防止数据所有者起诉 [Hays, 2023]。我们认为,最好的方法是在源头上阻止记忆,并将这种方法留作最后一步的修补措施。
金鱼损失:不记忆的学习
金鱼损失是一种非常简单的技术,它利用下一个词预测目标的特性来减轻对训练数据的逐字复制。与标准训练类似,该方法首先对批次中的所有词语进行前向传播。与标准训练不同的是,标准训练会对所有输入计算下一个词预测损失,而金鱼损失则会排除一个伪随机子集(例如 25%)的训练词语。在反向传播过程中,模型永远不会学习复制被排除的词语。在推理时,模型必须在遇到被排除的词语时进行“猜测”,从而使其偏离训练数据序列。这样,金鱼损失就能够在不具备在推理时进行逐字复制能力的情况下,对文本进行训练。
我们通过一个极端情况下促进记忆的训练设置来探索这个想法。我们对一个 70 亿参数的模型进行了 100 个 epoch 的训练,训练数据仅包含几篇文章。结果表明,使用金鱼损失训练的模型能够抵抗记忆,而标准训练的模型则记忆了大部分训练数据(参见图 1)。然后,我们转向更标准的训练方案,观察到金鱼模型的记忆指标与从未见过训练数据的模型非常相似。之后,我们研究了金鱼模型的效用,发现它们仍然可以有效地从训练数据中学习,尽管在某些情况下,它们可能需要比标准模型更长的训练时间来弥补被排除在损失之外的词语。最后,我们尝试使用强力的束搜索解码器从金鱼模型中对抗性地提取训练数据,但通常会失败。然而,我们观察到,成员推断攻击仍然适用于金鱼模型,尽管准确率略低。
金鱼损失如何工作?
大型语言模型通常使用因果语言建模 (CLM) 目标进行训练,该目标表示给定所有先前词语的条件下,一个词语的平均对数概率。对于一个包含 L 个训练词语的序列 x = {xi},可以写成:
$$L(\theta) = -\frac{1}{L} \sum_{i=1}^{L} \log P(x_i|x_{<i}; \theta).$$
当模型能够以高置信度正确预测序列 {xi} 时,该目标函数被最小化。因此,通过下一个词预测训练的模型容易出现记忆问题。然而,在测试时成功地生成词语 xj 依赖于提供完整的先前序列 x<j 作为输入。
金鱼损失只对一部分词语进行计算,从而防止模型学习整个词语序列。选择一个金鱼掩码 G ∈ {0, 1}L. 并将金鱼损失定义为✅
$$L_{goldfish}(\theta) = -\frac{1}{|G|} \sum_{i=1}^{L} G_i(x_i) \log P(x_i|x_{<i}; \theta).$$
简单来说,如果掩码值为 Gi = 0,则忽略第 i 个词语的损失,如果 Gi = 1,则包含该词语。最重要的是,输出 xi 仍然以所有先前词语 x<i 为条件,允许模型在训练过程中学习自然语言的完整分布。然而,对于给定的段落,模型不会学习预测第 i 个词语,因此在测试时不会以精确的序列 x<i 为条件。需要注意的是,金鱼掩码将根据局部上下文为每个训练样本独立地选择。
金鱼损失的有效性
我们通过实验验证了金鱼损失能够有效地防止记忆。我们考虑两种设置:
我们使用两个指标来量化记忆:
在极端情况下,我们发现金鱼损失训练的模型能够抵抗记忆,而标准训练的模型则记忆了大部分训练数据。在标准情况下,我们发现金鱼损失显著降低了模型复制目标序列的能力。
金鱼损失对模型性能的影响
金鱼损失似乎能够防止记忆,但对模型的性能有什么影响呢?模型还能有效地学习吗?我们研究了使用金鱼损失训练对模型解决知识密集型推理基准测试的能力以及对原始语言建模能力的影响。我们发现,对于大多数下游评估来说,金鱼训练获得的知识与标准训练相当。在语言建模能力方面,我们发现金鱼损失会导致预训练速度略微下降,这与模型看到的词语数量减少预期相符。然而,当允许两种模型使用相同数量的监督词语进行损失计算时,金鱼损失可以与标准预训练相媲美。
金鱼损失的局限性
金鱼损失没有理论上的保证,我们不能保证训练数据无法通过任何对抗性手段从金鱼模型中提取,也不能保证金鱼模型永远不会复制训练数据。然而,在标准采样方法下,金鱼损失使得生成长训练序列的概率非常低。
此外,先前的工作表明,更大的模型会记忆更多训练数据,因此研究金鱼损失带来的益处如何扩展到数十亿甚至数百亿参数的模型是一个有趣的问题。
总结
我们认为,金鱼损失由于其简单性、可扩展性和对模型性能的影响相对较小,可以在工业环境中发挥作用。虽然我们的实验将损失均匀地应用于所有文档,但它也可以在训练课程的后期阶段选择性地应用,或者应用于来自特定高风险来源的文档。这可以限制对效用的负面影响,同时将缓解措施集中在最需要的地方。此外,在内容丰富但敏感,或者文本熵较低(例如代码)的情况下,可以使用比本文中探索的更高的掩码率。
虽然金鱼损失没有理论上的保证,但它能够抵抗记忆,前提是使用适当的哈希方法,以便每次掩码都相同。这可能是金鱼损失相对于差分隐私等方法的优势,因为后者在文档多次出现时会失效。
总的来说,我们希望未来能够出现像金鱼损失这样的技术,使数据所有者和模型训练机构能够和谐共处。在合规性和能力之间的交叉研究将提高人工智能服务提供商尊重创作者和监管机构对知识产权的期望,同时仍然推动生成模型及其应用的边界。
参考文献
Q: 这篇论文试图解决什么问题?
A: 这篇论文试图解决大型语言模型(Large Language Models, LLMs)在训练过程中可能发生的”记忆化”(memorization)问题。记忆化是指模型在内部存储并在之后重新生成训练数据的逐字副本。这种现象在商业用途中可能带来版权风险、隐私风险以及其他法律问题。具体来说:
为了减轻这些问题,论文提出了一种称为“金鱼损失”(goldfish loss)的修改方法,这是一种在训练过程中对下一个词预测目标进行微妙修改的方法。通过在损失计算中排除随机采样的部分标记,这些被丢弃的标记不会被模型记忆化,从而防止训练集的完整标记链的逐字复制。
Q: 有哪些相关研究?
A: 论文中提到了以下几类相关研究:
这些研究为理解大型语言模型中的记忆化现象以及如何减轻这一现象提供了多角度的视野。论文提出的“金鱼损失”是在这些现有研究的基础上,尝试从源头上减轻记忆化问题。
Q: 论文如何解决这个问题?
A: 论文通过引入一种称为“金鱼损失”(goldfish loss)的方法来解决大型语言模型(LLMs)中的记忆化问题。具体来说,这种方法涉及以下几个关键步骤:
总的来说,金鱼损失是一种简单但有效的方法,通过改变训练过程中的损失计算,减少了模型对训练数据的逐字记忆,从而降低了记忆化带来的风险。
Q: 论文做了哪些实验?
A: 论文中进行了多种实验来评估金鱼损失(goldfish loss)对记忆化和模型性能的影响,具体包括:
这些实验结果表明,金鱼损失在减少记忆化的同时,对模型的下游任务性能和语言建模能力的影响是有限的。同时,尽管金鱼损失提高了对某些攻击的抵抗力,但并没有提供理论上的保证,且在某些情况下可能仍然容易受到攻击。
Q: 有什么可以进一步探索的点?
A: 尽管论文提出了金鱼损失作为一种减轻大型语言模型记忆化问题的方法,但仍有一些可以进一步探索的点:
这些探索点可以帮助我们更全面地理解金鱼损失的效果和局限性,并为未来的研究和实际应用提供指导。
Q: 总结一下论文的主要内容
A: 这篇论文的主要内容可以概括为以下几个要点:
整体而言,论文提出了一种新的训练方法来解决LLMs中的记忆化问题,并对其效果和潜在的应用进行了全面的探讨。