Mireshghallah, N. , Kim, H., Zhou, X., Tsvetkov, Y., Sap, M., Shokri, R., & Choi, Y. (2024). Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory. ICLR 2024.✅
Nissenbaum, H. (2004). Privacy as Contextual Integrity. Washington Law Review.✅
Carlini, N. , et al. (2022). The Secret Life of Machine Learning: Analyzing Data Leakage.✅
Abadi, M. , et al. (2016). Deep Learning with Differential Privacy. ACM SIGSAC Conference on Computer and Communications Security.✅
Zhao, H. , et al. (2024). Understanding User Interaction with Language Models: From Data Sharing to Inference-Time Risks.✅
在当今数字时代,隐私问题愈发引起人们的关注,尤其是在人工智能和大型语言模型(LLMs)日益普及的背景下。Niloofar Mireshghallah等人(2024)在他们的研究中提出了一个重要的问题:“大型语言模型是否能够在互动场景中合理地处理隐私问题?”他们的研究基于上下文完整性理论,提出了一个新的基准——CONFAIDE,旨在测试和评估LLMs在隐私推理方面的能力。
💡 隐私的上下文完整性
上下文完整性理论由Helen Nissenbaum在2004年提出,强调信息流动的适当性与特定社会上下文的关系。根据这一理论,隐私不仅与信息的性质有关,更与信息流动的上下文密切相关。例如,如果医疗提供者将患者的医疗记录分享给不相关的第三方,这显然是对隐私的侵犯。在这种情况下,模型需要理解信息流动的上下文,以判断其是否适当。
研究表明,当前的LLMs在训练阶段主要关注数据泄漏和记忆问题,但在实际应用中,它们往往会在上下文中错误地处理敏感信息。例如,Mireshghallah等人的实验显示,在人类自然会选择保密的情况下,LLMs却常常泄露私人信息,这表明它们在隐私推理方面存在明显的不足。
🧪 CONFAIDE基准的设计
CONFAIDE基准分为四个不同的层次,每一层的复杂性逐渐增加。第一层仅评估模型对信息敏感性的基本理解,第二层涉及信息流动的上下文推理,第三层则要求模型具备“心智理论”能力,能够理解他人对信息的知晓程度和情境依赖。最后一层结合了多个信息类型和参与者,模拟真实场景下的隐私推理。
例如,在第一层中,模型被问及特定信息类型的敏感程度,而在第三层中,模型需要处理多方之间的信息流动,并判断是否应当泄露某些信息。在这些实验中,GPT-4和ChatGPT在更复杂的场景中显示出较低的隐私保护能力,其私密信息泄露率达到39%和57%。
📊 实验结果与分析
研究团队收集了大量的数据,比较了LLMs在不同层次的表现,并与人类的隐私期望进行了对比。数据显示,随着层次的增加,模型的隐私保护能力显著下降。例如,在第三层中,GPT-4和ChatGPT分别有22%和93%的机会泄露私人信息。在层次四中,模型被指示保密,但仍然在39%和57%的情况下将私人信息流向不适当的参与者。
以下是研究中一些关键结果的图示:
这些数据表明,尽管LLMs在训练中接受了大量的监督和调整,仍然缺乏在复杂社会环境中进行隐私推理的能力。
🧠 心智理论与隐私推理的关联
心智理论是指个体理解他人的心理状态、意图和知识的能力。在隐私推理中,心智理论的能力尤为重要,因为许多隐私决策依赖于对他人知情程度的理解。例如,在一场家庭聚会上,兄弟姐妹之间可能会共享某些私密信息,而不希望其他成员知晓。
研究表明,当前的LLMs在处理包含隐私和秘密的信息时,往往无法正确推断这些信息的适当流动。Mireshghallah等人的研究强调,提升模型的心智理论能力,将有助于改善其在隐私保护方面的表现。
🔍 未来的研究方向
为了有效解决隐私推理中暴露的问题,研究者们呼吁采用更为根本的解决方案,而不仅仅依赖于表面上的隐私保护技术(如数据去标识化和差分隐私)。未来的研究可以探索如何通过引入符号图形表示等方法,帮助模型更好地理解和处理隐私问题。
此外,随着人们对AI模型信任度的提高,未来的研究还需关注用户与AI之间的互动,确保在提供便利的同时,保护用户的隐私信息。
📚 参考文献