🤖 大型语言模型能否保守秘密？——探讨隐私的上下文完整性

在当今数字时代，隐私问题愈发引起人们的关注，尤其是在人工智能和大型语言模型（LLMs）日益普及的背景下。Niloofar Mireshghallah等人（2024）在他们的研究中提出了一个重要的问题：“大型语言模型是否能够在互动场景中合理地处理隐私问题？”他们的研究基于上下文完整性理论，提出了一个新的基准——CONFAIDE，旨在测试和评估LLMs在隐私推理方面的能力。

💡 隐私的上下文完整性

上下文完整性理论由Helen Nissenbaum在2004年提出，强调信息流动的适当性与特定社会上下文的关系。根据这一理论，隐私不仅与信息的性质有关，更与信息流动的上下文密切相关。例如，如果医疗提供者将患者的医疗记录分享给不相关的第三方，这显然是对隐私的侵犯。在这种情况下，模型需要理解信息流动的上下文，以判断其是否适当。

研究表明，当前的LLMs在训练阶段主要关注数据泄漏和记忆问题，但在实际应用中，它们往往会在上下文中错误地处理敏感信息。例如，Mireshghallah等人的实验显示，在人类自然会选择保密的情况下，LLMs却常常泄露私人信息，这表明它们在隐私推理方面存在明显的不足。

🧪 CONFAIDE基准的设计

CONFAIDE基准分为四个不同的层次，每一层的复杂性逐渐增加。第一层仅评估模型对信息敏感性的基本理解，第二层涉及信息流动的上下文推理，第三层则要求模型具备“心智理论”能力，能够理解他人对信息的知晓程度和情境依赖。最后一层结合了多个信息类型和参与者，模拟真实场景下的隐私推理。

例如，在第一层中，模型被问及特定信息类型的敏感程度，而在第三层中，模型需要处理多方之间的信息流动，并判断是否应当泄露某些信息。在这些实验中，GPT-4和ChatGPT在更复杂的场景中显示出较低的隐私保护能力，其私密信息泄露率达到39%和57%。

📊 实验结果与分析

研究团队收集了大量的数据，比较了LLMs在不同层次的表现，并与人类的隐私期望进行了对比。数据显示，随着层次的增加，模型的隐私保护能力显著下降。例如，在第三层中，GPT-4和ChatGPT分别有22%和93%的机会泄露私人信息。在层次四中，模型被指示保密，但仍然在39%和57%的情况下将私人信息流向不适当的参与者。

以下是研究中一些关键结果的图示：

| 模型          | 第三层泄露率 | 第四层泄露率 |
|---------------|--------------|--------------|
| GPT-4        | 22%          | 39%          |
| ChatGPT      | 93%          | 57%          |

这些数据表明，尽管LLMs在训练中接受了大量的监督和调整，仍然缺乏在复杂社会环境中进行隐私推理的能力。

🧠 心智理论与隐私推理的关联

心智理论是指个体理解他人的心理状态、意图和知识的能力。在隐私推理中，心智理论的能力尤为重要，因为许多隐私决策依赖于对他人知情程度的理解。例如，在一场家庭聚会上，兄弟姐妹之间可能会共享某些私密信息，而不希望其他成员知晓。

研究表明，当前的LLMs在处理包含隐私和秘密的信息时，往往无法正确推断这些信息的适当流动。Mireshghallah等人的研究强调，提升模型的心智理论能力，将有助于改善其在隐私保护方面的表现。

🔍 未来的研究方向

为了有效解决隐私推理中暴露的问题，研究者们呼吁采用更为根本的解决方案，而不仅仅依赖于表面上的隐私保护技术（如数据去标识化和差分隐私）。未来的研究可以探索如何通过引入符号图形表示等方法，帮助模型更好地理解和处理隐私问题。

此外，随着人们对AI模型信任度的提高，未来的研究还需关注用户与AI之间的互动，确保在提供便利的同时，保护用户的隐私信息。

📚 参考文献

Mireshghallah, N. , Kim, H., Zhou, X., Tsvetkov, Y., Sap, M., Shokri, R., & Choi, Y. (2024). Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory. ICLR 2024.✅
Nissenbaum, H. (2004). Privacy as Contextual Integrity. Washington Law Review.✅
Carlini, N. , et al. (2022). The Secret Life of Machine Learning: Analyzing Data Leakage.✅
Abadi, M. , et al. (2016). Deep Learning with Differential Privacy. ACM SIGSAC Conference on Computer and Communications Security.✅
Zhao, H. , et al. (2024). Understanding User Interaction with Language Models: From Data Sharing to Inference-Time Risks.✅