自然语言监督下的检索基础解耦表示学习

引言

在机器学习的领域中，解耦表示学习旨在揭示数据中潜在的变化因素，并将其映射到独立的表示单元中。这一过程的复杂性在于，真实世界的数据因素并不总是显而易见，且难以穷举。为了解决这一挑战，Jiawei Zhou等人提出了一种名为「词汇解耦检索」（Vocabulary Disentangled Retrieval, VDR）的新框架，该框架利用自然语言作为数据变化的代理，推动解耦表示学习的发展。

VDR的核心思想在于，通过构建一个双编码器模型，将数据和自然语言映射到同一个词汇空间中。这种映射不仅使模型能够识别数据的内在特征，而且还通过自然语言的维度促进了解耦。这种方法的创新之处在于，它有效地将自然语言与数据结构结合起来，为解耦表示学习提供了新的视角。

理论背景

信息检索

信息检索的主要目标是从庞大的文档集中找到满足特定信息需求的目标。传统的双编码器框架通过两个独立的编码器对查询和目标进行编码，并通过计算它们表示的内积来衡量相关性。公式如下：

$sim(q, p) = E_q(q) \cdot E_p(p)^T$

其中，$sim(q, p)$表示查询$q$与目标$p$之间的相似性，而$E_q(\cdot)$和$E_p(\cdot)$分别是查询和目标的编码器。

解耦表示学习的挑战

尽管已有大量研究尝试通过无监督学习来实现表示的解耦，但这些方法往往依赖于参数选择和随机性，并未有效定义数据的变化因素。相较之下，VDR通过引入自然语言作为监督，提供了一种新的解决方案。研究表明，利用自然语言的词汇结构可以有效捕捉数据的变化特征，从而提高解耦的效果。

VDR模型架构

VDR模型主要由以下几个组件构成：

基础编码器：用于将输入数据转换为隐藏状态序列。
解耦头：对隐藏状态进行处理，将其映射到词汇表示空间。
门控函数：用于激活与输入相关的词汇维度。

整体模型的数学表达为：

$E(x) = V(x) \odot G(x)$

其中，$V(x)$是对输入数据的权重分布，$G(x)$是门控函数，$\odot$表示元素逐位乘法。

词汇空间的构建

在VDR中，构建词汇空间的关键在于使用预先训练的BERT模型作为基础编码器。通过词汇映射，模型能够将数据和其对应的自然语言表示相结合，从而在词汇维度上实现解耦。值得注意的是，VDR中使用的词汇表包含29522个有效令牌，能够有效表示数据的多样性。

训练过程

模型的训练通过对比学习进行，其中包括正样本和负样本的对比。训练目标是最大化正样本之间的相似性，同时最小化负样本之间的相似性。具体损失函数如下：

$L = -\log\left(\frac{\exp(sim(q_i, p^+<em>i)/\tau)}{\sum</em>{j=1}^{N} \exp(sim(q_i, p^+_j)/\tau) + \exp(sim(q_i, p^-_j)/\tau)}\right)$

这一损失函数的设计确保了模型能够有效学习到输入数据的特征。

实验结果

文本到文本检索

在文本检索任务中，VDR在BEIR基准测试中的表现超过了许多先进的基线模型。具体而言，VDR在NDCG@10上的平均提升达到了8.7%。这一结果表明，VDR在解耦表示学习和检索任务中的有效性。

跨模态检索

在跨模态检索中，VDR同样展现出强劲的性能，尤其是在图像到文本和文本到图像的匹配任务中。与传统的检索模型相比，VDR在多个数据集上均取得了优异的效果，表明其在多模态数据处理中的广泛适用性。

人类评估

为了进一步验证VDR的可解释性，研究团队进行了人类评估。结果显示，VDR的解释率达到92%，显著高于传统模型的85%。这表明VDR能够有效捕捉和解释输入数据的核心特征。

结论

VDR作为一种新兴的解耦表示学习框架，通过自然语言的引入，成功地推动了解耦学习的发展。其在文本检索和跨模态检索中的优异表现，进一步证明了该方法的有效性和适用性。未来的研究可以在此基础上，探索更多领域的应用，以提升机器学习的可解释性和应用广度。

参考文献

Zhou, J. , Li, X., Shang, L., Jiang, X., Liu, Q., & Chen, L. (2024). Retrieval-Based Disentangled Representation Learning with Natural Language Supervision. ICLR 2024.✅
Bengio, Y. , Courville, A., & Vincent, P. (2013). Representation Learning: A Review and New Perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence.✅
Kingma, D. P., & Welling, M. (2013). Auto-Encoding Variational Bayes. arXiv preprint arXiv:1312.6114.✅
Devlin, J. , Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805.✅
Radford, A. , et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the International Conference on Machine Learning (ICML).✅

引言