🌌 浅析嵌入空间的各向同性与聚类现象:兼论线性分类器的隐忧


🔍 引言

最近,自然语言处理(NLP)领域关于嵌入空间是否应平等利用其所有维度,即是否应实现“各向同性”的讨论愈演愈烈。各向同性(Isotropy)是指在嵌入模型中,每个方向的概率是均等的,从而保证数据在向量空间中的均匀分布,没有方向性偏差。这种特性表面上看似非常理想:直观上,非各向同性的嵌入空间可能存在过参数化问题,因为它可能会低效地利用某些维度。

然而,本文的研究表明,确保嵌入空间的各向同性可能会与数据点聚类结构的存在相冲突,并且这种冲突还对线性分类器的目标产生负面影响。我们将通过数学分析和实验证实这一观点,并借此重新审视文献中的相关研究结果。

💡 聚类与各向同性的目标冲突

🧩 聚类的优化目标

我们可以通过轮廓系数(Silhouette Scores)来评估数据点是否形成了自然的聚类。轮廓系数的定义基于两个核心部分:凝聚度分离度

  • 凝聚度:计算数据点与其所在组内其他成员的平均距离。
  • 分离度:计算数据点与除其所属组以外的其他组的最小凝聚度。

根据轮廓系数的定义,数据点的分离度越大,凝聚度越小,轮廓系数越高。为了最大化整个数据集的轮廓系数,我们需要(i)最大化所有类间距离,(ii)最小化所有类内距离。

数学上,我们可以定义一个对整个数据集进行优化的目标函数 $O_S$:

$O_S = \sum_{d \in D} \sum_{d’ \in D} \text{sign}(\ell(d), \ell(d’)) \sum_i (d_i – d’_i)^2$

其中,$\text{sign}(\ell(d), \ell(d’))$ 用于区分需要最大化的类间距离和需要最小化的类内距离。

📉 各向同性评分(IsoScore)与聚类的冲突

各向同性的评估通常依赖于方差向量。在进行了主成分分析(PCA)变换后,协方差矩阵被对角化,我们可以通过成对的平方距离来获得每个分量的方差(Zhang et al., 2012):

$V(D. i = \frac{1}{2|D|^2} \sum{d \in D} \sum_{d’ \in D} (d_i – d’_i)^2$

在 IsoScore 中,这个方差向量会被归一化为单位向量 $\mathbf{1}$ 的长度,然后计算两者之间的距离。这个距离被视为各向同性缺陷的一个指标,即各向同性空间将最小化该距离。

为了最大化各向同性,我们有一个优化目标 $O_I$:

$O_I = \cos(\mathbf{1}, V(D. ) \propto \sum_{d \in D} \sum_{d’ \in D} \sum_i (d_i – d’_i)^2$

为了确保所有维度被均等地利用,我们需要最大化所有数据点对之间的距离,即将数据点均匀地分布在超球面上。然而,在一般情况下,不能同时最大化 $O_I$ 和 $O_S$。类内距离的最小化要求与各向同性的要求相冲突。事实上,只有在每个数据点都被分配到不同标签的退化情况下,这两个目标才能同时达到。

📊 线性分类器的关系

在线性分类问题中,潜在表示需要形成与标签对应的聚类,以优化分类目标。为了使数据点 $d$ 与其标签 $\ell(d) = \omega_i$ 相关联,同时与其他标签 $\Omega \setminus {\ell(d)}$ 分离,通常计算潜在表示与输出投影矩阵列向量 $c_\omega$ 之间的点积。为了最大化分类目标 $O_C$,我们有:

$O_C = -\sum_{d \in D} \sum_{\omega \in \Omega} \text{sign}(\omega, \ell(d)) \langle d, c_\omega \rangle$

其中,优化目标要求最小化潜在表示 $d$ 与类向量 $c_{\ell(d)}$ 之间的距离,同时最大化与其他类向量的距离。这与轮廓系数的目标相似,因此线性分类器的学习目标 $O_C$ 也是与各向同性目标 $O_I$ 不兼容的。简单地说,线性分类器应该生成聚类的、因此是各向异性的表示。

🚀 实验验证

为了验证上述数学推导的有效性,我们进行了实验证明。我们优化了一组数据点以完成分类任务,并使用线性分类器观察轮廓系数的上升和 IsoScore 的下降。

⚙️ 实验方法

我们采用了四种实验设置:(i)在 Pang 和 Lee 的情感二分类数据集上优化 SBERT 句子嵌入;(ii)在 SNLI 验证集上优化配对的 SBERT 嵌入;(iii)在 CoDWoE 多标签分类数据集上优化 word2vec 嵌入;(iv)在 WordNet 超级感知多标签分类任务上优化 word2vec 嵌入。所有数据集和模型均为英文,且符合 CC-BY 或 CC-BY-SA 协议。

📈 结果分析

实验结果表明,在分类任务的优化过程中,数据点变得更加聚类化且各向同性减少。我们还观察到 IsoScore 和轮廓系数之间存在单调递减的关系,进一步验证了我们的理论推导。具体的相关性分析显示,Pearson’s r 在不同任务中均为负值,Spearman’s ρ 也显示出显著的负相关性。

🌐 相关文献的讨论

本文的研究结果为当前关于各向同性与聚类现象的文献提供了新的视角。尽管有大量证据表明在嵌入中强制实现各向同性有益,但这种观点并非无懈可击。先前的研究表明,语境嵌入虽然各向异性,但效果显著(Ethayarajh, 2019)。而在某些应用中,如语义相似性任务中,实现各向同性则表现出色(Mu & Viswanath, 2018)。

然而,本文的研究表明,嵌入空间的聚类结构与各向同性存在本质上的冲突,这在某些任务中可能成为瓶颈。未来的研究可以进一步探讨在现代大规模语言模型中,我们观察到的这些结构与语言学知识之间的关系。

🔮 结论

本文探讨了嵌入空间的各向同性与聚类结构之间的冲突,并通过实验证实了这一观点。结果显示,线性分类器的学习目标会导致嵌入空间的各向异性。未来的研究可以继续探索非分类任务与各向同性之间的关系,并试图为这些现象提供更为深入的理论解释。

📚 参考文献

  1. Mu, J. , & Viswanath, P. (2018). All-but-the-Top: Simple and Effective Postprocessing for Word Representations. International Conference on Learning Representations.
  2. Ethayarajh, K. (2019). How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing.
  3. Rudman, M. , et al. (2022). IsoScore: A Measure for Isotropy in Embeddings. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing.
  4. Ait-Saada, S. , & Nadif, M. (2023). On the Importance of Isotropy and Clustering for Embedding Space Geometry. Journal of Artificial Intelligence Research.
  5. Mickus, T. , Grönroos, S., & Attieh, J. (2024). Isotropy, Clusters, and Classifiers. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics.

评论

发表回复

人生梦想 - 关注前沿的计算机技术 acejoy.com