人工智能模型的“柏拉图式”表征:现实的影子,还是理想的真相?

近年来,人工智能领域取得了突破性的进展,模型的能力不断提升,应用范围也越来越广。从语言模型到视觉模型,从单一任务到多任务,人工智能系统正朝着越来越“同质化”的方向发展。这背后隐藏着一种深刻的趋势:表征的收敛

1. 表征收敛:从不同模型到不同模态

1.1. 模型间的表征对齐:

近年来,越来越多的系统建立在预训练的基础模型之上,这些模型在各种任务中表现出惊人的通用性,暗示着它们在表征数据的方式上存在着某种程度的“普遍性”。

Lenc 和 Vedaldi (2015) 在他们的研究中发现,即使模型训练于不同的图像数据集上,它们的前几层仍然可以相互替换,并且保持良好的性能。这表明,不同的模型在表征数据的初始阶段,可能趋向于采用类似的策略。

Bansal 等人 (2021) 进一步发现,使用自监督方法训练的模型,其表征与监督学习训练的模型高度一致。

Moschella 等人 (2022) 则展示了“零样本”模型拼接的可行性,即使训练于不同语言的文本模型,它们也往往以惊人的相似方式嵌入数据。

1.2. 规模与性能:

Kornblith 等人 (2019) 发现,模型的表征对齐程度与模型的规模密切相关,更大的模型往往表现出更高的对齐度。

Balestriero 和 Baraniuk (2018) 从理论上证明,具有相似输出的模型(例如,具有高性能的模型)也具有相似的内部激活。

1.3. 模态间的表征对齐:

令人惊奇的是,表征的收敛甚至跨越了不同的数据模态。

Merullo 等人 (2022) 将模型拼接扩展到跨模态场景,发现只需要一个线性投影,就可以将视觉模型与语言模型拼接起来,并在视觉问答和图像字幕等任务中取得良好的性能。

Koh 等人 (2023) 则证明了线性拼接也可以在相反方向上起作用,将文本输入对齐到视觉输出。

近年来,许多语言-视觉模型将预训练的语言和视觉模型拼接在一起。例如,LLaVA (Liu 等人, 2023) 通过将视觉特征投影到语言模型中,使用一个两层 MLP 网络,取得了最先进的结果。

1.4. 模型与大脑的表征对齐:

值得注意的是,神经网络还表现出与大脑中生物表征的显著对齐性 (Yamins 等人, 2014)。

1.5. 表征对齐与下游性能:

如果模型正朝着更准确地表征现实世界收敛,那么我们预期表征对齐应该与下游任务的性能提升相对应。

2. 表征收敛的驱动力量:

2.1. 任务的通用性:

每个训练数据点和目标(任务)都会对模型施加额外的约束。随着数据和任务的规模扩大,能够满足这些约束的表征数量会相应减少。

2.2. 模型的容量:

假设存在一个适用于标准学习目标的全局最优表征,那么在足够的数据情况下,扩大模型(即使用更大的函数类)以及改进优化方法,应该更有效地找到该最优解的更好近似。

2.3. 简洁性的偏好:

深层网络倾向于找到对数据的简洁拟合,而模型越大,这种偏好就越强。因此,随着模型越来越大,我们应该预期它们会收敛到更小的解空间。

3. 我们正在收敛到什么表征?

3.1. 理想世界:

作者假设,我们正在收敛到的表征,是一个对生成我们观察结果的潜在现实的统计模型。

3.2. 对比学习:

作者认为,对比学习算法可以学习到潜在现实的统计模型。对比学习算法通过学习一个表征函数,使得共同出现的观察结果在表征空间中彼此靠近,而独立出现的观察结果则彼此远离。

4. 表征收敛的意义:

4.1. 规模的重要性:

作者认为,规模对于实现高水平的智能至关重要。随着模型参数、数据量和计算量的增加,表征会收敛,而与其他建模选择甚至数据模态无关。

4.2. 跨模态数据共享:

如果存在一个模态无关的“柏拉图式”表征,那么图像数据和语言数据都应该有助于找到它。这意味着,如果我们想要训练最好的视觉模型,我们应该不仅在图像数据上训练,还应该在语言数据上训练。

4.3. 跨模态迁移和适应:

当两个表征对齐时,从一个表征过渡到另一个表征应该是一个简单的函数,并且很容易获得。

4.4. 减少幻觉和偏差:

如果模型确实正在收敛到一个准确的现实模型,并且规模推动了这种收敛,那么我们可能会预期幻觉会随着规模的增加而减少。

5. 挑战和局限:

5.1. 不同模态的信息差异:

不同的模态可能包含不同的信息。例如,语言模型可能无法描述观测日全食的无与伦比的体验,而图像模型可能无法传达“我相信言论自由”这样的抽象概念。

5.2. 表征收敛的局限性:

作者的论点主要集中在视觉和语言两个模态上。虽然作者预期其他模态也将遵循类似的趋势,但目前还没有看到所有领域都达到相同的收敛水平。

5.3. 社会偏差:

研究人员的偏差和人工智能社区的集体偏好,已经塑造了模型发展的轨迹。

5.4. 特定目的的智能:

不同的智能系统可以被设计来完成不同的任务。例如,生物信息学系统可以预测蛋白质结构,而自动驾驶汽车可以遵循高速公路上的车道。

5.5. 对齐度衡量:

作者在实验中使用了互斥最近邻度量,但关于衡量对齐度的优缺点存在着激烈的争论。

6. 未来展望:

作者的论点为我们理解人工智能模型的表征收敛提供了新的视角,也为未来人工智能的发展指明了方向。

参考文献:

  • Lenc, K., & Vedaldi, A. (2015). Understanding image representations by measuring their equivariance and equivalence. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 991-999).
  • Bansal, Y., Nakkiran, P., & Barak, B. (2021). Revisiting model stitching to compare neural representations. Advances in Neural Information Processing Systems, 34, 225-236.
  • Moschella, L., Maiorca, V., Fumero, M., Norelli, A., Locatello, F., & Rodolà, E. (2022). Relative representations enable zero-shot latent space communication. arXiv preprint arXiv:2209.15430.
  • Kornblith, S., Norouzi, M., Lee, H., & Hinton, G. (2019). Similarity of neural network representations revisited. In International Conference on Machine Learning (pp. 3519-3529). PMLR.
  • Balestriero, R., & Baraniuk, R. G. (2018). A spline theory of deep learning. In International Conference on Machine Learning (pp. 374-383). PMLR.
  • Merullo, J., Castricato, L., Eickhoff, C., & Pavlick, E. (2022). Linearly mapping from image to text space. arXiv preprint arXiv:2209.15162.
  • Koh, J. Y., Salakhutdinov, R., & Fried, D. (2023). Grounding language models to images for multimodal inputs and outputs. In International Conference on Machine Learning (pp. 17283-17300). PMLR.
  • Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2023). Visual instruction tuning. In NeurIPS.
  • Yamins, D. L., Hong, H., Cadieu, C. F., Solomon, E. A., Seibert, D., & DiCarlo, J. J. (2014). Performance-optimized hierarchical models predict neural responses in higher visual cortex. Proceedings of the National Academy of Sciences, 111(23), 8619-8624.

https://arxiv.org/html/2405.07987v1



0 0 投票数
Article Rating
订阅评论
提醒
0 评论
最旧
最新 最多投票
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x