让视觉语言模型拥有空间推理能力：SpatialVLM 的探索

视觉语言模型（VLM）在理解和回答图像相关的文本问题方面取得了显著进展，但它们在三维空间推理方面仍然存在局限性。例如，它们难以识别物体之间的距离或大小差异等定量关系。为了赋予 VLM 空间推理能力，来自 Google DeepMind 和 MIT 等机构的研究人员提出了 SpatialVLM，并将其成果发表在 CVPR 2024 上。

SpatialVLM 的核心思想是通过训练数据来弥补 VLM 在空间推理方面的不足。 研究人员认为，现有 VLM 在空间推理能力有限，并非由于其架构的根本缺陷，而是因为缺乏大规模的训练数据。因此，他们开发了一个自动化的三维空间 VQA 数据生成框架，利用真实世界图像，生成高达 20 亿个 VQA 例子，并以此训练 SpatialVLM。

数据生成框架的核心是将二维图像提升到三维度量空间的点云。 这一过程利用了图像中的深度信息，将每个像素映射到三维空间中的一个点，并赋予每个点相应的坐标。研究人员还开发了专门的算法，用于生成关于物体位置、距离、大小等空间关系的 VQA 问题，并根据点云信息生成相应的答案。

SpatialVLM 的训练过程包括将合成数据与现有的 VLM 训练数据混合在一起。 通过这种方式，SpatialVLM 能够学习到基本的直接空间推理能力，例如识别物体之间的相对位置、距离和大小等。

SpatialVLM 的优势在于它可以进行多步骤的空间推理。 由于其具备基本的直接空间推理能力，SpatialVLM 可以与大型语言模型 (LLM) 协同工作，进行更复杂的推理任务。例如，它可以回答诸如「蓝色可乐罐、红色可乐罐和绿色海绵是否大致形成一个等边三角形」这样的问题。

SpatialVLM 还具有在机器人学领域应用的潜力。 由于 SpatialVLM 可以对空间进行定量推理，它可以作为机器人任务的精细奖励标注器。例如，SpatialVLM 可以根据机器人手到可乐罐的距离，生成单调递减的奖励信号，用于强化学习。

SpatialVLM 的研究成果为视觉语言模型的发展开辟了新的方向。 它证明了通过大规模合成数据训练 VLM，可以显著提升其空间推理能力，并为 VLM 在机器人学、虚拟现实等领域的应用提供了新的可能性。

参考文献:

Chen, Boyuan, et al. 「SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities.」 arXiv preprint arXiv:2401.12168 (2024).
VQASynth. GitHub repository. https://github.com/remyxai/VQASynth/tree/main.

发表评论 取消回复

发表评论取消回复