Zhiyuan Li, Heng Wang, Dongnan Liu, Chaoyi Zhang, Ao Ma, Jieting Long, Weidong Cai. Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images. arXiv preprint arXiv:2408.08105v1, 2024.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2018.
Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever. Language Models are Unsupervised Multitask Learners. OpenAI blog, 2019.
Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever. DALL-E. Creating Images from Text. ✅arXiv preprint arXiv:2102.12092, 2021.
Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer. High-Resolution Image Synthesis with Latent Diffusion Models. arXiv preprint arXiv:2112.10752, 2021.
—— 新基准测试揭示人工智能视觉推理的优势与短板
近年来,大型语言模型(LLMs)在理解文本信息、进行因果推理方面展现出了惊人的能力。然而,当面对纯粹的视觉线索时,这些擅长文字游戏的模型还能否像福尔摩斯一样洞察秋毫,推断出图像背后的因果关系呢?为了解答这个疑问,我们开发了一个名为MuCR的多模态因果推理基准测试,旨在挑战视觉大型语言模型(VLLMs)仅凭视觉线索推断因果关系的能力。
想象一下,如果机器能够通过观察一系列图像,就能像经验丰富的侦探一样,识别出微妙的视觉线索,并推理出事件发生的来龙去脉,那将是多么令人兴奋!然而,现实中的VLLMs真的准备好了吗?
MuCR:一场精心设计的视觉推理挑战赛
MuCR基准测试的独特之处在于,它提供成对的图像,并要求VLLMs分析这些图像之间的因果关系。为了使挑战更具趣味性和真实性,我们采用了一种新颖的“提示驱动图像合成”方法。简单来说,我们首先使用LLMs生成描述因果关系的文本描述,例如“他吃了太多冰淇淋”和“他肚子疼”。然后,我们使用先进的图像生成模型,如DALL-E和Stable Diffusion,将这些文本描述转化为栩栩如生的图像。
为了确保MuCR数据集的丰富性和多样性,我们涵盖了各种类别,包括人物、动物、植物、卡通角色以及它们的混合场景。此外,我们还采用了不同的图像风格,例如写实的摄影风格和夸张的漫画风格。
三重考验:全方位评估VLLMs的推理能力
为了全面评估VLLMs的因果推理能力,我们设计了三个层次的指标:
结果揭晓:喜忧参半,任重道远
我们选择了当前最先进的开源和内部VLLMs,并进行了大量的实验。结果表明,开源模型在MuCR上的表现普遍不佳,甚至与随机猜测的结果相当。这主要是因为开源模型的视觉理解能力还比较薄弱,难以准确地识别图像中的关键信息。
相比之下,内部模型的表现要好得多,但仍然无法达到人类的水平。例如,在短语级别测试中,即使是表现最好的GPT-4o模型,其准确率也只有57.25%,而人类的准确率高达90.50%。这表明,当前的VLLMs在多模态因果推理方面还有很大的提升空间。
剖析不足:视觉与逻辑的博弈
那么,究竟是什么原因导致VLLMs在MuCR上表现不佳呢?
展望未来:通往更强大的视觉推理之路
MuCR基准测试的提出,为多模态因果推理的研究提供了一个宝贵的平台。为了进一步提升VLLMs的性能,未来的研究可以关注以下方向:
总而言之,MuCR基准测试揭示了当前VLLMs在多模态因果推理方面的优势和不足,并为未来的研究指明了方向。相信随着技术的不断进步,VLLMs将最终具备像人类一样强大的视觉推理能力,并在各个领域发挥更大的作用。
参考文献