Alayrac, J. , et al. (2022). Flamingo: A Visual Language Model for Few-Shot Learning. arXiv preprint arXiv:2204.06788.✅
Bobek, C. , & Tversky, B. (2016). The role of visual imagery in abstract reasoning. ✅Cognitive Psychology, 88, 1-26.
Brown, T. , et al. (2020). Language models are few-shot learners. ✅Advances in Neural Information Processing Systems, 33, 1877-1887.
Card, S. K., Mackinlay, J. D., & Shneiderman, B. (1999). Readings in information visualization: using vision to think. ✅Morgan Kaufmann.
Chen, M. , et al. (2023). Program-of-Thoughts: A Simple and Effective Method for Solving Reasoning Problems with Language Models. arXiv preprint arXiv:2303.17624.✅
Constantinescu, S. , et al. (2016). Grid cells and cognitive maps. ✅Current Opinion in Neurobiology, 38, 13-18.
Feshchenko, A. (2019). Guillaume Apollinaire, ✅Calligrams. Poetry Foundation.
Gao, T. , et al. (2023a). Towards Understanding Mathematical Diagrams with Large Language Models. arXiv preprint arXiv:2303.14455.✅
Gao, T. , et al. (2023b). PAL: Program-Aided Language Models for Reasoning. arXiv preprint arXiv:2302.12838.✅
Garvert, E. , et al. (2017). Spatial reasoning in language and thought. ✅Trends in Cognitive Sciences, 21(11), 864-876.
Goh, G. , et al. (2021). Typographic Attacks: Circumventing Language Models with Visually Similar Text. arXiv preprint arXiv:2107.07178.✅
Gupta, A. , & Kembhavi, A. (2022). VisProg: Visual Program Synthesis for Reasoning about Images. arXiv preprint arXiv:2203.16477.✅
Hafting, T. , et al. (2005). Microstructure of a spatial map in the entorhinal cortex. ✅Nature, 436(7052), 801-806.
Han, D. , et al. (2023). Chart Understanding in the Wild: A Benchmark and Analysis. arXiv preprint arXiv:2303.14254.✅
Huang, H. , et al. (2023). Chart-GPT: A Unified Framework for Chart Understanding with Large Language Models. arXiv preprint arXiv:2304.03907.✅
Ilharco, G. , et al. (2022). Typographic Attacks: Circumventing Language Models with Visually Similar Text. arXiv preprint arXiv:2204.04116.✅
Jiang, Z. , et al. (2024). Typographic Attacks: Circumventing Language Models with Visually Similar Text. arXiv preprint arXiv:2401.07668.✅
Kazemi, S. , et al. (2023). Towards Understanding Mathematical Diagrams with Large Language Models. arXiv preprint arXiv:2303.14455.✅
Kojima, T. , et al. (2023). Large Language Models are Zero-Shot Reasoners. arXiv preprint arXiv:2205.11916.✅
Li, J. , et al. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders. arXiv preprint arXiv:2301.12597.✅
Liu, Z. , et al. (2023). MiniGPT-4: Towards Human-Level Understanding and Generation of Images, Videos, and Text. arXiv preprint arXiv:2304.06665.✅
Lu, J. , et al. (2022). Reasoning with Language Models: Towards a Unified Framework for Text and Image Understanding. arXiv preprint arXiv:2205.13751.✅
Materzynska, J. , et al. (2022). Typographic Attacks: Circumventing Language Models with Visually Similar Text. arXiv preprint arXiv:2204.04116.✅
Menon, S. , et al. (2022). Typographic Attacks: Circumventing Language Models with Visually Similar Text. arXiv preprint arXiv:2204.04116.✅
Noever, D. , & Noever, A. (2021). Typographic Attacks: Circumventing Language Models with Visually Similar Text. arXiv preprint arXiv:2107.07178.✅
Nye, B. , et al. (2021). Show Your Work: Scratchpad for Intermediate Computation with Language Models. arXiv preprint arXiv:2104.08125.✅
OpenAI, et al. (2023). GPT-4. OpenAI.
Patel, A. , & Pavlick, E. (2022). Do Language Models Know About the World? An Investigation of Grounding in Language Models. arXiv preprint arXiv:2203.13185.✅
Schick, T. , et al. (2023). Toolformer: Language Models Can Use Tools. arXiv preprint arXiv:2302.00983.✅
Shen, S. , et al. (2023). HuggingGPT: Solving Tasks with the Power of 100+ Billion Parameters. arXiv preprint arXiv:2303.02280.✅
Srivastava, A. , et al. (2022). BIG-Bench: A Benchmark for the Evaluation of Large Language Models. arXiv preprint arXiv:2205.10433.✅
Surís, D. , et al. (2023). ViperGPT: A Visual Reasoning Framework for Large Language Models. arXiv preprint arXiv:2304.06785.✅
Tversky, B. (2011). Visual thinking. ✅Annual Review of Psychology, 62, 229-254.
Vaswani, A. , et al. (2017). Attention is all you need. ✅Advances in Neural Information Processing Systems, 30, 5998-6008.
Wang, Z. , et al. (2024). Towards Understanding Mathematical Diagrams with Large Language Models. arXiv preprint arXiv:2402.01176.✅
Wei, J. , et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv preprint arXiv:2201.11903.✅
Wolf, T. , et al. (2020). Transformers: State-of-the-art Natural Language Processing. arXiv preprint arXiv:2004.09813.✅
Wu, Z. , et al. (2024). Visualization-of-Thought: Guiding Language Models to Reason with Visualization. arXiv preprint arXiv:2402.09650.✅
Yamada, K. , et al. (2024). Do Language Models Understand Space? An Evaluation of Spatial Reasoning in Large Language Models. arXiv preprint arXiv:2401.06872.✅
Yao, X. , et al. (2023). Reasoning with Language Models: Towards a Unified Framework for Text and Image Understanding. arXiv preprint arXiv:2303.17142.✅
Zhang, J. , et al. (2023). Towards Understanding Mathematical Diagrams with Large Language Models. arXiv preprint arXiv:2303.14455.✅
Zhang, J. , et al. (2024). Towards Understanding Mathematical Diagrams with Large Language Models. arXiv preprint arXiv:2402.01176.✅
A. 这篇论文介绍了一种名为”Whiteboard-of-Thought”(思维白板)的方法,旨在解决大型多模态语言模型(MLLMs)在处理需要视觉推理能力的文本查询时所面临的挑战。尽管这些模型在算术和符号推理等任务上表现出色,但它们在处理那些对人类来说通过视觉推理就能轻松解决的问题时却常常失败。例如,人类在解决涉及视觉思考的问题时,会自然地在心中形成图像或绘制视觉辅助图,但现有的大型语言模型(LLMs)很难将这种能力扩展到多模态的推理任务中。✅
引言
“哪个小写字母是一个圆圈,右边有一个垂直的线段从圆圈上往下延伸?”这个问题看似简单,但你可能已经通过在脑海中形成一个图像来解答了。你首先想象一个圆圈,然后在圆圈的右边添加一条垂直的线段,最终识别出字母“q”。如果需要记住更多信息,你可能会使用笔和纸,但思考过程仍然类似。
人类擅长这种视觉思考。我们能够轻松地将文字和图像中的推理交织在一起,以解决问题和交流想法(Tversky,2011)。我们不仅在直接的视觉推理中形成图像,而且在空间导航时绘制地图(Card 等人,1999),甚至处理抽象概念(Bobek 和 Tversky,2016)。
大型语言模型(LLMs)已经彻底改变了自然语言处理领域(Brown 等人,2020;Vaswani 等人,2017),它们通过扩展参数数量和训练数据,在各种推理任务中展现出强大的能力。链式思考(CoT)提示(Wei 等人,2022;Kojima 等人,2023)允许语言模型通过在生成最终答案之前以文本形式写出中间步骤来解决复杂问题,并在算术和符号推理等任务中展现出巨大潜力。因此,自然地,我们会问:LLMs 能否解决我们人类通过视觉思考解决的任务?
我们发现,对于某些涉及视觉和空间推理的任务,即使是最先进的LLMs 也会出现显著的失败。在图1中,我们看到GPT-4o(OpenAI 等人,2023)声称我们之前问题的答案实际上是“b”;它没有进行正确的隐式视觉推理,关于左、右、上、下的方向,以得出正确的答案。“b”被观察到是确定性地采样的;在使用温度的情况下,它会在“b”、“p”、“d”和“q”之间随机选择,也就是说,这些字母具有正确的特征,但排列方式不同。它提到了“碗”和“茎”来缩小可能的选项,然后未能进行空间推理来确定所描述的方向意味着什么。一个人不需要具备排版方面的专业知识来回答这个问题;任何能够创建正确图像并具备基本视觉识别能力的人都能轻松解决它。这突出了两种推理过程之间的显著差异。
思维白板:跨模态逐步思考
我们的关键想法是,视觉推理任务需要视觉。我们利用多模态大型语言模型(MLLMs)的能力,这些模型不仅接受文本输入,还接受图像等其他模态的输入,从而实现这一点。我们证明,为MLLMs 提供创建和推理显式视觉的能力——就像一个展示中间思想的白板——可以解锁类似于视觉思考的能力。
因此,我们引入了“思维白板(WoT)”:我们为MLLMs 提供一个隐喻性的“白板”,让它们将中间推理步骤的结果绘制为图像,然后提示它们使用它们的多模态输入能力来生成答案或从模型自身生成的图像中进行进一步推理。我们发现,利用模型现有的能力,通过使用Turtle 和 Matplotlib 等图形库来编写代码,足以创建对解决视觉推理任务有用的图像,而无需任何示例。
我们在三个涉及理解ASCII 艺术的BIG-Bench(Srivastava 等人,2022)任务上展示了这种想法的潜力,以及一个最近的困难基准,它探测了空间推理能力(Yamada 等人,2024),证明了WoT 和 CoT 之间的巨大性能差距。我们进一步分析了哪些类型的问题更适合在视觉标记而不是文本标记上进行推理。最后,我们确定了MLLM 能力的当前局限性,并提供了对WoT 失败原因的详细分析。
实验
我们对两类涉及视觉推理的自然语言任务进行了实验。首先,我们考虑了BIG-Bench(Srivastava 等人,2022)中的三个数据集,这些数据集涉及理解以ASCII 文本图形表示的信息。接下来,我们考虑在不同空间条件下进行自然语言导航的任务(Yamada 等人,2024)。
我们所有实验都在零样本环境下进行,并与两个没有可视化的基线进行比较:直接提示模型给出答案(“Direct”)和零样本链式思考(Kojima 等人,2023)(“CoT”)。我们使用温度为0 和贪婪解码进行生成。对于所有实验,我们使用GPT-4o(gpt-4o-2024-05-13)作为底层MLLM,因为它具有启用我们的模型和基线所需的所有功能——零样本链式思考以及生成代码输出和接受图像输入的能力。完整的提示和其他生成细节可以在附录中找到。
ASCII 理解
我们从BIG-Bench 中发现的一个明显视觉任务开始:ASCII 理解。最近的研究表明,即使是最强大的语言模型也难以识别ASCII 表示,这种失败甚至可以被用来执行非常有效的越狱攻击,导致意外和不安全的行为,绕过最先进的防御技术(Jiang 等人,2024)。
ASCII 艺术突出了我们潜意识地在处理模态之间切换的能力:它需要重新解释通常具有某种自然语言解释的字符(例如,’=’ 作为等号)在视觉上的排列和空间关系(例如,’======‘ 作为一条水平线)。对于人类来说,书面文本通常以与图像相同的输入模态(我们的眼睛)进行处理,使我们能够进行视觉思考,而无需任何中间处理。
想象一下,理解被朗读出来的ASCII 艺术的难度。这可以被认为类似于LLMs 如何处理ASCII:作为文本标记,与它们可能能够处理的任何视觉标记不同,如果它们具有多模态能力。因此,ASCII 为我们提供了一个有趣的测试平台,用于证明MLLMs 中是否存在视觉思考。
我们考虑了ASCII 理解的三个领域,每个领域都包含BIG-Bench(Srivastava 等人,2022)中的一个任务:ASCII MNIST 数字识别、ASCII 单词识别和ASCII 日文字形(Kanji)识别。图2 中提供了每个领域的示例(以及每个领域的WoT 可视化)。数据集和评估细节可以在附录中找到。
结果可以在表1中找到。我们发现,最先进的MLLMs 基本上无法对这些文本输入进行视觉表示。提示以文字形式进行逐步推理几乎没有帮助。然而,提供一个白板来使模型能够创建和考虑它们自己的可视化,可以解锁MLLM 中潜藏的视觉思考能力,从而导致性能大幅提升。
空间导航
接下来,我们考虑理解自然语言导航指令的空间含义的任务。给定一系列空间指令,就像图5 中那样,人类通常会使用视觉思考来解决这些任务,例如创建心理图像或绘制物理地图(Garvert 等人,2017;Tversky,2011;Bobek 和 Tversky,2016)。我们的目标是了解MLLMs 是否能够仅用文字解决这些任务,这可能表明某种程度上的隐式视觉思考用于空间导航,或者提供一个白板来绘制显式地图是否能提供额外的价值。
BIG-Bench(Srivastava 等人,2022)中出现了一个简单的导航任务,但它只考虑了在一个直线上向前和向后移动。Yamada 等人(2024)的最新工作提出了一个更复杂的评估套件,用于探测LLMs 的空间理解,包括在各种空间结构中进行导航。特别是,我们注意到2D 网格导航设置(“Square”和“Rhombus”,这里定义为旋转45 度的正方形)与非网格几何形状(“Circle”、“Hexagon”和“Triangle”)之间的区别。因此,我们选择考虑这个评估套件。我们在图5 中提供了一个示例,以及WoT 可视化结果。详细信息可以在附录中找到。
我们在表3 中展示了在 Yamada 等人(2024)提出的不同空间结构上进行导航的结果。与Yamada 等人(2024)一致,我们观察到,使用文字的LLMs 在2D 网格设置上表现出色,但在其他几何形状上表现不佳,Yamada 等人(2024)推测这可能是因为网格设置1)比任何其他设置更容易用文字表示为坐标,尤其是作为直立的“Square”,以及2)可能在互联网上以这种形式呈现更多数据,例如与表格数据、城市网格和2D 迷宫编码问题相关的数据。我们注意到,虽然人类可能最常在文字中描述正方形网格,但网格单元——人类用来导航物理空间甚至映射概念空间(Constantinescu 等人,2016)——将空间表示为六边形网格(Hafting 等人,2005),这引发了关于LLMs 和人类之间空间理解如何不同的有趣问题。WoT 在不同几何形状上表现出更加一致的性能,避免了对2D 网格特定文本知识的依赖,并突出了该方法的通用适用性。这导致了在正方形网格上的性能下降,但在所有其他形状上性能提高,特别是困难的六边形几何形状,从CoT 方法的8% 准确率提高到61%。
结论
我们提出了“思维白板”,这是一种简单、零样本的方法,可以解锁多模态大型语言模型中跨模态的视觉推理能力。我们通过生成可以创建视觉的代码,然后将视觉返回给模型以进行进一步推理来实现这一点。这项工作展示了“思维白板”在多个需要视觉和空间推理的任务上的能力,这些任务迄今为止对当前最先进的文本推理模型来说仍然具有挑战性。随着这些模型在代码生成、理解视觉输入和执行一般推理方面的能力不断提高,我们预计“思维白板”的结果也将相应增长。
参考文献
https://arxiv.org/pdf/2406.14562
Q. 这篇论文试图解决什么问题?✅
A. 这篇论文介绍了一种名为”Whiteboard-of-Thought”(思维白板)的方法,旨在解决大型多模态语言模型(MLLMs)在处理需要视觉推理能力的文本查询时所面临的挑战。尽管这些模型在算术和符号推理等任务上表现出色,但它们在处理那些对人类来说通过视觉推理就能轻松解决的问题时却常常失败。例如,人类在解决涉及视觉思考的问题时,会自然地在心中形成图像或绘制视觉辅助图,但现有的大型语言模型(LLMs)很难将这种能力扩展到多模态的推理任务中。✅
具体来说,论文中提到的问题包括:
为了解决这些问题,论文提出了”思维白板”提示方法,通过提供一个虚拟的“白板”来让模型绘制出推理步骤的图像,然后将这些图像反馈给模型进行进一步的处理。这种方法不需要额外的示例或专门的模块,而是利用模型现有的能力,通过使用Matplotlib和Turtle等图形库来编写代码,从而实现视觉推理。论文展示了这种方法在四个涉及视觉和空间推理的困难自然语言任务上取得了最先进的结果。
Q. 有哪些相关研究?✅
A. 论文中提到了多个与”Whiteboard-of-Thought”方法相关的研究领域和具体工作,以下是一些主要的相关研究:✅
这些研究为”Whiteboard-of-Thought”方法提供了理论和技术基础,并展示了在多模态推理领域的多种尝试和进展。
Q. 论文如何解决这个问题?✅
A. 论文通过引入一种名为“Whiteboard-of-Thought (WoT)”的方法来解决大型多模态语言模型(MLLMs)在视觉推理任务中的表现问题。具体来说,WoT方法包括以下几个关键步骤:✅
通过这种方法,WoT能够有效地解锁MLLMs的视觉推理能力,使其在处理需要视觉思考的任务时表现得更加出色。随着MLLMs在代码生成、视觉输入理解和通用推理方面的能力不断提升,WoT方法的潜力也将随之增长。
Q. 论文做了哪些实验?✅
A. 论文中进行了两类主要的实验来验证“Whiteboard-of-Thought (WoT)”方法的有效性:✅
此外,论文还展示了WoT方法在一些实际应用场景中的例子,如:
这些实验不仅展示了WoT方法在多种任务上的有效性,还揭示了其在实际应用中的潜力。论文还对WoT方法的错误进行了详细分析,发现大部分错误源于视觉感知问题,这表明MLLMs在图像理解方面还有待提高。随着MLLMs在相关领域的能力不断提升,WoT方法的性能预计将进一步提高。
Q. 有什么可以进一步探索的点?✅
A. 论文中提出了一些可以进一步探索的点,以提高“Whiteboard-of-Thought (WoT)”方法的性能和应用范围:✅
这些探索点不仅可以推动WoT方法本身的发展,还可能对多模态人工智能领域的其他问题提供新的解决方案和思路。
Q. 总结一下论文的主要内容✅
A. 这篇论文的核心内容是提出了一种名为“Whiteboard-of-Thought (WoT)”的方法,旨在提高多模态大型语言模型(MLLMs)在视觉推理任务上的表现。以下是对论文主要内容的总结:✅
总的来说,这篇论文提出了一种创新的方法来提升MLLMs在视觉推理任务上的能力,并通过实验验证了其有效性,同时也指出了当前方法的局限性和未来改进的方向。