Qiu, Z. , Liu, W., Feng, H., et al. (2024). ✅Can Large Language Models Understand Symbolic Graphics Programs? arXiv preprint arXiv:2408.08313.
Willis, K. D. D., Pu, Y., Luo, J., et al. (2021). ✅Fusion 360 Gallery: A Dataset and Environment for Programmatic CAD Construction from Human Design Sequences. ACM Transactions on Graphics.
Ellis, K. , Ritchie, D., Solar-Lezama, A., & Tenenbaum, J. B. (2018). ✅Learning to Infer Graphics Programs from Hand-Drawn Images. In NeurIPS.
Liu, W. , Qiu, Z., Feng, H., et al. (2023). ✅Parameter-efficient Orthogonal Finetuning via Butterfly Factorization. arXiv preprint arXiv:2311.06243.
在人工智能的浩瀚宇宙中,语言模型(LLMs)已经成为了闪耀的新星。它们不仅可以写诗作词,还能编写代码,甚至被用来解答复杂的数学问题。然而,问题来了:这些看似无所不能的大模型,真的能够理解符号图形程序吗?换句话说,当你给它一段生成二维图形的代码时,它能像人类一样“看到”最终的图形吗?
符号图形程序的挑战
首先,我们需要明确一个概念:什么是符号图形程序?简单来说,符号图形程序是一种通过程序化方式生成图像或几何形状的程序。这与传统的图像处理不同,符号图形程序更类似于用代码描述一个设计图纸,比如二维的SVG矢量图形或三维的CAD模型。你可以想象一下,用代码绘制一只猫,而不是用画笔。
符号图形程序的理解对大模型来说并不是一件容易的事。为什么呢?因为这些程序描述的图形往往是抽象的、高度符号化的。要理解这些程序,模型不仅需要解析代码,还需要在脑海中“想象”出代码生成的图形。
SGP-Bench:符号图形程序理解的试金石
为了评估大模型在符号图形程序理解上的表现,研究者们开发了一个名为SGP-Bench的基准测试工具。这是一个专门用来测试模型理解符号图形程序能力的工具,涵盖了SVG矢量图形和CAD模型两种符号图形程序。
SGP-Bench的设计相当巧妙。它通过生成大量的符号图形程序,并根据这些程序生成的图像提问,来测试模型的理解能力。比如,你可能会问:“这个程序生成的图像中,主要的几何形状是什么?”对人类来说,这个问题可能很简单,但对模型来说,仅仅通过代码来回答这个问题就变得非常棘手。
大模型的表现如何?
研究人员对多个模型进行了测试,包括开源的和商业化的模型。结果显示,模型的表现参差不齐。在SVG的理解上,模型的平均准确率不到65%,而在CAD的理解上,表现稍好一些,但也不到80%。尽管一些模型的性能随着规模的增加有所提升,但总体来说,符号图形程序的理解仍然是一个巨大的挑战。
有趣的是,研究发现,尽管模型在某些问题上表现得还不错,但在涉及到更高层次的语义理解时,它们往往会“掉链子”。例如,当被要求识别图像中的颜色时,模型的表现相对较好,但当被要求理解图像的整体语义时,准确率就大幅下降。这种现象表明,模型在处理复杂的视觉信息时,可能仍然依赖于某种形式的“记忆”或“模式匹配”,而不是像人类那样通过逻辑推理来理解图像。
符号指令调优:提升理解能力的新方法
面对这些挑战,研究人员提出了一种新的方法,称为符号指令调优(Symbolic Instruction Tuning,SIT)。简单来说,这种方法通过让模型学习如何将符号图形程序与其生成的图像对应起来,从而增强模型的理解能力。研究发现,通过对开源模型进行SIT调优,模型在符号图形程序理解上的表现有所提升。这表明,通过适当的训练,模型有可能在这方面取得更好的成绩。
未来展望:符号图形程序理解的前景
尽管目前的结果显示,大模型在符号图形程序的理解上仍有很大的提升空间,但这并不意味着前景黯淡。实际上,随着模型规模的增加和训练方法的改进,我们有理由相信,未来的大模型将能够更好地理解这些复杂的符号图形程序。
然而,正如研究人员所指出的,这只是一个开始。要真正理解符号图形程序,需要的不仅仅是更强大的模型,还需要对模型的工作机制进行更深入的探索。毕竟,理解图形的过程不仅仅是一个视觉问题,它还涉及到逻辑推理、空间感知和抽象思维等多方面的能力。
结语:大模型的潜力与挑战
符号图形程序的理解对大模型来说是一个全新的挑战,也是一个全新的机遇。通过SGP-Bench和SIT等工具,我们正在逐步揭开大模型在这一领域的潜力。然而,要让这些模型真正像人类一样理解图形,我们还有很长的路要走。
参考文献列表: