Chameleon 框架的灵感来自自然界中的变色龙,它可以根据不同的输入问题,组合和使用各种不同的工具来完成相应的复杂推理。例如,在解决多模态任务 ScienceQA 时,Chameleon 模型会为不同的问题生成不同的程序,以灵活组合各种工具,并按照一定的顺序执行它们,从而最终得出答案。这种灵活性和适应性使 Chameleon 成为解决复杂任务的强大工具。
Chameleon 模型与以往方法的不同之处在于其能够合成各种工具的组合,以适应不同类型的推理问题。该模型由两个主要组成部分构成:工具箱(Module Inventory)和 LLM 规划器(LLM Planner)。工具箱包含了多种工具,使 Chameleon 模型具备了多样性和多维度的推理能力。LLM 规划器基于大型语言模型实现,可以根据不同的输入问题生成自然语言形式的程序,从而实现对工具箱中的工具进行组合和调用。
Chameleon 模型在两个复杂的多模态推理任务上进行了实验评估,分别是 ScienceQA 和 TabMWP。ScienceQA,即科学问答,是一个涵盖广泛科学主题的多模态问答基准测试。回答 ScienceQA 中的问题需要使用各种知识、工具和技能,例如图像描述、文本检测、知识检索、在线资源搜索,以及视觉推理。这要求模型具备包括视觉和语言推理在内的组合能力。Chameleon 模型中的 LLM 规划器能够合成程序,以调用不同的工具组合来回答 ScienceQA 中不同类型的问题。
在表格推理任务 TabMWP 中,Chameleon 模型同样展现了其出色的灵活性和有效性。TabMWP 是一个基于表格上下文的数学推理任务,要求模型理解多种形式的表格并执行精确的数值计算。Chameleon 模型通过调用工具箱中的不同工具,可以有效地处理表格推理任务。
Chameleon 模型的出现,标志着大型语言模型在推理任务上的能力又向前迈进了一大步。它为解决复杂问题提供了一种新的思路,并有望在未来得到更广泛的应用。