(1) Hello GPT-4o. URL https://openai.com/index/hello-gpt-4o/. … Zou et al. (2023b) Zou, A. , Phan, L., Chen, S., Campbell, J., Guo, P., Ren, R., Pan, A., Yin, X., Mazeika, M., Dombrowski, A.-K., et al. Representation engineering: A top-down approach to ai transparency. arXiv preprint arXiv:2310.01405, 2023b.✅
人工智能的快速发展催生了强大的基础模型,但其“黑盒”性质也带来了调试、监控和信任方面的挑战。概念解释作为一种新兴方法,试图用人类可理解的概念来解释模型行为,例如将狗的图像嵌入分解成代表其毛皮、鼻子和尾巴的概念向量。
然而,现有的无监督概念提取方法,如 PCA 或 KMeans,虽然能提取基本概念,却无法保证概念的组合性。例如,能识别“白色鸟类”和“小型鸟类”的概念,却无法组合出“小型白色鸟类”。
概念组合性的重要性
概念的组合性对多个 AI 应用至关重要。它可以解释模型预测,编辑模型行为,并训练模型组合基本概念以完成新任务。
本文研究了组合概念的无监督提取,并评估了现有方法的不足。我们发现,来自不同属性的概念(例如颜色和形状)大致正交,而来自相同属性的概念则不正交。这些性质对于概念的组合性至关重要,而现有方法未能强制执行这些性质,导致提取的概念表示往往不可组合。
CCE:一种新的组合概念提取方法
为了解决这个问题,我们提出了组合概念提取 (CCE)。CCE 的关键在于一次性搜索整个概念子空间,而不是单个概念,并强制执行组合概念的正交性。
CCE 采用两步过程:LearnSubspace 和 LearnConcepts。LearnSubspace 优化子空间,使数据在该子空间内根据固定的质心变得很好地聚类。LearnConcepts 则在该子空间内执行球形 K-Means 聚类来识别概念。通过联合学习子空间和聚类质心,CCE 确保了概念之间的正交性,并通过正则化防止过拟合。
实验结果:CCE 的有效性验证
我们在视觉和语言环境中的五个数据集上评估了 CCE,包括 CLEVR、CUB、HAM10000、Truth 和 News。实验结果表明:
结论
CCE 是一种有效的组合概念提取方法,它不仅可以学习组合概念,还可以提高下游性能。我们的研究表明,无需大型数据集或巨大的计算能力即可开发出极具竞争力的多模态对话模型。未来工作将探索更复杂的模态自适应架构,以进一步增强 CCE 的功能。
参考文献
(1) Hello GPT-4o. URL https://openai.com/index/hello-gpt-4o/.
…
Zou et al. (2023b) Zou, A. , Phan, L., Chen, S., Campbell, J., Guo, P., Ren, R., Pan, A., Yin, X., Mazeika, M., Dombrowski, A.-K., et al. Representation engineering: A top-down approach to ai transparency. arXiv preprint arXiv:2310.01405, 2023b.✅