引言
在人工智能和机器学习领域,数据质量一直是影响模型性能的关键因素。无论是在语言、视觉还是多模态建模中,精心策划的数据集都能显著提高模型性能,同时减少所需的数据量。然而,传统的数据策划方法主要依赖人工,成本高昂且难以扩展。
近年来,基于模型的数据策展方法开始受到关注。这些方法利用正在训练的模型的特征来选择高质量数据,有望改善大规模预训练的效率。然而,现有方法大多关注单个数据点的质量,忽视了批次组成对学习效果的影响。
本文介绍了一种新颖的方法 - 联合示例选择的多模态对比学习(JEST),它通过选择整个批次而非单独的数据点来加速多模态学习。JEST利用多模态对比目标暴露出的数据间依赖关系,提出了一种衡量批次整体可学习性的标准,并开发了一种高效算法来选择最佳批次。实验表明,JEST显著加快了训练速度,比现有最先进模型减少了13倍的迭代次数和10倍的计算量。
JEST方法概述
基于模型的批次选择标准
JEST的核心是一种基于模型的批次选择标准。与传统方法不同,JEST不是对单个样本进行评分,而是对整个子批次进行评分,然后根据这些批次级别的分数进行采样。具体而言,JEST考虑了以下几种评分函数:
- 困难学习者:优先选择当前模型下损失较高的批次。这种方法可以丢弃琐碎数据,但对于大型、噪声数据集可能弊大于利。
- 简单参考:使用预训练参考模型,优先选择损失较低的批次。这种方法已被成功用于识别高质量样本,但可能过度依赖参考模型的选择。
- 可学习性:结合上述两种方法,优先选择当前模型损失高但参考模型损失低的批次。这种方法既考虑了数据的难度,又考虑了其质量,被证明能有效加速大规模学习。
JEST主要采用可学习性评分,但也提供了简单参考评分作为对照。
联合示例选择算法
对于多模态学习,JEST采用了一种受块吉布斯采样启发的顺序方法来选择批次。算法的主要步骤如下:
- 从超级批次中随机选择一个初始子集。
- 计算剩余候选样本的条件可学习性。
- 根据条件可学习性概率,独立且不重复地采样一个新的样本块。
- 将新块添加到当前子集中。
- 重复步骤2-4,直到达到所需的批次大小。
这种方法能够快速生成具有高可学习性的批次,效果与暴力吉布斯采样相当,但计算效率更高。
高效评分和多分辨率训练
为了进一步提高计算效率,JEST采用了以下策略:
- 基于在线模型近似的高效评分:使用FlexiViT架构降低图像分辨率进行评分,显著减少了计算成本。
- 多分辨率训练:将批次随机分为两半,分别用低分辨率和高分辨率进行编码。这不仅允许高效评分,还能直接提高训练效率。
通过这些优化,JEST在保持高效率的同时,显著减少了评分的计算开销。
实验结果与分析
联合示例选择的有效性
实验结果表明,JEST能够有效地选择高可学习性的批次:
- 可视化分析显示,批次的可学习性矩阵具有强烈的非对角线结构,证明了联合选择的必要性。
- JEST仅需少量迭代就能生成具有高可学习性的子批次,效果与需要数千次迭代的暴力吉布斯采样相当。
- 随着过滤比率的增加(即从更大的超级批次中选择),子批次的可学习性显著提高。
JEST加速多模态学习的效果
在多个下游任务(包括ImageNet分类和COCO图像-文本检索)上的实验表明:
- JEST显著加速了学习过程。在50%、80%和90%的过滤比例下,JEST分别仅需2B、1B和0.67B个训练样本就达到了3B-统一基线的最终性能。
- 在90%的过滤比例下,JEST还提供了高达6%的最终性能提升。
- 与独立优先级选择方法相比,JEST展现出更好的缩放行为,尤其是在高过滤比率下。
- JEST不仅适用于可学习性评分,也能提高简单参考优先级的效果,尽管可学习性评分在更激进的过滤条件下表现更佳。
JEST的优势与创新
- 批次级别的选择:JEST考虑了整个批次的组成,而不仅仅是单个数据点的质量,从而捕捉到了数据之间的相互作用和依赖关系。
- 高效算法:通过巧妙的设计,JEST能够快速生成高质量批次,计算效率远高于暴力方法。
- 灵活的评分标准:JEST可以适应不同的评分函数,包括可学习性和简单参考,为不同场景提供了灵活性。
- 计算优化:通过在线模型近似和多分辨率训练,JEST大幅降低了计算开销,使得大规模应用成为可能。
- 显著的性能提升:JEST不仅加速了训练过程,还在多个任务上提高了最终性能,展现出强大的泛化能力。
结论与展望
联合示例选择的多模态对比学习(JEST)为加速多模态学习提供了一种新颖而有效的方法。通过考虑批次级别的可学习性,JEST能够更好地捕捉数据之间的相互作用,从而显著提高学习效率和模型性能。实验结果表明,JEST不仅能大幅减少训练时间和计算资源,还能在多个下游任务上取得更好的性能。
未来的研究方向可能包括:
- 探索JEST在更多模态和任务上的应用,如视频-文本学习、跨语言学习等。
- 进一步优化JEST的算法和实现,以适应更大规模的数据集和模型。
- 研究JEST与其他数据管理和模型优化技术的结合,如梯度缓存、混合精度训练等。
- 探索JEST在持续学习和在线学习场景中的潜力,以适应动态变化的数据分布。
- 深入分析JEST选择的批次特征,以获得对多模态学习本质的更深入理解。
总之,JEST为多模态学习领域开辟了一个新的研究方向,有望推动更高效、更强大的AI系统的发展。
参考文献
- Evans, T., Parthasarathy, N., Merzic, H., & Hénaff, O. J. (2023). Accelerating Multimodal Learning with Joint Sample Selection. arXiv preprint arXiv:2406.17711v1.