从长视频中学习多粒度对应关系：Norton 的噪声鲁棒时间最优传输

近年来，视频语言预训练（VLP）成为视频理解领域的一种热门方法。尽管取得了令人瞩目的成果，但现有研究主要集中在学习短视频片段，而由于对长视频建模的计算成本过高，很少探索长期时间依赖关系。为了解决这个问题，一种可行的方案是学习视频片段和字幕之间的对应关系，然而这不可避免地会遇到多粒度噪声对应（MNC）问题。

多粒度噪声对应 (MNC) 问题

MNC 指的是视频片段和字幕之间存在两种不同粒度的错位：

粗粒度错位（片段-字幕）： 粗粒度错位包括异步和无关错位。异步错位指的是字幕和视频片段之间的时间错位，例如，当人们在实际执行动作之前或之后解释他们的动作时，就会出现这种错位。无关错位指的是与任何可用视频片段无法对齐的无关或无意义的字幕，反之亦然。
细粒度错位（帧-词）： 在每个视频片段中，叙述语句可能只与视觉帧部分相关。例如，字幕中的「糖放在上面」与视觉内容高度相关，而「看着糖浆起泡」则无关。无关的词语或帧会扭曲对关键词语和关键帧的识别，导致相似度测量不准确，进一步污染片段-字幕对齐。

MNC 问题对有效的时序建模提出了重大挑战。

Norton：一种噪声鲁棒时间最优传输方法

为了解决 MNC 问题，本文提出了一种名为 Norton 的方法，它利用最优传输 (OT) 框架来解决多粒度噪声对应问题。Norton 使用视频-段落和片段-字幕对比损失来基于 OT 捕获长期依赖关系。

视频-段落对比

Norton 利用 OT 来测量视频片段和字幕之间的序列距离，从细粒度到粗粒度进行。

细粒度对齐： Norton 使用一个 token-wise 的软最大操作符来识别每个片段-字幕对中的关键词语和关键帧，从而从细粒度的多模态交互中提高片段-字幕相似度的测量。
粗粒度对齐： 基于片段-字幕相似度，Norton 通过最大化 OT 的全局对齐相似度来建立片段和字幕之间的灵活分配。根据传输分配，Norton 将每个视频片段重新对齐到多个相关字幕，反之亦然，从而减轻异步错位问题。为了进一步解决无关错位问题，Norton 引入了一个可对齐的提示桶，作为噪声片段或字幕的可对齐目标候选。通过丢弃与提示桶对齐的片段或字幕，Norton 在 OT 过程中有效地过滤掉了无意义的内容。

片段-字幕对比

Norton 通过 OT 来解决片段-字幕对比学习中的错误负样本问题。具体来说，语义相似的片段和字幕在对比学习中会被错误地视为负样本，从而影响片段的表示。Norton 利用批次内片段-字幕对的 OT 分配作为片段-字幕对比损失中的额外监督，从而利用潜在的错误负样本并改善时序学习。

实验结果

本文在视频检索、视频问答和动作分割等多个下游任务上验证了 Norton 的有效性。实验结果表明，Norton 在所有任务上都显著优于现有方法，证明了其在学习长期时间依赖关系和促进片段级表示学习方面的优势。

总结

Norton 是一种噪声鲁棒时间最优传输方法，它有效地解决了长视频中多粒度噪声对应问题，并通过利用 OT 来测量序列距离，显著降低了计算成本。Norton 的实验结果表明，该方法在视频理解任务中具有良好的性能和可扩展性。

参考文献

Zhang, J. , Lin, Y., Huang, Z., Liu, J., Wen, Z., & Peng, X. (2024). Multi-granularity correspondence learning from long-term noisy videos. In ✅International Conference on Learning Representations.

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的主要问题是在视频语言学习中，如何有效地从长期（long-term）且带有噪声的视频数据中学习时间上的对应关系（temporal correspondence）。具体来说，论文关注以下几个关键挑战：

长期时间依赖性（Long-term Temporal Dependencies）：现有的视频语言预训练（VLP）方法主要关注短视频片段的学习，而忽略了长期时间依赖性。长期时间依赖性在理解视频中事件和过渡的关系中起着不可或缺的作用。
多粒度噪声对应（Multi-Granularity Noisy Correspondence, MNC）：将长视频分割成短片段时，不可避免地会遇到粗粒度（clip-caption misalignment）和细粒度（frame-word misalignment）的噪声对应问题。这些问题阻碍了时间学习和视频理解。
计算成本（Computational Cost）：直接对长视频进行建模需要大量的计算资源，这对于实际应用来说是一个重大挑战。

为了解决这些问题，论文提出了一种名为NOise Robust Temporal Optimal traNsport（Norton）的方法，该方法在一个统一的最优传输（Optimal Transport, OT）框架中处理MNC问题。Norton通过视频段落和视频片段-标题对比损失来捕捉长期依赖性，并利用最优传输来测量串行距离。此外，Norton还引入了软最大算子（soft-maximum operator）来识别关键词汇和帧，以及一个可对齐的提示桶（alignable prompt bucket）来过滤无关内容，从而提高时间建模的准确性。

Q: 有哪些相关研究？

A: 论文中提到的相关研究主要集中在以下几个领域：

视频时间学习（Video Temporal Learning）：这是视频理解中的一个关键但具有挑战性的话题。传统的方法侧重于将空间-时间操作集成到卷积或Transformer架构中。受图像-语言预训练方法的启发，最近的工作利用自然语言来指导视频时间学习。例如，”排序剪辑”（sorting the clips）方法涉及根据它们的顺序句子对视频剪辑进行排名。
视频-语言预训练（Video-Language Pre-training）：视频-语言预训练在大规模数据集（如HowTo100M. ��的支持下取得了显着进展。由于文本描述通常与视觉内容不对齐，噪声对应学习（noisy correspondence learning）成为视频-语言预训练中的新趋势。✅
最优传输（Optimal Transport, OT）：OT最初被提出来描述两个概率分布之间的距离。最近，OT在领域适应、聚类、文档匹配和串行对齐等领域引起了广泛关注。然而，这些工作并没有专门关注视频和文本的对齐，这是本研究的主要焦点。
噪声对应学习（Noisy Correspondence Learning in Video-Language Pre-training）：在视频-语言预训练中，由于文本描述通常与视觉内容不对齐，噪声对应学习成为了一个新趋势。例如，MIL-NCE通过将每个视频剪辑与多个相邻句子对齐来减轻噪声的影响，而TAN提出了一种共同训练策略，使用相互一致性来过滤噪声对。
视频检索（Video Retrieval）：视频检索任务旨在根据查询字幕找到相应的视频片段。这要求模型能够理解视频内容并准确地匹配查询和视频内容。
视频问答（VideoQA）：视频问答任务要求模型理解视频内容并回答与视频相关的文本问题。这需要模型具备对视频内容的深入理解能力。
动作分割（Action Segmentation）：动作分割任务假设每个视频与各种动作相关联。目标是确定每一秒的具体动作，这需要完全探索时间依赖性。

这些相关研究为论文提出的Norton方法提供了背景和动机，同时也展示了在视频理解和视频-语言预训练领域中存在的挑战和机遇。

Q: 论文如何解决这个问题？

A: 论文提出了一个名为NOise Robust Temporal Optimal traNsport（Norton）的方法来解决长期视频中的多粒度噪声对应（MNC）问题。Norton方法的内核思想是在一个统一的最优传输（OT）框架中处理MNC问题，具体解决方案包括以下几个关键组件：

视频-段落对比学习（Video-Paragraph Contrastive Learning）：Norton通过视频段落和视频片段-标题对比损失来捕捉长期依赖性。这种方法从细粒度到粗粒度的角度测量视频片段和标题之间的串行距离。
软最大算子（Soft-Maximum Operator）：为了处理细粒度的帧-词不对齐问题，Norton引入了一个软最大算子来识别每个片段-标题对中的关键词汇和关键帧。这个算子通过改善细粒度的多模态交互来提高片段-标题相似性的测量。
可对齐的提示桶（Alignable Prompt Bucket）：为了过滤掉无关的片段或标题，Norton引入了一个可对齐的提示桶。这个桶作为一个候选的可对齐目标，用于在OT过程中丢弃与噪声片段或标题对齐的内容。
故障负样本利用（Faulty Negative Exploitation）：在片段-标题对比学习中，Norton通过OT来处理故障负样本问题。它利用OT分配作为额外的监督信息，利用潜在的故障负样本来改进时间学习。
最优传输（Optimal Transport）：Norton使用OT来测量视频片段和标题之间的距离，并通过Sinkhorn迭代来解决OT问题，从而实现串行对齐。

通过这些组件，Norton能够有效地处理长期视频中的噪声对应问题，同时保持计算效率。论文通过在视频检索、视频问答和动作分割等下游任务上的广泛实验验证了Norton方法的有效性。

Q: 论文做了哪些实验？

A: 论文中进行了一系列实验来验证Norton方法的有效性，这些实验涵盖了多个下游任务，包括视频段落检索、文本到视频检索（clip-level）、视频问答（VideoQA）和动作分割（Action Segmentation）。以下是实验的详细描述：

视频段落检索（Video-Paragraph Retrieval）：
- 在YouCookII数据集上评估零样本（zero-shot）性能，使用背景移除（Background Removed）和背景保留（Background Kept）两种设置。
- 使用三种标准策略：Caption Average (Cap. Avg.)、Dynamic Time Warping (DTW) 和 Ordered Temporal Alignment Module (OTAM)。
- 报告了R@1、R@5和R@10等召回率指标。
文本到视频检索（Text-to-Video Retrieval, Clip-level）：
- 在YouCookII和MSR-VTT数据集上评估模型的迁移能力。
- 使用支持集（SupportSet）和冻结（Frozen）等方法作为对比。
视频问答（VideoQA）：
- 在MSR-VTT数据集上进行多项选择视频问答实验。
- 报告了监督（Supervised）和零样本（Zero-shot）的准确率。
动作分割（Action Segmentation）：
- 在COIN数据集上评估动作分割性能。
- 使用VAVA、ActBERT、Drop-DTW、MIL-NCE、ClipBERT、TACo、VideoCLIP和TempCLR等方法作为基线。
消融研究（Ablation Study）：
- 在YouCookII数据集上进行消融实验，分析了故障负样本利用（Faulty Negative Exploitation）、最优传输在时间学习中的作用（OT in Temporal Learning）、细粒度对齐（Fine-grained Alignment）和可对齐的提示桶（Alignable Prompt Bucket）等设计选择对模型性能的影响。
训练效率讨论（Training Efficiency Discussion）：
- 对比了Norton方法与其他直接对长视频进行建模的方法在训练效率上的差异。
噪声对应分析（Robustness on Noisy Correspondence）：
- 在HTM-Align数据集上评估了不同方法在处理噪声对应问题上的有效性。
可视化（Visualization）：
- 展示了Norton方法在YouTube视频上的重新对齐（re-alignment）效果，与动态时间扭曲（Dynamic Time Warping, DTW）和普通最优传输（vanilla Optimal Transport）进行了对比。

这些实验结果表明，Norton方法不仅在长期时间依赖性学习方面表现出色，而且在处理噪声对应问题方面也具有显着优势。此外，Norton在多个下游任务中都取得了良好的性能，证明了其在视频理解和视频-语言预训练领域的通用性和有效性。

Q: 有什么可以进一步探索的点？

A: 论文中提出了几个可以进一步探索的点，主要包括：

多模态噪声对应（Multi-modal Noisy Correspondence）：
- 虽然Norton方法解决了视频和文本之间的噪声对应问题，但视频通常包含视觉、文本和音频等多种模态。未来的工作可以探索如何在多模态场景中应用最优传输来处理更复杂的噪声对应问题。
利用噪声（Utilization of Noise）：
- 论文中提出了一个可对齐的提示桶来过滤无关内容，但未来的研究可以探索如何将这些噪声样本转化为训练过程中的有用信息，例如通过生成与不匹配视频片段相关的文本。
计算效率（Computational Efficiency）：
- 尽管Norton方法在计算效率上有所改进，但在处理大规模数据集时，最优传输的计算成本仍然是一个挑战。未来的工作可以探索更高效的算法来降低计算复杂度。
模型泛化能力（Model Generalization）：
- 虽然Norton在多个下游任务上表现良好，但未来的研究可以进一步测试其在不同类型和规模的数据集上的泛化能力，以及在更复杂的视频理解任务中的应用。
模型解释性（Model Interpretability）：
- 论文中没有详细讨论模型的解释性。未来的工作可以探索如何提高模型的可解释性，以便更好地理解模型是如何进行视频和文本对齐的。
跨领域应用（Cross-domain Applications）：
- Norton方法在视频理解领域表现出色，但未来的研究可以探索其在其他领域，如图像-文本检索、跨模态生成等任务中的应用。
模型鲁棒性（Model Robustness）：
- 未来的工作可以进一步研究模型在面对更极端噪声和异常情况时的鲁棒性，例如在视频质量较差或字幕信息不完整的情况下。
实时应用（Real-time Applications）：
- 考虑到实时视频处理的需求，未来的研究可以探索如何优化Norton方法以满足实时视频分析的计算需求。

这些潜在的研究方向不仅有助于提高视频理解和视频-语言预训练的性能，而且可以推动多模态学习和计算机视觉领域的进一步发展。

Q: 总结一下论文的主要内容

A: 这篇论文提出了一种名为NOise Robust Temporal Optimal traNsport（Norton）的新方法，旨在解决长期视频中的多粒度噪声对应（MNC）问题。Norton通过最优传输（OT）框架来处理视频片段和字幕之间的粗粒度（clip-caption）和细粒度（frame-word）对齐问题。主要贡献和内容包括：

问题定义：论文首先定义了长期视频中存在的MNC问题，包括粗粒度的异步和不相关对齐，以及细粒度的帧-词对齐问题。
方法提出：Norton方法通过视频-段落对比损失和视频片段-字幕对比损失来捕捉长期依赖性。它利用OT来测量串行距离，并引入软最大算子来识别关键词汇和帧，以及可对齐的提示桶来过滤无关内容。
实验验证：在视频检索、视频问答和动作分割等下游任务上进行了广泛的实验，验证了Norton方法的有效性。实验结果表明，Norton在处理噪声对应问题和长期时间依赖性方面优于现有方法。
消融研究：通过消融实验，论文分析了Norton中各个组件的作用，如故障负样本利用、OT在时间学习中的作用、细粒度对齐和可对齐的提示桶。
训练效率：论文讨论了Norton方法在训练效率上的优势，特别是在处理长视频时，与直接对视频进行建模的方法相比，Norton显着降低了计算成本。
未来工作：论文提出了未来研究的方向，包括扩展到多模态噪声对应、利用噪声样本、提高计算效率、模型泛化能力、模型解释性、跨领域应用和实时应用等。

总的来说，Norton方法为长期视频理解和视频-语言预训练领域提供了一种新的视角，特别是在处理噪声对应问题方面展现了其潜力。

发表评论 取消回复

发表评论取消回复