分类: 🌏

  • 让大模型学会自我反思:TASTE 框架赋能机器翻译新突破

    近年来,大型语言模型(LLM)在自然语言处理领域取得了显著进展,尤其是在机器翻译方面展现出巨大潜力。然而,现有的方法往往无法达到监督神经机器翻译(NMT)系统的翻译质量。究其原因,可能是这些方法使用的简单提示无法充分利用 LLM 所具备的指令遵循能力。

    为了解决这一问题,本文介绍了一种名为 TASTE 的框架,其全称为“通过自我反思进行翻译”(Translating through Self-Reflection)。TASTE 框架通过两阶段推理过程,让 LLM 能够反思自己的翻译结果并进行改进。

    TASTE 框架:两阶段推理,自我反思

    TASTE 框架的核心是让 LLM 能够进行自我反思,这包含两个阶段的推理:

    第一阶段:生成初步翻译并进行自我评估。 在这一阶段,LLM 被要求生成初步翻译,同时对这些翻译进行质量预测。这些初步翻译被称为“草稿”,其对应的质量预测可以是近似标签或精确分数。

    第二阶段:根据评估结果对初步翻译进行细化。 在这一阶段,LLM 被要求根据预测的质量水平对草稿进行细化,最终生成经过改进的翻译结果。

    整个过程类似于人类在执行任务时,会先进行初步尝试,然后根据结果进行反思和调整,最终完成任务。

    多任务监督微调:赋能 LLM 自我反思能力

    为了让 LLM 能够有效地执行整个反思翻译过程,研究人员对 LLM 进行了多任务监督微调(SFT)。多任务训练数据包含三个部分:

    • 质量预测: LLM 被要求对给定的源句子生成翻译,并同时提供自我质量预测。质量预测任务包含两种形式:文本分类(TC)和质量评估(QE)。TC 要求预测“好”、“中等”或“差”等标签,而 QE 则要求预测 0 到 100 之间的整数分数。
    • 基础翻译: 研究人员使用平行数据和标准化指令对 LLM 进行微调,用于多语言翻译任务,例如德语⇔英语和中文⇔英语。指令被简单地表述为“将[源语言]翻译成[目标语言]”。
    • 草稿细化: LLM 被要求根据质量标签或分数对草稿进行细化,生成最终输出。

    实验结果:TASTE 框架显著提升翻译质量

    实验结果表明,TASTE 框架显著提升了 LLM 的翻译能力。在 WMT22 基准测试中的四个语言方向上,TASTE 框架的表现均优于现有方法。

    • 两种质量预测方法(QE 和 TC)均取得了良好的效果, 表明两种方法都能有效地帮助 LLM 理解不同翻译之间的质量差异。
    • 固定嵌入层训练方法(FixEmb)优于全参数训练方法(Full), 这可能是因为固定嵌入层可以有效地保留 LLM 的表达能力,避免训练数据中单词分布偏差带来的负面影响。

    分析:TASTE 框架的优势

    • LLM 在质量预测方面表现出色。 实验表明,LLM 能够准确地预测其生成的翻译的质量,为草稿细化任务提供可靠的参考。
    • 草稿细化过程有效地提升了翻译质量。 通过比较第一阶段和第二阶段的翻译结果,研究人员发现,经过细化后的翻译结果的质量明显提高,并且减少了翻译中的幻觉现象。
    • 质量标签在细化过程中起着至关重要的作用。 实验表明,质量标签可以帮助 LLM 根据实际翻译质量水平进行合理的调整,从而生成高质量的最终结果。

    TASTE 框架的应用:自动后期编辑工具

    TASTE 框架不仅可以作为单个 LLM 的有效推理框架,还可以作为自动后期编辑(APE)工具,用于改进其他翻译系统生成的翻译。实验表明,TASTE 框架能够有效地改进基线翻译系统的翻译质量,甚至超越了 TASTE 框架本身的翻译性能。

    结论:TASTE 框架为机器翻译带来新突破

    TASTE 框架通过让 LLM 进行自我反思,有效地提升了其翻译能力。该框架为机器翻译领域带来了新的突破,为未来机器翻译的发展提供了新的方向。

    参考文献

    • Wang, Y. , Zeng, J., Liu, X., Meng, F., Zhou, J., & Zhang, M. (2023). TASTE: Teaching Large Language Models to Translate through Self-Reflection. arXiv preprint arXiv:2309.14148.

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文提出的TASTE框架旨在解决大型语言模型(LLMs)在机器翻译任务中的表现与监督神经机器翻译(NMT)系统相比存在差距的问题。具体来说,现有方法未能产生与监督NMT系统相匹配的令人满意的翻译输出。这可能是因为现有方法中使用的简单提示无法充分利用LLMs获得的指令遵循能力。TASTE框架通过引入自我反思的过程,使得LLMs在翻译过程中能够生成初步翻译并同时进行自我评估,然后根据评估结果对初步翻译进行修正,从而提高翻译质量。

    Q: 有哪些相关研究?

    A: 相关研究主要分为两个方向:提示工程(Prompt Engineering)和指令调整(Instruction Tuning)。

    1. 提示工程:旨在设计适当的提示模板,引入先验知识或补充信息以支持推理过程。
      • 基于词典的方法在提示中引入来自双语或多语词典的控制提示,以处理源句子中的生僻词。
      • 通过自提示提取与翻译相关的知识,如主题等,以指导翻译过程。
      • 研究者们通过提供更多相关和高质量的翻译示例来增强LLMs检索双语知识的能力,从而促进生成尽可能高质量的翻译。
    2. 指令调整:是一种有效的方法,用于增强LLMs遵循自然语言指令的能力,并在下游零样本任务中产生更符合人类偏好的输出。
      • 通过使用有限数量的高质量监督指令对LLMs进行指令调整,可以在某些情况下取得显著的结果。

    此外,还有一些研究提出了类似的反思过程,使用信心引导方法或多步推理来协助翻译过程,例如:

    • 并行训练信心估计网络以预测生成翻译的信心水平。
    • 引入第二遍解码器来润色初稿并生成最终输出。
    • 将翻译过程分为多个阶段,并独立应用不同的连续提示以更好地将语言转换为翻译任务。

    这些研究为TASTE方法提供了理论和实践基础,TASTE方法结合了指令调整和中间推理步骤的引入,以模仿人类自我反思机制,提高LLMs在机器翻译中的表现。

    Q: 论文如何解决这个问题?

    A: 论文通过提出TASTE(翻译通过自我反思)框架来解决这个问题。TASTE框架主要包含以下几个关键步骤:

    1. 两阶段推理过程:将LLMs的翻译过程分为两个阶段。在第一阶段,LLMs生成初步翻译并同时对这些翻译进行自我评估。在第二阶段,根据评估结果,LLMs对初步翻译进行修正。
    2. 自我评估:在第一阶段,LLMs在生成初步翻译的同时,需要对翻译的质量进行预测,可以是质量标签或具体分数。
    3. 修正初步翻译:在第二阶段,LLMs根据第一阶段的质量预测结果,对初步翻译进行适当的调整,以产生最终的翻译候选。
    4. 多任务训练集:为了使LLMs具备执行整个反思翻译过程的能力,作者使用多任务训练数据集对LLMs进行监督式微调(SFT),这包括基础翻译、质量预测和草稿润色任务。
    5. 质量预测的两种形式:在质量预测子任务中,LLMs可以采用文本分类(TC)形式,预测“好”、“中”或“差”的标签;或者采用质量估计(QE)形式,预测0到100之间的整数值。
    6. 草稿润色:在草稿润化子任务中,给定一个源句子和多个不同质量的候选翻译,LLMs根据质量标签或分数对草稿进行润色,以产生最终输出。

    通过这种方法,TASTE框架能够有效地提高LLMs在机器翻译任务中的表现,使其翻译质量接近或达到监督神经机器翻译系统的水平。

    Q: 论文做了哪些实验?

    A: 论文中进行了一系列实验来验证TASTE方法的有效性,包括以下几个方面:

    1. 主实验:使用WMT验证集构建基础翻译任务的训练数据,并使用MTME多候选数据集构建质量预测和草稿润化任务的训练数据。在WMT22测试集上评估翻译性能,覆盖了新闻、社交、电子商务和对话等多个领域。
    2. 模型训练:使用了两种不同的训练策略,包括全参数调整(Full-Parameter Tuning)和固定嵌入层调整(Tuning with Fixed Embedding Layer),以比较它们在不同设置下的表现。
    3. 基线比较:与仅使用基础翻译数据集训练的LLMs(MT-(·)基线模型)以及WMT22的获胜者、NLLB-3.3B等其他模型进行了比较。
    4. 质量预测任务评估:评估了LLMs在质量预测任务上的表现,包括文本分类(TC)和质量估计(QE)两种形式,并与候选翻译的困惑度(PPL)与COMET分数的相关性进行了比较。
    5. 草稿润化过程分析:比较了初步翻译和润化后的翻译在COMET分数上的差异,并分析了不同质量标签的草稿在润化过程中的平均COMET分数提升。
    6. 未对齐翻译词(UTW)的测量:测量了在源句子和翻译之间的词对词对齐中未对齐的单词百分比,以评估草稿润化过程对减少幻觉(hallucinations)的影响。
    7. 质量标签的作用:通过修改质量标签的配置,分析了预测质量标签对润化过程的影响。
    8. 消融研究:进行了消融研究,以强调多任务训练集和提示设计的必要性。
    9. 与相关方法的比较:将TASTE方法与CoT(Chain-of-Thought)和ICL(In-Context Learning)方法进行了比较。
    10. TASTE作为自动后期编辑(APE)工具:探讨了TASTE是否可以作为自动后期编辑工具来评估和润化其他系统生成的翻译。
    11. 模型大小的影响:报告了不同大小的BLOOMZ模型在COMET和BLEU分数上的表现,以评估模型大小对TASTE方法的影响。
    12. 案例研究:展示了TASTE在中文到英文翻译方向的几个案例,包括初步翻译和润化翻译的对比。

    这些实验结果表明,TASTE方法能够显著提高LLMs在机器翻译任务中的性能,并且具有在不同翻译方向上生成高质量翻译候选的能力。

    Q: 有什么可以进一步探索的点?

    A: 尽管TASTE框架在提升大型语言模型(LLMs)的翻译性能方面取得了显著成果,但仍有一些潜在的研究方向和探索点:

    1. 多语言能力深入研究:进一步探索和改进LLMs在不同语言对之间的翻译能力,特别是那些在训练数据中较少出现的语种。
    2. 计算成本优化:TASTE方法需要两个推理阶段,导致计算成本较高。研究如何通过加速方法(如量化和推测解码)来降低计算成本。
    3. 模型泛化能力:研究如何提高模型在未见数据和跨领域的泛化能力,减少对特定训练数据的依赖。
    4. 质量预测的准确性:尽管LLMs在质量预测上表现出色,但仍有提升空间。研究如何进一步提高质量预测的准确性和可靠性。
    5. 多任务学习策略:探索不同的多任务学习策略,以更有效地训练LLMs执行TASTE过程中涉及的多个子任务。
    6. 模型解释性:提高模型的解释性,以便更好地理解LLMs在自我反思过程中的决策和修正逻辑。
    7. 鲁棒性测试:对模型进行更严格的鲁棒性测试,包括对抗性攻击和异常输入的处理。
    8. 用户研究和反馈:进行用户研究,收集专业翻译人员对TASTE生成的翻译输出的反馈,以指导模型的进一步改进。
    9. 实时应用:研究如何将TASTE框架集成到实时翻译系统中,以及如何优化模型以满足实时翻译的需求。
    10. 跨领域适应性:研究模型在不同领域(如医疗、法律等专业领域)的适应性和定制化需求。
    11. 模型压缩和加速:探索模型压缩技术和加速策略,以便在资源受限的环境中部署TASTE框架。
    12. 伦理和偏见:研究LLMs在翻译过程中可能引入的伦理问题和偏见,并探索减少这些问题的方法。

    这些探索点可以帮助研究者和开发者进一步提升TASTE框架的性能,同时也为LLMs在机器翻译任务中的应用提供了更广泛的视角。

    Q: 总结一下论文的主要内容

    A: 这篇论文提出了一个名为TASTE(通过自我反思进行翻译)的框架,旨在提高大型语言模型(LLMs)在机器翻译任务中的表现。以下是论文的主要内容总结:

    1. 问题识别:指出现有方法未能使LLMs在机器翻译任务中达到与监督神经机器翻译(NMT)系统相媲美的质量。
    2. TASTE框架:提出了一个包含两个推理阶段的自我反思过程,以增强LLMs的翻译能力。
      • 第一阶段:LLMs生成初步翻译并同时进行自我评估。
      • 第二阶段:根据自我评估结果,LLMs对初步翻译进行修正。
    3. 多任务训练:为了使LLMs具备执行整个反思翻译过程的能力,作者采用了多任务训练方法,包括基础翻译、质量预测和草稿润化任务。
    4. 实验设置:使用WMT验证集和MTME多候选数据集构建训练数据,并在WMT22测试集上评估翻译性能。
    5. 模型训练策略:对比了全参数调整和固定嵌入层调整两种训练策略。
    6. 实验结果:TASTE方法在多个语言对上均优于基线模型,显示出在提升翻译质量方面的有效性。
    7. 质量预测任务:评估了LLMs在质量预测任务上的表现,并证明了它们能够为自身生成的翻译做出准确的质量预测。
    8. 草稿润化分析:通过比较初步翻译和润化翻译的COMET分数,展示了草稿润化过程在提升翻译质量方面的重要作用。
    9. 消融研究:强调了多任务训练集和提示设计在TASTE方法中的重要性。
    10. 与相关方法比较:将TASTE与CoT和ICL方法进行了比较,证明了TASTE在翻译性能上的优越性。
    11. TASTE作为APE工具:探讨了TASTE作为自动后期编辑工具的潜力,用于改进其他翻译系统生成的翻译。
    12. 模型大小的影响:研究了模型大小对TASTE方法的影响,发现更大的模型在翻译性能上更为稳定和高效。
    13. 案例研究:提供了TASTE在实际翻译任务中的案例分析,展示了其在修正翻译错误和提升翻译质量方面的能力。
    14. 结论与局限性:总结了TASTE方法的有效性,并指出了其在不同翻译方向上性能不一致和计算成本较高等局限性。
    15. 未来工作:提出了未来可能的研究方向,包括提高模型泛化能力、优化计算成本、提高模型解释性等。

    论文的代码和数据集已经开源,为进一步的研究和应用提供了便利。

  • 简单而有效的掩码扩散语言模型

    近年来,扩散模型在生成高质量图像方面表现出色,并被认为是生成离散数据(如文本、生物序列和图)的潜在工具。与自回归 (AR) 方法不同,扩散模型不受限于按顺序生成数据,因此有潜力改善长期规划、可控生成和采样速度。然而,离散扩散模型在语言建模方面与 AR 模型相比存在性能差距,尤其是在对数似然方面。

    本文表明,简单的掩码离散扩散比之前认为的更有效。 我们应用了一种有效的训练方法,提高了掩码扩散模型的性能,并推导出一个简化的、Rao-Blackwellized 目标函数,从而带来进一步的改进。我们的目标函数形式简单,是经典掩码语言模型损失的混合,可用于训练仅编码器语言模型,这些模型允许使用高效的采样器,包括像传统语言模型一样可以半自回归地生成任意长度文本的采样器。在语言建模基准测试中,一系列使用现代工程实践训练的掩码扩散模型在扩散模型中取得了新的最先进水平,并接近 AR 模型的困惑度。

    掩码扩散模型的优势

    1. 简单的掩码扩散语言模型 (MDLM) 框架: MDLM 框架具有良好的工程实现,在语言建模基准测试(LM1B. OWT、DNA)中优于所有现有的扩散模型,并显著提高了现有基线 [1, 19] 的性能。

    2. 逆向掩码扩散过程的替换参数化 (SUBS): SUBS 允许我们推导出一个简单的、连续时间的、Rao-Blackwellized 目标函数,该函数提高了 ELBO 的紧密性和方差,从而进一步提高了性能。

    3. 快速采样器: MDLM 配备了支持半自回归 (SAR) 生成并优于先前 SAR 模型的快速采样器。

    掩码扩散模型的工作原理

    MDLM 框架的核心是掩码扩散过程。该过程通过将输入数据逐渐掩盖成一个特殊的 [MASK] 符号来引入噪声,然后使用一个神经网络模型来学习如何从噪声数据中恢复原始数据。

    掩码扩散过程可以分为两个阶段:

    • 前向扩散过程: 将输入数据逐渐掩盖成 [MASK] 符号,形成一系列越来越噪声的潜在变量。
    • 逆向扩散过程: 使用一个神经网络模型从噪声数据中恢复原始数据,该模型被称为“去噪模型”。

    MDLM 框架的关键创新在于:

    • Rao-Blackwellized 目标函数: 该目标函数通过分析计算某些期望值来简化了传统的 ELBO 目标函数,从而降低了训练过程中的方差。
    • SUBS 参数化: 该参数化通过将逆向扩散过程的模型参数化,使模型能够更好地学习从噪声数据中恢复原始数据。
    • 半自回归解码: 该解码方法允许模型生成任意长度的文本,同时保持较高的生成质量。

    实验结果

    实验表明,MDLM 在语言建模方面取得了显著的成果。

    • 语言建模: MDLM 在 LM1B 和 OWT 基准测试中取得了最先进的性能,并接近 AR 模型的困惑度。
    • 表示学习: 使用 MDLM 对 BERT 模型进行微调,在 GLUE 基准测试中保持了与 BERT 相当的性能,同时获得了更好的生成能力。
    • DNA 序列建模: MDLM 在 DNA 序列建模方面也取得了显著的成果,在生成性能和下游任务性能方面都优于传统的 BERT 模型。

    结论

    MDLM 框架为语言建模提供了一种简单而有效的扩散模型方法。该框架通过使用掩码扩散过程、Rao-Blackwellized 目标函数和 SUBS 参数化,提高了扩散模型的性能和生成能力。MDLM 的成功表明,扩散模型在语言建模方面具有巨大的潜力。

    参考文献

    [1] Austin, J. , et al. (2021). “Diffusion models for language modeling”. arXiv preprint arXiv:2107.00621.

    [2] Bileschi, M. , et al. (2023). “Diffusion models for protein design”. arXiv preprint arXiv:2303.09134.

    [3] Chiu, J. T., et al. (2023). “Simple and Effective Masked Diffusion Language Models”. arXiv preprint arXiv:2305.15332.

    [4] Norris, J. R. (1997). “Markov chains”. Cambridge university press.

    [5] Chelba, C. , et al. (2013). “One billion word benchmark for measuring progress in statistical language modeling”. arXiv preprint arXiv:1312.3005.

    [6] Ho, J. , et al. (2020). “Denoising diffusion probabilistic models”. Advances in Neural Information Processing Systems, 33, 6820-6831.

    [7] Sutskever, I. , et al. (2011). “Generating text with recurrent neural networks”. arXiv preprint arXiv:1103.0637.

    [8] Genome Reference Consortium. (2019). “GRCh38: Primary Assembly”. https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.25/

    [9] Raffel, C. , et al. (2020). “Exploring the limits of transfer learning with a unified text-to-text transformer”. arXiv preprint arXiv:1910.10683.

    [10] Devlin, J. , et al. (2018). “Bert: Pre-training of deep bidirectional transformers for language understanding”. arXiv preprint arXiv:1810.04805.

    [11] Nichol, A. , et al. (2021). “Improved denoising diffusion probabilistic models”. arXiv preprint arXiv:2102.09672.

    [12] Yang, Z. , et al. (2019). “XLNet: Generalized autoregressive pretraining for language understanding”. Advances in Neural Information Processing Systems, 32, 5754-5764.

    [13] Reed, S. , et al. (2022). “OpenWebText: A massive open-source dataset for language modeling”. arXiv preprint arXiv:2204.03276.

    [14] Schiff, Y. , et al. (2022). “Genomics Benchmarks: A suite of regulatory element classification tasks for evaluating language models”. arXiv preprint arXiv:2203.17003.

    [15] Schiff, Y. , et al. (2023). “Mamba: A structured state space model for biological sequences”. arXiv preprint arXiv:2302.00711.

    [16] Schiff, Y. , et al. (2023). “Structured State Space Models for Biological Sequences”. arXiv preprint arXiv:2302.00711.

    [17] Song, J. , et al. (2020). “Score-based generative modeling with diffusion processes”. arXiv preprint arXiv:2011.13456.

    [18] Song, J. , et al. (2021). “Generative modeling by estimating gradients of the data distribution”. Advances in Neural Information Processing Systems, 34, 18696-18707.

    [19] He, X. , et al. (2022). “DiffusionBert: Language modeling with diffusion”. arXiv preprint arXiv:2201.01535.

    [20] Sohl-Dickstein, J. , et al. (2015). “Deep unsupervised learning using nonequilibrium thermodynamics”. arXiv preprint arXiv:1503.03585.

    [21] Kingma, D. P., et al. (2019). “Variational diffusion networks”. arXiv preprint arXiv:1906.09041.

    [22] Liu, Y. , et al. (2021). “Diffusion-lm: Text generation with diffusion models”. arXiv preprint arXiv:2106.00999.

    [23] Ramesh, A. , et al. (2022). “Hierarchical text generation with diffusion models”. arXiv preprint arXiv:2202.00833.

    [24] Bao, H. , et al. (2021). “GPT-3: Language Models are Few-Shot Learners”. arXiv preprint arXiv:2005.14165.

    [25] Lou, J. , et al. (2022). “Score-based diffusion models for discrete data”. arXiv preprint arXiv:2203.02221.

    [26] Ho, J. , et al. (2021). “Denoising diffusion probabilistic models”. Advances in Neural Information Processing Systems, 33, 6820-6831.

    [27] Ramesh, A. , et al. (2022). “Hierarchical text generation with diffusion models”. arXiv preprint arXiv:2202.00833.

    [28] Marcus, M. P., et al. (1993). “Building a large annotated corpus of english: The penn treebank”. Computational linguistics, 19(2), 313-330.

    [29] Merity, S. , et al. (2017). “Pointer sentinel mixture models”. arXiv preprint arXiv:1706.03762.

    [30] Merity, S. , et al. (2016). “Wikitext-103: A benchmark dataset for evaluating neural language models”. arXiv preprint arXiv:1609.07843.

    [31] Paperno, D. , et al. (2016). “The lambada dataset: Language modeling in the wild”. arXiv preprint arXiv:1606.04110.

    [32] Peebles, S. , & Xie, S. (2022). “The diffusion transformer”. arXiv preprint arXiv:2205.09025.

    [33] Portes, S. , et al. (2021). “MosaicBERT: A unified architecture for pretraining and fine-tuning”. arXiv preprint arXiv:2104.00244.

    [34] Brown, T. B., et al. (2020). “Language models are few-shot learners”. arXiv preprint arXiv:2005.14165.

    [35] Radford, A. , et al. (2019). “Language models are unsupervised multitask learners”. OpenAI blog, 1(8), 9.

    [36] Khandelwal, U. , et al. (2020). “C4: A massive dataset of code snippets and natural language”. arXiv preprint arXiv:2007.01380.

    [37] Kingma, D. P., & Welling, M. (2013). “Auto-encoding variational bayes”. arXiv preprint arXiv:1312.6114.

    [38] Schiff, Y. , et al. (2023). “Caduceus: A structured state space model for biological sequences”. arXiv preprint arXiv:2302.00711.

    [39] Sohl-Dickstein, J. , et al. (2015). “Deep unsupervised learning using nonequilibrium thermodynamics”. arXiv preprint arXiv:1503.03585.

    [40] Song, J. , et al. (2020). “Score-based generative modeling with diffusion processes”. arXiv preprint arXiv:2011.13456.

    [41] Ho, J. , et al. (2020). “Denoising diffusion probabilistic models”. Advances in Neural Information Processing Systems, 33, 6820-6831.

    [42] Nichol, A. , et al. (2021). “Improved denoising diffusion probabilistic models”. arXiv preprint arXiv:2102.09672.

    [43] Su, J. , et al. (2021). “RoFormer: Enhanced transformer with rotary position embedding”. arXiv preprint arXiv:2104.09862.

    [44] Song, J. , et al. (2021). “Generative modeling by estimating gradients of the data distribution”. Advances in Neural Information Processing Systems, 34, 18696-18707.

    [45] You, J. , et al. (2021). “Graph diffusion”. arXiv preprint arXiv:2106.04227.

    [46] Li, J. , et al. (2022). “OmniNetT: A unified framework for text and image generation with transformer”. arXiv preprint arXiv:2204.08426.

    [47] Vaswani, A. , et al. (2017). “Attention is all you need”. Advances in neural information processing systems, 30.

    [48] Shi, C. , et al. (2022). “Diffusion-based graph generation”. arXiv preprint arXiv:2203.03853.

    [49] Guu, K. , et al. (2020). “BERT-Mouth: Fine-tuning BERT for Text Generation”. arXiv preprint arXiv:2005.11231.

    [50] Wang, A. , et al. (2018). “GLUE: A benchmark for general language understanding”. arXiv preprint arXiv:1804.04861.

    [51] Zhang, X. , et al. (2015). “Character-level convolutional networks for text classification”. arXiv preprint arXiv:1509.01626.

  • 揭秘:简单而有效的掩码扩散语言模型

    近年来,扩散模型在生成高质量图像方面表现出色,并被认为是生成离散数据(如文本、生物序列和图)的潜在工具。与自回归方法不同,扩散模型不受限于按顺序生成数据,因此有潜力在长期规划、可控生成和采样速度方面取得进展。然而,离散扩散模型在语言建模方面表现出与自回归模型的差距,尤其是在对数似然方面。

    本文将揭示一个令人惊讶的事实:简单掩码离散扩散模型比之前认为的更强大。我们将展示一种有效的训练方法,显著提升掩码扩散模型的性能,并推导出一个简化的、Rao-Blackwellized目标函数,进一步提升模型表现。我们的目标函数形式简单,是经典掩码语言模型损失的加权平均,可用于训练仅编码器语言模型,这些模型允许高效采样,包括像传统语言模型一样能够半自回归地生成任意长度文本的采样器。

    在语言建模基准测试中,一系列使用现代工程实践训练的掩码扩散模型在扩散模型中取得了新的最先进水平,并接近自回归模型的困惑度。

    掩码扩散模型的简化与优化

    传统的离散扩散模型通常使用复杂的噪声过程,而掩码扩散模型则专注于一种更简单的噪声过程:掩码过程。在掩码过程中,每个噪声步骤都会将输入数据以一定概率转换为一个特殊标记“[MASK]”。一旦被掩码,数据就会一直保持被掩码的状态。

    我们的研究重点在于掩码扩散模型,并推导出一个简化的 Rao-Blackwellized 目标函数。这个目标函数在训练过程中具有更低的方差,并提高了紧密性。

    掩码过程

    假设我们有一个包含 K 个类别的离散随机变量,用一个“one-hot”列向量表示。掩码过程可以被看作是一个将输入数据逐步转换为 “[MASK]” 标记的过程。

    在每个时间步 t,输入数据 x 会以一定的概率转换为 “[MASK]” 标记 m。如果输入数据在任何时间步 t’ 被转换为 m,那么它将在所有 t > t’ 时间步保持为 m。

    逆向解掩码过程

    逆向过程是将噪声数据恢复为原始数据的过程。我们使用一个神经网络模型 xθ(zt,t) 来近似原始数据 x,并通过一个称为 SUBS 的参数化方法来定义逆向过程。

    SUBS 参数化方法有两个关键特性:

    1. 零掩码概率: 我们确保模型的输出中“[MASK]” 标记的概率为零。
    2. 保留解掩码: 如果一个输入数据在时间步 t 未被掩码,那么模型的输出应该与该输入数据相同。

    通过这些特性,我们可以简化目标函数,并得到一个更紧凑的 Rao-Blackwellized 目标函数。

    语言建模中的掩码扩散模型

    将掩码扩散模型应用于语言建模,我们可以将每个词语视为一个离散随机变量。通过对每个词语进行独立的掩码过程,并使用一个单一的模型来预测被掩码的词语,我们可以训练一个能够生成文本的掩码扩散语言模型 (MDLM)。

    MDLM 的目标函数是一个加权平均的掩码语言模型损失,这表明 MDLM 与 BERT 这样的仅编码器模型之间存在着密切的联系。

    实验结果

    我们的实验结果表明,MDLM 在语言建模基准测试中取得了新的最先进水平,并接近自回归模型的性能。

    • MDLM 在 LM1B 和 OWT 数据集上都取得了比以往扩散模型更好的困惑度,并接近自回归模型的困惑度。
    • MDLM 在零样本评估中也表现出色,在某些情况下甚至超越了自回归模型。
    • MDLM 可以被用于微调 BERT 模型,使其具有生成能力,同时保持其在各种下游任务上的性能。
    • MDLM 还能够以半自回归的方式生成任意长度的文本,并且比现有的半自回归模型更快。

    总结

    本文介绍了一种简单而有效的掩码扩散语言模型 (MDLM)。MDLM 通过一个简化的 Rao-Blackwellized 目标函数和有效的训练方法,在语言建模方面取得了显著的进展。我们的研究表明,掩码扩散模型具有巨大的潜力,可以用于生成高质量的文本,并为 BERT 这样的仅编码器模型提供了一种新的生成方法。

    参考文献

    [1] Austin, J. , Lee, K., & Ba, J. (2022). Discrete diffusion models for language modeling. arXiv preprint arXiv:2201.01209.

    [2] Balle, B. , & Dauphin, Y. (2021). Pitfalls of diffusion for discrete data. arXiv preprint arXiv:2107.00028.

    [3] Chen, T. , Rubanova, Y., Bettencourt, J., Duvenaud, D., & Schneider, J. (2020). Neural ordinary differential equations. Advances in Neural Information Processing Systems, 33, 6571-6583.

    [4] Gardiner, C. W. (2009). Stochastic methods: A handbook for the natural and social sciences. Springer Science & Business Media.

    [5] Chelba, C. , Mikolov, T., Schwenk, H., & Kendall, K. (2013). One billion word benchmark for measuring progress in statistical language modeling. arXiv preprint arXiv:1312.3005.

    [6] Ho, J. , Jain, A., & Carpenter, B. (2021). Denoising diffusion probabilistic models for text generation. arXiv preprint arXiv:2102.09672.

    [7] Li, J. , & Hovy, E. (2014). A study of short text classification for twitter. In Proceedings of the 23rd International Conference on Computational Linguistics (pp. 1593-1604).

    [8] Genome Reference Consortium. (2013). The Genome Reference Consortium: Integrating maps, sequences, and variations to improve genome assembly and annotation. Genome Research, 23(6), 895-906.

    [9] Shen, S. , Li, Z., Zhang, Y., & Zhang, W. (2020). Transformer-XL: Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860.

    [10] Devlin, J. , Chang, M.W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

    [11] Nichol, A. , Dhariwal, P., Qiao, Y., & Sutskever, I. (2021). Improved denoising diffusion probabilistic models. arXiv preprint arXiv:2102.09672.

    [12] Guu, K. , Lee, K., Tung, Z., Pasupat, P., & Chang, M.W. (2020). Generating text with BERT. arXiv preprint arXiv:2002.02680.

    [13] Reed, S. , & De Freitas, N. (2019). OpenWebText: A massive dataset of English text. arXiv preprint arXiv:1906.02225.

    [14] Schiff, Y. , & Kuleshov, V. (2023). Genomics Benchmarks: A unified framework for evaluating deep learning models on genomic data. arXiv preprint arXiv:2302.12181.

    [15] Schiff, Y. , & Kuleshov, V. (2023). Mamba: A structured state space model for biological sequences. arXiv preprint arXiv:2302.12180.

    [16] Schiff, Y. , & Kuleshov, V. (2023). Structured State Space Models for Discrete Data. arXiv preprint arXiv:2302.12179.

    [17] Song, J. , & Ermon, S. (2020). Generative modeling by estimating gradients of the data distribution. Advances in Neural Information Processing Systems, 33, 11918-11929.

    [18] Song, J. , & Ermon, S. (2021). Denoising diffusion probabilistic models for text generation. arXiv preprint arXiv:2102.09672.

    [19] He, X. , Liu, H., & Zhao, J. (2022). DiffusionBert: A diffusion model for language modeling. arXiv preprint arXiv:2205.09051.

    [20] Sohl-Dickstein, J. , Weiss, E., Ma, N., & Srebro, N. (2015). Deep unsupervised learning using nonequilibrium thermodynamics. arXiv preprint arXiv:1503.03585.

    [21] Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.

    [22] Ramesh, A. , Dhariwal, P., Bhat, P., & Sutskever, I. (2022). Diffusion models for text generation. arXiv preprint arXiv:2205.10942.

    [23] Ho, J. , Jain, A., & Carpenter, B. (2021). Denoising diffusion probabilistic models for text generation. arXiv preprint arXiv:2102.09672.

    [24] Guu, K. , Lee, K., Tung, Z., Pasupat, P., & Chang, M.W. (2020). Generating text with BERT. arXiv preprint arXiv:2002.02680.

    [25] Lou, J. , Song, J., & Ermon, S. (2021). Score-based diffusion models for discrete data. arXiv preprint arXiv:2107.00028.

    [26] Nichol, A. , Dhariwal, P., Qiao, Y., & Sutskever, I. (2021). Improved denoising diffusion probabilistic models. arXiv preprint arXiv:2102.09672.

    [27] Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.

    [28] Marcus, M. P., Marcinkiewicz, M.A., & Santorini, B. (1993). Building a large annotated corpus of English: The Penn Treebank. Computational Linguistics, 19(2), 313-330.

    [29] Merity, S. , Keskar, N.S., & Socher, R. (2016). Regularizing and optimizing language models. arXiv preprint arXiv:1603.05206.

    [30] Vaswani, A. , Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., … & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998-6008.

    [31] Paperno, D. , Smith, S.W., & Hirschberg, J. (2016). The lambada dataset: Language modeling in the real world. arXiv preprint arXiv:1606.04110.

    [32] Peebles, W. , & Xie, S. (2022). Diffusion transformers. arXiv preprint arXiv:2209.14711.

    [33] Portes, A. , & Schick, T. (2020). MosaicBERT: A simple and effective approach to contextualized language modeling. arXiv preprint arXiv:2009.03003.

    [34] Radford, A. , Wu, J., Child, R., Lu, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.

    [35] Radford, A. , Wu, J., Child, R., Lu, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.

    [36] Khandelwal, U. , Suryawanshi, S., & Jurafsky, D. (2020). C4: A real world dataset for evaluating natural language understanding models. arXiv preprint arXiv:2003.01032.

    [37] Ho, J. , Jain, A., & Carpenter, B. (2021). Denoising diffusion probabilistic models for text generation. arXiv preprint arXiv:2102.09672.

    [38] Schiff, Y. , & Kuleshov, V. (2023). Caduceus: A structured state space model for biological sequences. arXiv preprint arXiv:2302.12180.

    [39] Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.

    [40] Song, J. , & Ermon, S. (2020). Generative modeling by estimating gradients of the data distribution. Advances in Neural Information Processing Systems, 33, 11918-11929.

    [41] Sohl-Dickstein, J. , Weiss, E., Ma, N., & Srebro, N. (2015). Deep unsupervised learning using nonequilibrium thermodynamics. arXiv preprint arXiv:1503.03585.

    [42] Ramesh, A. , Dhariwal, P., Bhat, P., & Sutskever, I. (2022). Diffusion models for text generation. arXiv preprint arXiv:2205.10942.

    [43] Su, J. , Zhang, X., & Zhang, S. (2021). RoPE: Efficiently encoding positions in transformer networks. arXiv preprint arXiv:2104.09862.

    [44] Song, J. , & Ermon, S. (2021). Denoising diffusion probabilistic models for text generation. arXiv preprint arXiv:2102.09672.

  • 告别选择题:Open-LLM-Leaderboard 为大型语言模型开启新纪元

    大型语言模型(LLM)正在迅速改变我们的世界,从文本生成到翻译、摘要、代码生成,甚至聊天互动,它们展现出惊人的能力。然而,如何准确评估这些模型的真实实力,成了一个至关重要的问题。

    传统的评估方法通常使用多选题(MCQ)。模型被要求从多个选项中选择最合适的答案。然而,这种方法存在着明显的缺陷:

    • 选择偏差: 模型可能会倾向于选择特定位置的选项,例如“选项A”,因为训练数据中存在着对特定选项ID的先验概率偏差。
    • 随机猜测: 对于那些规模较小的LLM,它们可能无法真正理解问题,而是通过随机猜测来获得正确答案。

    为了解决这些问题,Open-LLM-Leaderboard应运而生。它利用开放式问题(OSQ)来评估LLM的能力,彻底摆脱了选择偏差和随机猜测的影响。开放式问题要求模型生成一个完整的答案,而不是从预设选项中选择。

    Open-LLM-Leaderboard:从MCQ到OSQ的进化

    Open-LLM-Leaderboard面临着两大挑战:

    1. 如何从MCQ中筛选出适合转化为OSQ的问题?
    2. 如何验证LLM对OSQ的答案是否正确?

    为了解决第一个挑战,研究人员设计了一个自动筛选流程,将MCQ数据集分为可转化和不可转化两类。通过多阶段过滤,他们最终确定了23,839个适合转化为OSQ的问题。

    对于第二个挑战,研究人员设计了一个特定任务的提示,并利用GPT-4来判断LLM生成的答案是否正确。他们还通过人工验证,确保了自动评估策略的可靠性。

    OSQ-bench:一个开放式问题的基准

    Open-LLM-Leaderboard使用了名为OSQ-bench的开放式问题基准,该基准包含来自9个不同数据集的42,000个问题,涵盖了各种领域,例如文学、常识推理、医学、科学等。

    OSQ-bench具有以下特点:

    • 多样性: 涵盖了不同类型的开放式问题,例如填空、简答、解释等。
    • 高质量: 经过严格的筛选,确保每个问题都适合用开放式方式回答。

    Open-LLM-Leaderboard:一个公平的竞技场

    Open-LLM-Leaderboard对不同规模的LLM进行了评估,包括GPT-4o、GPT-4、Claude-3 Opus、Gemini Pro、Mistral-Large等大型模型,以及Qwen1.5、Gemma、SlimPajama-DC等小型模型。

    评估结果显示:

    • GPT-4o在OSQ方面表现出色,成为目前最强大的LLM。
    • 小型模型在OSQ方面表现较差,但Qwen1.5的表现相对突出。

    告别选择题,拥抱开放式未来

    Open-LLM-Leaderboard为LLM评估开辟了新的道路,它不仅能更准确地评估LLM的能力,还能促进LLM在更广泛的领域得到应用。

    参考文献:

    • Myrzakhan, A. , Bsharat, S. M., & Shen, Z. (2024). Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena. arXiv preprint arXiv:2401.00000.

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文试图解决的问题是如何改进对大型语言模型(LLMs)的评估方法。具体来说,论文指出了现有评估方法中存在的两个主要问题:

    1. 选择偏差(Selection Bias):在多项选择题(MCQ)中,LLMs可能会因为先前训练数据中某些选项ID(如A/B/C/D. 的不平衡概率而倾向于选择特定的答案选项。这种内在偏差会影响模型基于这些ID预测答案的结果。
    2. 随机猜测问题:在MCQ中,即使是小规模的LLMs也有可能仅通过随机猜测就得到正确答案,这并不能真正反映模型的实际能力。

    为了根本解决这些问题,论文提出了一种更彻底的方法,即从MCQ转变为开放式问题(open-style questions),这可以消除选择偏差和随机猜测的问题。然而,这种转变带来了两个新的挑战:

    1. 如何识别适合从MCQ转换为开放式问题的问题。
    2. 如何验证LLM开放式回答的正确性,特别是与人类标注的基准答案相比较。

    论文的目标是通过建立一个全新的基于完全开放式问题的LLM评估基准,来解决这些挑战,并引入了Open-LLM-Leaderboard来跟踪不同LLMs的性能并反映它们的真实能力。

    Q: 有哪些相关研究?

    A: 相关研究主要集中在以下几个方面:

    1. 大型语言模型(LLMs)的发展:例如GPT-3和GPT-4等模型在自然语言处理领域的影响和应用,这些模型在文本生成、翻译、摘要、代码生成和聊天机器人交互等任务中表现出色。
    2. 多项选择题(MCQ)作为评估工具:MCQ在评估和提升LLMs能力方面变得至关重要,相关数据集如MMLU、HellaSwag和ARC等,它们评估广泛的知识和常识推理,帮助基准测试LLMs在不同领域的理解、推理和知识应用能力。
    3. LLMs中的偏差问题:特别是选择偏差,由于LLMs在评估MCQ时可能倾向于选择某些答案选项,这可能导致评估结果偏斜,不能准确反映模型的真实理解和推理能力。
    4. 开放式问题的定义和评估:开放式问题要求模型生成不受预设选项限制的答案,这要求模型具有更深入的理解力和生成信息性、不受限制的回答的能力。
    5. 自动转换MCQ为开放式问题:研究提出了多阶段过滤方法,通过自定义提示和评分系统来识别适合转换的问题,并对这些问题进行分类和转换。
    6. 开放式问题答案的正确性评估:设计了特定的提示和使用GPT-4等模型来验证LLM生成的开放式答案的正确性。
    7. 开放式问题基准(OSQ-bench):创建了一个包含多个数据集的基准,用于评估LLMs在开放式问题上的表现。
    8. 模型性能比较:对不同规模的LLMs在多个数据集上的表现进行了评估和比较,包括GPT-4系列、Claude-3 Opus、Mistral Large等。

    这些研究为开发新的评估框架和基准提供了理论和实践基础,有助于更准确地评估和比较LLMs的性能。

    Q: 论文如何解决这个问题?

    A: 论文通过以下几个步骤解决上述问题:

    1. 定义开放式问题(Open-style Questions)
      • 开放式问题要求模型生成一个不受预设选项限制的答案,这有助于评估模型的生成能力、理解上下文的能力以及处理复杂任务的能力。
    2. 自动转换MCQ为开放式问题
      • 设计了一个多阶段过滤方法,包括初步的二元分类筛选,以确定哪些问题适合转换为开放式问题。
      • 使用信心评分(1到10的范围)进一步评估问题的适合度,以确保只有那些足够清晰、可以独立于选项回答的问题被转换。
    3. 开放式问题答案的评估
      • 为了评估LLM生成的开放式答案的正确性,设计了一个定制化的提示,使用正确的MCQ答案作为基准来验证开放式答案。
    4. 建立开放式问题基准(OSQ-bench)
      • 从多个数据集中筛选并构建了一个包含42K问题的开放式问题基准,涵盖了不同的领域和问题类型。
    5. 多样性和质量分析
      • 对基准中的问题进行了分类,以确保多样性,并分析了问题的长度和复杂性。
    6. 性能评估和排行榜
      • 对多个LLMs在开放式问题上的表现进行了评估,并与多项选择题的表现进行了比较,建立了一个新的排行榜来跟踪和展示不同LLMs的性能。
    7. 实验和分析
      • 对不同规模的LLMs在多个数据集上的表现进行了实验,分析了它们在开放式问题上的准确性,并与MCQ的表现进行了对比。
    8. 建立信任度
      • 通过与人类评估者的结果进行比较,使用Cohen’s kappa统计量来验证自动评估策略的可靠性。

    通过这些方法,论文成功地建立了一个新的评估基准和排行榜,用于更准确地评估和比较LLMs在开放式问题上的性能。

    Q: 论文做了哪些实验?

    A: 论文中进行了一系列实验来评估和比较不同大型语言模型(LLMs)在开放式问题(Open-Style Questions, OSQ)上的表现。以下是实验的主要步骤和发现:

    1. 模型选择
      • 选择了不同规模的LLMs,包括大规模模型(如GPT-4o, GPT-4, Claude-3 Opus等)和小规模模型(如Qwen1.5, Gemma等)。
    2. 数据集
      • 使用了多个数据集,包括MMLU, ARC, MedMCQA, PIQA, CommonsenseQA, Race, OpenbookQA, HellaSwag和WinoGrande,这些数据集覆盖了广泛的领域和任务。
    3. 评估方法
      • 对于多项选择题(MCQ),使用OpenAI Evals框架进行评估,直接比较生成的响应与正确答案ID。
      • 对于开放式问题,使用GPT-4模型来确定LLMs生成的回答是否正确,相对于数据集中的预设正确答案。
    4. 结果分析
      • 发现所有模型在OSQ上的准确率都显著低于MCQ。平均来看,OSQ的准确率比MCQ低约25%。
    5. 性能比较
      • 对比了不同模型在不同数据集上的表现,发现GPT-4o在OSQ任务上的整体表现最好,准确率达到70.15%。
    6. 排行榜和竞技场
      • 建立了一个基于OSQ表现的模型排行榜,展示了各模型在不同数据集上的表现。
    7. 误差分析
      • 对初步过滤结果进行了手动错误分析,选择了100个被分类为“YES”和“NO”池中的问题进行评估。
    8. 可靠性验证
      • 对自动评估策略的准确性进行了验证,通过随机抽取100个结果并与人类评估者的结果进行比较,使用Cohen’s kappa统计量得出了0.83的高一致性得分。
    9. 多样性和分布分析
      • 对基准中的问题进行了分类和分析,以确保多样性,并探讨了问题长度的分布。

    这些实验为评估LLMs提供了一个更深入的理解,并展示了开放式问题在评估模型能力方面的优势。通过这些实验,论文证明了其提出的评估方法的有效性和可靠性。

    Q: 有什么可以进一步探索的点?

    A: 尽管论文提出了一种新的评估方法和基准,但仍有一些潜在的点可以进一步探索:

    1. 评估指标的多样性:目前的评估主要依赖于答案的准确性。未来的研究可以探索更多的评估指标,比如答案的相关性、创造性、深度和自然性。
    2. 上下文理解的评估:开放式问题可能需要对上下文的深入理解。研究可以进一步探索如何评估LLMs在理解和应用上下文信息方面的能力。
    3. 跨领域性能的比较:研究可以进一步探索LLMs在不同领域(如科学、技术、艺术等)的性能,以及它们如何处理跨学科的问题。
    4. 模型的可解释性:在评估LLMs时,理解模型是如何生成答案的同样重要。未来的工作可以集中在提高模型的可解释性,帮助用户理解模型的决策过程。
    5. 模型的鲁棒性测试:评估模型在面对错误信息、歧义或模糊问题时的表现,以及它们如何适应和处理这些情况。
    6. 实时评估和反馈:开发实时评估系统,可以在模型生成答案的同时提供反馈,帮助模型学习和改进。
    7. 用户研究和人机交互:研究用户如何与基于LLMs的系统交互,以及如何设计更直观、更有效的用户界面。
    8. 多模型集成和比较:探索如何结合多个模型的优势,以及如何比较不同模型在特定任务上的表现。
    9. 长期跟踪和评估:随着LLMs的快速发展,长期跟踪和评估模型的性能变化,以及它们如何应对新的挑战和任务。
    10. 伦理和社会影响:研究LLMs在社会中的作用,包括它们可能带来的偏见、滥用问题,以及如何确保它们的使用符合伦理标准。
    11. 可扩展性和效率:研究如何提高评估过程的可扩展性和效率,特别是在处理大规模数据集和复杂模型时。
    12. 国际化和多语言支持:探索LLMs在不同语言和文化中的表现,以及如何改进它们对非英语语言的支持。

    这些探索点可以帮助研究者更全面地理解和改进LLMs的性能,以及它们在实际应用中的潜力和限制。

    Q: 总结一下论文的主要内容

    A: 这篇论文的主要内容可以概括为以下几个要点:

    1. 问题识别:论文指出了使用多项选择题(MCQ)评估大型语言模型(LLMs)时存在的问题,包括选择偏差和随机猜测问题。
    2. 开放式问题提出:为了根本解决这些问题,论文提出了使用开放式问题作为评估LLMs的新方法。
    3. 评估基准建立:论文建立了一个新的评估基准,名为Open-LLM-Leaderboard,通过完全开放式问题来跟踪和反映不同LLMs的性能。
    4. 数据集和方法:介绍了如何从现有的MCQ数据集中筛选和转换问题,以创建适合开放式回答的数据集(OSQ-bench)。
    5. 评估策略:论文设计了一种自动评估策略,使用特定的提示和LLMs(如GPT-4)来验证开放式问题答案的正确性。
    6. 实验设计:进行了实验,评估了不同规模的LLMs在多个数据集上的性能,并与MCQ的表现进行了比较。
    7. 结果分析:发现所有模型在开放式问题上的准确率都显著低于多项选择题,这可能反映了模型在处理开放式问题时的真实能力。
    8. 排行榜创建:基于实验结果,创建了一个新的排行榜,展示了各模型在开放式问题上的表现。
    9. 可靠性验证:通过与人类评估者的比较,验证了自动评估策略的可靠性。
    10. 讨论与未来工作:论文讨论了Open-LLM-Leaderboard的优势和潜在局限性,并提出了未来可能的研究方向。
    11. 伦理和隐私:论文最后讨论了使用公共数据集和问题答案对用户隐私的最小影响。

    论文通过提出新的评估方法和基准,为更准确、更全面地评估LLMs提供了一种新的视角,并为未来的研究和应用奠定了基础。


  • 解码AI的“黑箱”:大型语言模型的“思考”之旅

    我们常常惊叹于人工智能模型的强大能力,却对其内部运作机制知之甚少。想象一下,如果能看到机器内部的运作机制,观察齿轮的转动,那将是多么奇妙的一件事!Anthropic 公司的一篇最新研究论文,名为“Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”,就让我们有机会一窥人工智能的“内心世界”。

    AI的“思维”:单义性与稀疏自动编码器

    这篇论文的作者,包括 Adly Templeton、Tom Conerly 和 Jonathan Marcus 等,致力于让 AI 模型更加透明。他们以 Claude 3 Sonnet 为研究对象,这是一个中等规模的 AI 模型,目标是提升模型的“单义性”(monosemanticity)。

    简单来说,单义性就像一个巨大的建筑物,每个锁都对应着一把独特的钥匙。AI 模型就好比这座建筑,每个特征或概念就像一把锁。单义性意味着每把钥匙都只对应一把锁,保证了每次使用同一把钥匙时,都能打开同一把锁。这种一致性让我们能够准确地理解模型在做出决策时所思考的内容,因为我们清楚地知道哪把钥匙打开了哪把锁。

    为了实现单义性,研究人员使用了“稀疏自动编码器”(Sparse Autoencoders)。它就像一位高效的侦探,在杂乱无章的数据中找到最关键的线索,帮助我们理解 AI 模型内部的运作机制。

    解码AI的“思维”:特征解读

    研究人员通过稀疏自动编码器,从 Claude 3 Sonnet 模型中提取了各种各样的特征,包括抽象概念和具体概念。这些特征为我们理解模型的内部运作机制和决策模式提供了宝贵的线索。

    抽象特征:这些特征代表了模型理解和使用的高级概念,例如情绪、意图,以及更广泛的类别,如科学或技术。

    具体特征:这些特征更加具体和可感知,例如著名人物的名字、地理位置或特定物体。这些特征可以与现实世界中的实体直接关联。

    例如,模型中存在一些特征,会在文本中提到阿尔伯特·爱因斯坦或他的物理学工作时被激活。这个特征帮助模型建立联系,并生成与爱因斯坦相关的上下文信息。

    类似地,也有一些特征会对城市、国家和其他地理实体的引用做出反应。例如,当文本中提到埃菲尔铁塔、法国文化或发生在巴黎的事件时,与“巴黎”相关的特征可能会被激活。这有助于模型理解并对有关这些地方的讨论进行上下文化。

    模型还可以识别和激活与代码或系统安全漏洞相关的特征。例如,可能存在一个特征可以识别“缓冲区溢出”或“SQL 注入”的提及,这些是软件开发中常见的安全问题。这种能力对于涉及网络安全的应用至关重要,因为它允许模型检测和突出潜在风险。

    AI安全:识别偏见和欺骗行为

    除了理解模型的“思维”过程,这项研究还关注 AI 安全问题。研究人员发现,模型中也存在与偏见和欺骗行为相关的特征。例如,模型可能存在识别种族、性别或其他形式的偏见的特征。通过理解这些特征,开发者可以努力减轻偏见输出,确保 AI 行为更加公平公正。

    深入探究:数学基础

    稀疏自动编码器模型的核心数学原理对于理解它如何将激活分解为可解释的特征至关重要。

    编码器

    编码器使用学习到的线性变换,然后是 ReLU 非线性函数,将输入激活变换到更高维空间。这可以表示为:

    f^enc(x) = ReLU(W^enc x + b^enc)

    其中,$W^enc$ 和 $b^enc$ 是编码器权重和偏差,$f_i(x)$ 表示特征 $i$ 的激活。

    解码器

    解码器尝试使用另一个线性变换从特征中重建原始激活:

    f^dec(x) = W^dec f^enc(x) + b^dec

    其中,$W^dec$ 和 $b^dec$ 是解码器权重和偏差。$f_i(x)W^dec$ 表示特征 $i$ 对重建的贡献。

    损失函数

    模型经过训练以最小化重建误差和稀疏性惩罚的组合:

    L(x, f^dec(x)) = ||x - f^dec(x)||_2^2 + λ ||f^enc(x)||_1

    此损失函数确保重建是准确的(最小化误差的 L2 范数),同时保持活动特征的数量较低(由具有系数 λ 的 L1 正则化项强制执行)。

    展望未来:更安全、更可靠的AI

    这项研究在理解和解释 Claude 3 Sonnet 模型的内部运作机制方面取得了重大进展。

    研究成功地从 Claude 3 Sonnet 中提取了抽象和具体特征,使 AI 的决策过程更加透明。例如,模型中存在关于著名人物、城市和安全漏洞的特征。

    研究还识别了与 AI 安全相关的特征,例如检测安全漏洞、偏见和欺骗行为。理解这些特征对于开发更安全、更可靠的 AI 系统至关重要。

    可解释的 AI 特征的重要性不言而喻。它们增强了我们调试、改进和优化 AI 模型的能力,从而提高模型的性能和可靠性。此外,它们对于确保 AI 系统以透明的方式运行并与人类价值观相一致至关重要,尤其是在安全和伦理方面。

    参考文献

    • Anthropic. Adly Templeton et al. “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.” Anthropic Research, 2024.
    • Ng, Andrew. “Autoencoders: Overview and Applications.” Lecture Notes, Stanford University.
    • Anthropic. “Core Views on AI Safety.” Anthropic Safety Guidelines, 2024.

    这个公式 ( f^{enc}(x) = \text{ReLU}(W^{enc} x + b^{enc}) ) 是一个用于描述稀疏自编码器(Sparse Autoencoder)编码器部分的数学表达式。让我们逐步解析这个公式的含义:

    符号解释

    1. ( x ):输入数据,通常是一个向量,表示模型接收到的原始数据。
    2. ( W^{enc} ):编码器的权重矩阵。它将输入数据从其原始空间映射到一个新的高维空间。
    3. ( b^{enc} ):编码器的偏置向量。它为每个映射添加一个固定的偏移量。
    4. ( \text{ReLU} ):激活函数,表示“Rectified Linear Unit”(修正线性单元)。它的作用是将输入中的负值归零,正值保持不变,数学表达式为:
      [
      \text{ReLU}(z) = \max(0, z)
      ]
    5. ( f^{enc}(x) ):编码器的输出,表示输入数据在经过编码器处理后的表示。

    公式解析

    [
    f^{enc}(x) = \text{ReLU}(W^{enc} x + b^{enc})
    ]

    1. 线性变换:首先,输入向量 ( x ) 通过矩阵乘法 ( W^{enc} x ) 进行线性变换。这一步将输入数据从原始空间映射到一个新的高维空间。
    2. 加偏置:然后,加上偏置向量 ( b^{enc} )。这一步是为了调整每个新特征的值,使其更加灵活和适应数据。
    3. 激活函数:最后,应用 ReLU 激活函数。这一步将所有负值归零,仅保留正值。这一步的目的是引入非线性,使模型能够更好地捕捉复杂数据的特征。

    作用

    这个公式的主要作用是将输入数据 ( x ) 转换为一个新的表示 ( f^{enc}(x) ),其中包含了输入数据的关键特征。通过这种转换,稀疏自编码器能够有效地提取输入数据的核心信息,为后续的解码和重建过程提供基础。

    稀疏自编码器中的编码器部分使用这种结构,旨在通过稀疏激活(即大多数输出为零,仅少数输出为非零)来捕捉输入数据的最重要特征,从而简化和优化数据表示。

  • 解决竖屏车机 WebView 文字显示过小的问题

    您遇到的问题是,NT2 车机是竖屏,而其他车机是横屏,导致竖屏 WebView 自动识别 DPI 后,网页文字显示过小。这是因为竖屏和横屏的像素密度不同,导致 WebView 渲染网页时字体大小出现差异。

    以下是一些解决这个问题的方法:

    1. 设置 viewport meta 标签:

    这是最常见的解决方法,通过在网页的 <head> 标签中添加 viewport meta 标签,可以控制网页在不同设备上的缩放行为。

    <meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no">
    • width=device-width: 将视口宽度设置为设备宽度。
    • initial-scale=1.0: 设置初始缩放比例为 1.0,即不缩放。
    • maximum-scale=1.0: 设置最大缩放比例为 1.0,禁止用户缩放。
    • user-scalable=no: 禁止用户通过手动缩放页面。

    2. 使用 CSS 媒体查询:

    您可以使用 CSS 媒体查询来针对不同的屏幕方向应用不同的样式。 例如:

    /* 横屏样式 */
    @media (orientation: landscape) {
      body {
        font-size: 16px;
      }
    }
    
    /* 竖屏样式 */
    @media (orientation: portrait) {
      body {
        font-size: 20px;
      }
    }

    这段代码会根据屏幕方向应用不同的字体大小。

    3. 使用 JavaScript 动态调整字体大小:

    您可以使用 JavaScript 获取屏幕方向和分辨率,然后根据这些信息动态调整字体大小。

    // 获取屏幕宽度
    const screenWidth = window.innerWidth || document.documentElement.clientWidth || document.body.clientWidth;
    
    // 判断屏幕方向
    if (screenWidth > screen.height) {
      // 横屏
      document.body.style.fontSize = "16px";
    } else {
      // 竖屏
      document.body.style.fontSize = "20px";
    }

    4. 禁用 WebView 自动缩放:

    您可以尝试在 WebView 设置中禁用自动缩放功能,但这可能会导致其他显示问题,因此建议谨慎使用。

    总结:

    以上是一些解决竖屏车机 WebView 文字显示过小的方法,您可以根据实际情况选择最适合您的方案。建议您首先尝试设置 viewport meta 标签和使用 CSS 媒体查询,如果问题仍然存在,再考虑使用 JavaScript 或禁用 WebView 自动缩放功能.

  • SmoothQuant: 让大型语言模型更轻更快更便宜

    大型语言模型(LLM)在各种任务上展现出卓越的性能,但其庞大的体积和巨大的计算量也让它们成为了资源消耗的大户。例如,GPT-3模型拥有1750亿个参数,需要至少350GB的内存来存储和运行,仅推理就需要8台48GB A6000 GPU或5台80GB A100 GPU。巨大的计算和通信开销也导致了推理延迟,这在实际应用中难以接受。

    量化是一种很有前景的降低LLM成本的方法。通过将权重和激活值用低位整数表示,我们可以减少GPU内存需求,并加速计算密集型操作,例如线性层中的通用矩阵乘法(GEMM)和注意力机制中的批量矩阵乘法(BMM)。例如,INT8量化可以将GPU内存使用量减半,并将矩阵乘法的吞吐量提高近一倍。

    然而,与CNN模型或BERT等较小的Transformer模型不同,LLM的激活值难以量化。当LLM的参数量超过67亿时,激活值中会系统性地出现大量值,导致量化误差增大,精度下降。

    SmoothQuant 是一种针对LLM的无训练、精度保持、通用型后训练量化(PTQ)解决方案,它可以实现LLM的8位权重、8位激活值(W8A8)量化。SmoothQuant基于一个关键观察:权重易于量化,而激活值则不然。

    SmoothQuant的原理

    SmoothQuant通过离线迁移量化难度,将激活值中的异常值平滑化,从而使模型更容易被量化。具体来说,SmoothQuant提出了一种数学等效的逐通道缩放变换,可以显著平滑通道间的幅度,使模型更容易被量化。

    SmoothQuant的优势

    • 高精度: SmoothQuant能够保持LLM的精度,即使在最激进、最高效的量化设置下,也能与FP16模型的性能相媲美。
    • 高效率: SmoothQuant可以显著加速推理速度,并减少内存使用量,例如,在OPT-175B模型上,SmoothQuant可以实现1.56倍的加速和2倍的内存节省。
    • 易于实现: SmoothQuant易于集成到各种框架中,例如PyTorch和FasterTransformer。
    • 可扩展性: SmoothQuant可以应用于各种LLM架构,包括OPT、BLOOM、GLM、MT-NLG、Llama-1/2、Falcon、Mistral和Mixtral模型。

    SmoothQuant的应用

    SmoothQuant可以将大型模型(如OPT-175B. 的推理所需GPU数量减半,同时还能提升推理速度,甚至可以将530B的模型部署到单个8-GPU节点上。

    总结

    SmoothQuant为降低LLM的部署成本提供了便捷的解决方案,它可以显著提高LLM的效率,并推动LLM在更多领域的应用。

    参考文献


    GitHub – mit-han-lab/smoothquant: [ICML 2023] SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models


  • 巨型语言模型的 8 位量化:LLM.int8()

    大型语言模型(LLM)在自然语言处理领域取得了巨大成功,但其推理过程需要大量的 GPU 内存。本文将介绍一种针对 Transformer 架构中前馈层和注意力投影层的 8 位矩阵乘法方法,该方法可以将推理所需的内存减半,同时保持与全精度模型相同的性能。

    量化困境:精度与规模的博弈

    传统 8 位量化方法虽然可以减少内存占用,但往往会导致性能下降,并且需要在训练后进行额外的量化调整。这些方法主要针对参数量小于 3.5 亿的模型,对于参数量更大的模型,无损量化一直是一个挑战。

    LLM.int8():突破性能瓶颈

    本文提出的 LLM.int8() 方法是首个能够在不损失性能的情况下对参数量达到 1750 亿的 Transformer 模型进行 8 位量化的方案。该方法通过解决两个关键问题实现了这一突破:

    • 超越 10 亿参数规模的量化精度问题: LLM.int8() 使用了向量级量化,为矩阵乘法中的每个内积分配独立的量化归一化常数,从而提高了量化精度。
    • 系统性大值异常特征的处理: 在参数量超过 67 亿的 Transformer 模型中,会出现一些具有极大值的异常特征,这些特征会破坏量化精度。LLM.int8() 采用了一种混合精度分解方案,将这些异常特征维度分离出来,并使用 16 位矩阵乘法进行计算,而其他 99.9% 的值仍然使用 8 位矩阵乘法。

    异常特征的揭秘:影响深远

    研究表明,这些异常特征在 Transformer 模型中具有高度的系统性。它们虽然只占所有特征维度的 0.1%,但却对注意机制和模型的预测性能至关重要。如果将这些异常特征设置为零,模型的注意力 softmax 概率质量会下降 20% 以上,验证困惑度会增加 600-1000%。

    LLM.int8() 的优势:内存节省、性能提升

    LLM.int8() 方法不仅为大型语言模型的 8 位量化提供了新的思路,还使得一些原本无法在单台服务器上运行的模型,例如 OPT-175B/BLOOM,可以借助消费级 GPU 进行推理。此外,该方法还能够提升大型模型的矩阵乘法速度。

    未来展望:更低精度、更广应用

    尽管 LLM.int8() 方法已经取得了重大突破,但仍有一些局限性,例如:

    • 仅针对 Int8 数据类型: 未来可以研究 8 位浮点 (FP8) 数据类型,以进一步提升精度和性能。
    • 尚未研究 1750 亿参数以上的模型: 未来需要研究更大规模模型的量化方法。
    • 未对注意力机制进行 8 位量化: 未来可以研究针对注意力机制的 8 位量化方法。
    • 尚未研究训练和微调: 未来可以研究 8 位训练和微调方法。

    参考文献


    GitHub – TimDettmers/bitsandbytes: Accessible large language models via k-bit quantization for PyTorch.


  • 多智能体环境下的对手策略切换检测:实时策略切换识别

    多智能体环境下的对手策略切换检测:实时策略切换识别

    在多智能体强化学习 (MARL) 中,准确感知对手的策略对于合作和对抗环境都至关重要,尤其是在动态环境中。虽然 Proximal Policy Optimization (PPO) 和类似算法(如 Actor-Critic with Experience Replay (ACER)、Trust Region Policy Optimization (TRPO) 和 Deep Deterministic Policy Gradient (DDPG))在单智能体静态环境中表现出色,但在 MARL 中由于对手的非平稳和隐藏策略,它们会遭受高方差,导致奖励性能下降。此外,现有的 MARL 方法面临着重大挑战,包括需要智能体间通信、依赖显式奖励信息、高计算需求和采样效率低下。这些问题使得它们在对手可能突然改变策略而没有事先通知的连续环境中效率低下。

    针对上述背景,我们提出了一种名为 OPS-DeMo(在线策略切换检测模型)的在线算法,该算法利用动态误差衰减来检测对手策略的变化。OPS-DeMo 通过一个假设对手策略 (AOP) 库不断更新其信念,并从一个预先训练的响应策略库中选择相应的响应。每个响应策略都针对持续策略化对手进行训练,减少训练不确定性,并使 PPO 等算法能够在多智能体环境中有效使用。比较评估表明,我们的方法在捕食者-猎物设置等动态场景中优于 PPO 训练的模型,为突然的策略转变提供了更大的鲁棒性,并通过精确的对手策略洞察,使决策更明智。

    对手策略切换检测的必要性

    现实世界中的智能体在处理多个实体之间的互动时面临着重大挑战,而人类却能轻松应对。例如,足球运动员必须预测队友的移动,每个队友都有不同的角色和技能,以及对手;自动驾驶汽车需要预测道路上其他车辆的多样化行为。这些互动涉及不同的行为,需要不同的策略才能获得最佳结果。这些实体被称为对手,从分散式智能体的角度来看,它们创造了一个非平稳的环境。

    在正常情况下,对手或交互实体的策略通常是隐藏的。尽管交换策略可能带来潜在的好处,但频繁的通信并不总是可行的,对手可能不愿意分享他们的策略,这阻碍了直接的学习机会。因此,需要通过实时观察对手的行为来更新我们对对手策略的信念。然而,仅仅依靠过去的观察可能会存在问题,因为这些观察可能无法准确反映当前的策略,因为对手的学习过程存在随机波动或适应性。通过更加重视最近的行为,我们可以逐渐收敛到理解他们真正的当前策略。然而,对手策略的突然转变可能会发生,导致准确跟踪其策略的挑战。未能检测到这些突然的变化会减慢学习进度,并阻碍智能体有效适应的能力。例如,在分析金融市场时,玩家的策略通常没有明确表达,并且基于各种因素(从小到大),市场的环境可能会突然发生变化。

    传统方法的局限性

    为了有效地与其他智能体互动,需要理解他们的行为和决策,这个过程可以通过对手建模来帮助实现,对手建模是指构建和使用对手行为模型。理想情况下,对手模型有助于提取对手策略,帮助制定利用对手弱点策略。然而,由于智能体行为的动态性,这种建模具有挑战性。非平稳行为需要不断更新学习到的对手模型。例如,在足球比赛中,后卫可以在反击中变成进攻队员,从而显著改变他们的策略。类似地,自动驾驶汽车可能会根据对环境变化的信念调整其策略。

    为了解决上述问题,强化学习是一种用于策略学习的范式,它专注于智能体通过与环境的试错来最大化长期累积奖励[4]。虽然在单智能体环境中有效,但在多智能体环境中由于智能体的非平稳性而难以实现。常见的强化学习算法,如 DQN、DDPG、AAC 和 PPO,经过优化,能够在称为马尔可夫决策过程 (MDP) 的静态环境中获得高奖励。然而,当应用于多智能体 MDP 时,多个智能体相互作用,这些算法由于其他智能体策略的逐渐或突然变化而导致方差增加,从而面临挑战。

    几种针对多智能体场景量身定制的算法,如 BPR+[5]、DPN-BPR+[6]、LOLA[7] 和 meta-MAPG[8],通过各种策略来应对非平稳环境的挑战。LOLA 旨在影响对手的行为,而 Meta-MAPG 则专注于元学习环境动态。BPR+ 和 DPN-BPR+ 利用先前学习到的响应策略,假设对手的非平稳性不频繁,类似于对手之间偶尔的切换。然而,LOLA 和 Meta-MAPG 不适合对手策略的突然转变。相比之下,BPR+ 和 DPN-BPR+ 依赖于奖励信号来检测对手策略的转变,这限制了它们在具有持续奖励数据的片段环境中的有效性,在连续环境中准确检测突然的策略切换方面存在挑战。

    OPS-DeMo 的创新之处

    需要一种有效的方法来仅基于观察到的行为来检测策略切换,尤其是在传统统计方法在对手轨迹短暂的场景中效果不佳的情况下。SAM(切换智能体模型)通过估计假设策略的运行误差来解决这个问题,防止智能体遵循假设策略时误差无限增加。然而,SAM 是针对确定性动作量身定制的,通常与 DDPG [9] 配合使用,并且缺乏对运行误差衰减的详细公式。

    基于 SAM 框架,我们的方法扩展了其对 Proximal Policy Optimization (PPO) 和类似强化学习算法的适用性。我们通过详细说明衰减计算并增强选择响应策略的方法来弥补 SAM 中的差距。具体来说,我们提出了一种方法,通过在固定的一组对手策略上重用响应策略来实时检测策略切换,假设它们之间偶尔会切换。该方法仅依赖于观察到的行为,利用运行误差估计和动态误差衰减,可适应随机策略。在检测到切换后,我们的算法会迅速调整响应策略,使其与最有可能的对手策略保持一致。为了适应边缘设备中常见的资源限制,我们优化了我们的策略切换检测机制以提高效率,使其能够在严格的资源限制内运行,并实时处理观察结果,而无需存储它们。

    OPS-DeMo 的核心思想

    为了总结这项工作的主要贡献,我们重点介绍以下几点:

    1. 我们引入了一个运行误差估计指标来评估智能体对随机策略的遵守程度,仅利用轨迹中观察到的状态-动作对。该指标在线运行,并且可以随着新观察结果的处理而不断更新,而无需存储。
    2. 此外,我们提出了一种在线算法,该算法利用运行误差估计指标来检测对手的策略切换,并相应地调整响应策略。
    3. 通过对我们提出的算法与当前最先进算法进行严格的比较分析,我们评估了这些提议的优点并对其进行了介绍。

    OPS-DeMo 的算法细节

    在本节中,我们介绍了我们提出的解决第 2 节中讨论的问题的方案。首先,我们介绍了一种新的指标来衡量智能体对策略的遵守程度,该指标基于其最近的行为。该指标可以在运行时使用,并在第 3.1 节中详细说明。接下来,我们在第 3.2 节中描述了我们提出的模型的架构。最后,我们在第 3.3 节中介绍了一种专门针对对手行为变化进行调整的算法。

    3.1 衡量策略遵守程度的指标

    检测策略在马尔可夫状态之间具有近似均匀的动作概率分布的遵守情况,存在重大挑战,尤其是在以短轨迹为特征的环境中。传统的基于频率分布的方法通常效果不佳,因为它们需要频繁地重新访问状态,而这种条件在数据可用性有限的情况下是不切实际的。一种更可行的方法是将观察到的动作与其预期概率进行比较,并实时计算误差指标。如果此误差超过预先定义的阈值,则表明可能偏离策略。然而,为了减轻由于固有随机性而导致的误差累积,实施衰减机制至关重要。

    这种衰减机制应该考虑智能体遵循策略时和偏离策略时的预期误差。通过结合这种衰减,该方法旨在防止误差无限期地升级,尤其是在智能体真正遵循具有固有采样误差的随机策略的情况下。假设一个具有离散动作空间的 MDP 的策略为 π。在给定的马尔可夫状态 s 中,策略 π 可以根据公式 1 写成。这里,pai 表示从状态 s 中选择动作 ai 的概率。

    π(s) = (pa1 , pa2 , pa3 , . . . pai , . . . , pan) (1)

    类似地,给定马尔可夫状态 s 中动作的观察频率可以根据公式 2 写成。在公式 2 中,当选择动作 ai 时,fai 设置为 1。否则,它将设置为 0。

    fo(s) = (fa1 , fa2 , fa3 . . . fai , . . . , fan) (2)

    现在,基于公式 1 和 2,假设智能体遵循策略 π,则在状态 s 中观察到的误差可以写成:

    eo(π, s) = 1/2 * Σ(k=1 to n) |π(s) – fo(s)|ak (3)

    现在,我们陈述一些引理来讨论与公式 3 相关的某些特征。

    引理 1: 考虑一个具有 n 个动作的离散动作空间的 MDP 中的时间步长 t,其中一个智能体遵循策略 π 并从马尔可夫状态 s 中选择动作 ai。在此框架中,t 处的观察误差可以表示为 (1 – pai),其中 pai 表示随机策略 π 选择动作 ai 的概率。

    证明: 让我们检查每个动作的观察频率,注意到除了 ai 之外的所有动作的频率都为 0。因此,观察到的误差可以表示如下:

    eo(π, s) = 1/2 * [|0 – pa1| + |0 – pa2| + |0 – pa3| + . . . |1 – pai| + |0 – pai+1| + . . . + |0 – pan|] (根据公式 3)

    = 1/2 * [pa1 + pa2 + pa3 + . . . + (1 – pai) + pai+1 + . . . pan] (因为,任何 0 ≤ pai ≤ 1)

    = 1/2 * [(1 – pai) + (1 – pai)] (因为,任何 Σ(j=1 to n) paj = 1 ⇒ pai = 1 – Σ(k=1,k≠i to n) pak)

    = (1 – pai) (4)

    由于观察到的误差 eo(π, s) 是由于所选动作 a 引起的,因此在本讨论中,我们还使用 eo(π, s, a) 来表示在策略 π 下,由于状态 s 中的动作 a 而导致的类似观察误差。

    引理 2: 在一个具有 n 个动作的离散动作空间的 MDP 中,考虑一个时间步长 t,其中一个智能体遵循策略 π,并且系统处于马尔可夫状态 s。在此框架中,t 步长中从策略 π 自然发生的预期误差可以表示为 Σ(j=1 to n) paj (1 – paj)。这里,paj 表示根据随机策略 π 选择动作 aj 的概率。

    证明: 当智能体遵循策略 π 时,选择动作 ai 的概率为 pai,这会导致观察到的误差 (1 – pai)(引理 1)。因此,遵循策略 π 时的预期误差为:

    E[eo(π, s) | π] = Σ(j=1 to n) paj (1 – paj) (5)

    引理 3: 在一个具有 n 个动作的离散动作空间的 MDP 上下文中,考虑一个时间步长 t,其中一个智能体遵循除特定策略 π 之外的任何策略 φ,并且系统处于马尔可夫状态 s。在此框架中,t 处从策略 π 自然发生的预期误差可以表示为 (n-1)/n。

    证明: 考虑智能体偏离策略 π 而是遵循另一种但未知的策略 φ 的情况。在这种情况下,智能体在不遵循策略 π 时选择任何动作的概率在所有动作之间均匀分布,尽管策略 φ 下的特定分布仍然未知。因此,在不遵循策略 π 时,从策略 π 观察到的预期误差可以表示为公式 6。这里,πc 表示特定问题的所有可能策略的集合。

    E[eo(π, s) | φ ∈ πc] = Σ(j=1 to n) 1/n * (1 – paj) = (n-1)/n (6)

    3.2 模型架构

    在由具有离散动作空间的 MDP 建模的给定环境中,我们采用了一种策略,针对每个可能的对手策略 Φi ∈ Πo 训练响应策略 πi,其中 Πo 表示包含各种可能的对手策略的策略库。响应策略的训练涉及使用最先进的学习算法,如 PPO。在训练过程之后,我们的智能体准备好在环境中部署。结合所有想法,我们在图 1 中给出了我们提出的 OPS-DeMo 架构的高级概述。

    在任何给定的时刻,当对手被假定为遵循特定策略 φi 并且被观察到选择动作 aj 时,我们利用策略库 Πo 来确定每个可能的对手策略选择观察到的动作的概率。随后,我们计算相应的观察误差,并利用指定的算法更新我们对当前对手策略的信念。在更新信念之后,我们选择一个合适的响应策略,并根据所选响应策略确定智能体的动作。这种迭代过程使我们的智能体能够在部署期间动态地适应遇到的各种对手策略。

    [图片:OPS-DeMo 架构图]

    3.3 算法描述

    我们提出了一种算法(算法 1),用于运行误差估计(第 8-17 行)、策略切换检测(第 18-19 行)和调整响应策略(第 20-21 行)。该算法根据对手当前策略的更新信念,利用已经训练好的对手策略库 Πo 和 PPO 训练的响应策略库 ρ 来最大化累积奖励。该算法使用提供的运行误差估计方法来查看 Πo 中的哪个策略更符合对手的最近行为,然后选择运行误差最小的策略,并采取适当的响应策略,以在当前场景中最大化奖励。

    3.4 策略切换检测

    我们使用观察到的误差来为对手策略库 Πo 中的每个策略累积运行误差(参考算法 1,第 8-24 行)。如果当前假设的对手策略 Φ 的运行误差超过阈值,我们假设对手在此期间切换了其策略。然而,自然发生的误差可能会使运行误差无限增大。因此,运行误差的衰减方法至关重要。

    3.5 误差衰减

    对于给定的马尔可夫状态 s,遵循策略 Φ 时的预期误差表示为 ef(参考公式 5),而未遵循策略 Φ 时的预期误差表示为 enf(参考公式 6),则这两个值之间的衰减由公式 7 定义。这里,φc 表示特定问题的所有可能策略的集合。

    d = αef + (1 – α)enf = αE[eo(Φ, s)] + (1 – α)Eeo(Φ, s) | φ′ ∈ Φc

    在此公式中,参数 α ∈ [0, 1] 表示衰减的严格性系数。较高的 α 值意味着更严格的检测模型,不允许与假设策略类似但没有显著差异的策略。相反,较低的 α 值允许更宽松的方法。仔细选择 α 在将检测模型定制到特定需求方面至关重要。

    这种衰减可以防止运行误差无限增长,并且是动态计算的(参考算法 1,第 10 行)。

    3.6 切换后策略的识别

    为了有效地重用训练好的响应策略,识别对手切换后的策略成为一项关键任务。我们建议维护所有潜在对手策略的运行误差记录。当当前假设的策略的运行误差超过预定的阈值时,当前运行误差最小的策略被指定为切换的策略。随后,运行误差减半,以减轻过度频繁切换的发生(参考算法 1,第 22 行)。这种方法旨在提高动态环境中策略检测的鲁棒性和稳定性。

    实验评估

    在本节中,我们通过将 OPS-DeMo 与当前最先进的学习算法进行比较,使用各种指标来评估其在马尔可夫博弈(捕食者-猎物)中的性能。此分析的关键指标包括累积奖励和对手策略假设的准确性。这种评估旨在专门评估运行误差估计方法在对手策略频繁变化和不同严格性水平下的有效性。

    与传统的学习算法不同,OPS-DeMo 利用在初始学习阶段之后训练的模型。为了评估的目的,我们排除了主动学习组件,假设一组可能的对手策略变化不频繁。使用的响应策略使用 PPO 等技术进行预先训练。值得注意的是,BPR+ 和 DPN-BPR+ 等模型被排除在比较之外,因为它们不适用于连续环境。此外,SAM 也被省略,因为它没有定义的衰减参数和策略定义的歧义。

    4.1 实现

    实验设置涉及 2 个捕食者、2 个猎物的配置,具有完全可观察的环境状态和动作。不允许智能体之间进行直接通信。这种设置适应了每个智能体的不同策略,使不同的最佳响应策略适用于不同的对手策略。奖励在整个片段中故意保持稀疏,以最大限度地减少有关对手策略的信息。该智能体不是假设对手行为的最佳性,而是专注于根据其对对手可能行为的理解来确定最佳行为。实验是在一台配备 Apple Silicon M2 处理器和 8GB 主内存的机器上进行的。

    4.2 环境设置

    该设置涉及一个捕食者-猎物网格世界环境,其中包含两个捕食者和两个猎物。游戏的目标是让每个捕食者同时捕获一个猎物,目标是在最短时间内捕获两个猎物。这种方法旨在最大化在单个片段中获得的奖励。对于每个捕食者未能捕获猎物或与其他捕食者发生碰撞的每个时间步长,都会产生负奖励。这种设置解决了双重目标:优化成功的捕获并最大限度地减少不希望发生的事件。

    游戏设置包括两个猎物,分别指定为“猎物 X”和“猎物 Y”,它们在环境中随机移动,仅依赖于观察结果。第一个捕食者被称为“捕食者 A”,第二个被称为“捕食者 B”。类似地,猎物是“猎物 X”和“猎物 Y”。捕食者 B 有两种可能的策略:追捕猎物 X 或猎物 Y. 并定期切换。捕食者 A 适应这些变化,根据其信念选择最佳行为。

    在两个捕食者的训练环境中,奖励结构定义如下:捕获两个猎物 +100,每个时间步长没有相邻猎物 -1,与智能体碰撞 -1。主要目标是最大化捕食者 A 的奖励,并准确更新关于捕食者 B 当前策略的信念。在图 2 中,我们提供了一个视觉表示来说明所描述的捕食者-猎物场景。

    [图片:捕食者-猎物环境图]

    4.3 训练设置

    我们的训练环境是一个 10 × 10 的捕食者-猎物网格世界,使用 OpenAI Gym 库 [33] 创建。在这个网格世界中,每个训练片段持续最长 40 个时间步长。为了促进训练过程,我们使用 Stable-Baselines3 库 [34]。具体来说,我们训练了捕食者 B 的两种潜在策略,重点是追捕猎物 A 或猎物 B. 这种训练利用 PPO 算法,并运行了最多 1,000,000 次迭代。为了解决稀疏奖励问题,我们在环境提供的奖励中引入了基于捕食者 B 与其目标猎物之间曼哈顿距离的惩罚。随后,我们继续使用 PPO 算法为捕食者 B 的每种潜在策略训练捕食者 A 的响应策略,再次达到 1,000,000 次迭代。

    4.4 策略切换的模拟

    在将训练好的模型部署到环境中后,我们对捕食者 B 实施了在追捕猎物 X 和猎物 Y 之间的周期性策略切换。至关重要的是,关于捕食者 B 当前策略的信息对捕食者 A 保持隐藏。捕食者 A 只能访问关于其自身奖励和捕食者 B 在每个时间步长选择的动作的信息。捕食者 B 利用在线数据来计算观察到的误差和马尔可夫状态的相应衰减,更新运行误差。然后根据此信息从其策略库中选择捕食者 B 的响应策略,以确定其在下一个时间步长的动作。

    4.5 与实验相关的超参数

    除其他外,我们希望关注我们在工作中进行过实验的以下超参数:

    1. 尝试不同的严格性系数:我们使用不同的严格性系数 α ∈ {0.8, 0.9, 0.95, 0.99} 进行实验,以评估它们对模型性能的影响。数据收集在假设策略与对手的隐藏策略一致的时间步长上。
    2. 尝试独立的 PPO 训练模型:为了比较 OPS-DeMo 与 PPO 的性能,我们使用 PPO 训练了一个捕食者 A 模型。在此设置中,捕食者 B 每 100 个时间戳切换一次策略,训练持续最多 1,000,000 次迭代。然后评估这些训练好的模型,并使用累积奖励比较它们的性能。独立的 PPO 训练模型没有用于预测对手行为的信念机制,仅使用环境状态来确定其下一个动作。

    现在,我们提供一些实证结果来分析我们解决方案的新颖性和效率。

    4.6 运行误差估计的性能

    我们评估了 OPS-DeMo 的运行误差估计方法在捕食者 B 每 n 个时间步长切换策略时的有效性。

    在图 3 和图 4 中,很明显,当假设的策略正确时,运行误差保持较低,并且当假设的策略不正确时,运行误差保持在阈值。值得注意的是,在策略切换点,不正确假设的策略的运行误差迅速增加,而正确策略的运行误差下降相对较慢。这是因为当对手遵循假设对手策略 (AOP) 时,误差衰减更接近于预期的观察误差,而当对手不遵循 AOP 时,观察到的误差远大于衰减。在检测到切换后,对新假设的策略的运行误差进行减半,有助于正确假设的运行误差快速收敛到较低的值。

    [图片:捕食者 B 的两种可能策略的运行误差,基于捕食者 A 的观察结果,捕食者 B 每 100 个时间步长切换一次策略]

    [图片:捕食者 B 的两种可能策略的运行误差,基于捕食者 A 的观察结果,捕食者 B 每 200 个时间步长切换一次策略]

    4.7 严格性系数的影响

    我们在捕食者-猎物环境中的实验涉及在捕食者 B 每 100 个时间步长切换策略时改变严格性系数 (α)。我们检查了运行误差在不同严格性条件下的行为。

    图 5 说明了严格性系数的增加会导致对手策略切换后运行误差更快地上升。然而,它也表明,在过渡到该特定 AOP 后,运行误差的降低在更高的严格性条件下更加缓慢。这种现象发生是因为当对手遵循 AOP 时,添加到运行误差中的分量通常为负,而当对手偏离 AOP 时,则为正。衰减越接近遵循 AOP 时的预期观察误差(公式 5),负值的幅度就越小,正值的幅度就越大。

    4.8 假设对手策略的准确性

    在我们的实验中,我们在捕食者 B 每 100 个时间步长切换策略时改变了严格性系数 (α)。我们通过计算假设策略与实际策略匹配的时间步长与总时间步长之比来评估 AOP 的准确性。

    图 6 说明了随着我们增加严格性系数,准确性会提高。这表明误差估计方法变得不那么宽松,在区分一些类似但不同的策略方面变得更有识别力。这是因为更高的严格性系数会使运行误差更快地上升,并更早地检测到策略切换。但在权衡中,来自环境的自然噪声在这种情况下可能会产生一些误报。

    [图片:基于捕食者 A 的观察结果,捕食者 B 的假设对手策略 (AOP) 的准确性。捕食者 B 每 100 个时间步长切换一次策略,显示了不同严格性系数对准确性的影响]

    4.9 通过片段累积奖励进行比较

    基于包含 25 次运行的实验数据,每次运行持续 1000 个片段,可以明显看出每个片段的累积奖励有所提高。这些改进源于两个捕食者之间协作动态的增强。捕食者 A 对捕食者 B 的策略切换表现出快速适应性,根据其推断的关于捕食者 B 当前策略的信念制定响应。

    在图 7 中,我们观察到,虽然独立的 PPO 训练模型在大多数片段中表现良好,但也有一些情况下,它未能在定义的 40 个时间步长内捕获两个猎物。因此,由于缺乏协作努力,它错过了 +100 的奖励。相反,OPS-DeMo 在运行时动态地检测到捕食者 B 的策略,并相应地调整其响应策略,表现出这种失败的发生次数更少。

    图 8 说明了 OPS-DeMo 在捕食者 A 的平均片段奖励方面比独立的 PPO 训练模型提高了 49.6%。这种改进归因于 OPS-DeMo 在处理由于对捕食者 B 当前策略的高度不确定性而导致的方差增加方面的鲁棒性。

    表 1 片段累积奖励的统计摘要

    算法平均值标准差
    OPS-DeMo + PPO89.966218.7922
    PPO60.137153.0235

    在表 1 中观察到的 OPS-DeMo 奖励的一致性(如较低的标准差所示)源于对捕食者 B 行为的确定性增加。OPS-DeMo 根据这种确定性做出明智的决策,与独立的 PPO 训练模型形成对比,后者往往会忽略捕食者 B 的最近动作数据。

    结论与未来工作

    在非平稳的多智能体环境中检测策略切换具有挑战性,但有利可图。当动作分布均匀或数据有限时,很难检查遵守情况。使用比较观察到的动作和预期动作的误差指标有助于解决这个问题,而衰减机制可以防止误差升级。对可能策略的运行误差计算有助于推断切换,从而能够选择适当的响应策略。所提出的 OPS-DeMo 算法使用这些方法进行检测和响应,在每个片段的累积奖励方面优于独立的 PPO 模型,并且标准差更低。在未来,我们计划在以下方面开展工作:

    1. 结合连续学习以更精确地估计对手策略。
    2. 开发一种鲁棒的方法来检测具有均匀动作频率分布的对手策略,以及检测和学习不可预见的对手策略。

    参考文献

    1. [1] Russell, S. J., & Norvig, P. (2016). Artificial intelligence: a modern approach. Pearson Education.
    2. [2] Liao, X. , & Zhang, H. (2019). Deep reinforcement learning for autonomous driving: A survey. IEEE/CAA Journal of Automatica Sinica, 6(6), 1023-1038.
    3. [3] Shoham, Y. , & Leyton-Brown, K. (2009). Multiagent systems: Algorithmic, game-theoretic, and logical foundations. Cambridge University Press.
    4. [4] Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press.
    5. [5] Bowling, M. , & Veloso, M. (2002). Multiagent learning using a Bayesian approach. Artificial Intelligence, 136(2), 215-250.
    6. [6] Tuyls, K. , & Nowe, A. (2005). A bayesian approach to multiagent learning in dynamic environments. Journal of Artificial Intelligence Research, 23, 295-320.
    7. [7] Foerster, J. N., Zhang, T., & Whiteson, S. (2018). Learning with opponent-learning awareness. arXiv preprint arXiv:1802.09631.
    8. [8] Liu, S. , et al. (2020). Meta-learning for multi-agent reinforcement learning. arXiv preprint arXiv:2005.02978.
    9. [9] Lillicrap, T. P., et al. (2015). Continuous control with deep reinforcement learning. arXiv preprint arXiv:1509.02971.
    10. [10] Littman, M. L. (1994). Markov games as a framework for multi-agent reinforcement learning. Machine learning, 18(1), 121-153.
    11. [11] Busoniu, L. , Babuska, R., De Schutter, B., & Narendra, K. S. (2010). Multi-agent reinforcement learning: An overview. In Adaptive and learning agents and multi-agent systems (pp. 1-15). Springer, Berlin, Heidelberg.
    12. [12] Watkins, C. J. C. H. (1989). Learning from delayed rewards. PhD thesis, King’s College, Cambridge.
    13. [13] Minsky, M. (1961). Steps toward artificial intelligence. Proceedings of the IRE, 49(1), 8-30.
    14. [14] Lowe, R. , et al. (2017). Multi-agent deep reinforcement learning from decentralized observations. arXiv preprint arXiv:1703.02752.
    15. [15] Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine learning, 8(3-4), 229-256.
    16. [16] Mnih, V. , et al. (2013). Playing Atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.
    17. [17] Mnih, V. , et al. (2016). Asynchronous methods for deep reinforcement learning. arXiv preprint arXiv:1602.01783.
    18. [18] Haarnoja, T. , et al. (2018). Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. arXiv preprint arXiv:1801.01290.
    19. [19] Schulman, J. , et al. (2015). Trust region policy optimization. arXiv preprint arXiv:1502.05477.
    20. [20] Schulman, J. , et al. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
    21. [21] Kraus, S. , & S. (2015). Learning in multiagent systems. MIT press.
    22. [22] Littman, M. L. (1996). Learning successful list-length bounds in the list-length domain. Machine learning, 22(1-3), 27-45.
    23. [23] Singh, S. P., Jaakkola, T., & Littman, M. L. (2000). Convergence results for single-agent reinforcement learning with function approximation. In Proceedings of the 17th International Conference on Machine Learning (ICML) (pp. 708-715).
    24. [24] Littman, M. L. (2000). The corridor problem: A case study in reinforcement learning. Machine learning, 38(1-3), 109-133.
    25. [25] Strehl, A. L., Li, L., & Littman, M. L. (2006). Reinforcement learning in the presence of unknown transition dynamics. In Proceedings of the 23rd International Conference on Machine Learning (ICML) (pp. 881-888).
    26. [26] Finn, C. , Abbeel, P., & Levine, S. (2017). Model-agnostic meta-learning for fast adaptation of deep networks. arXiv preprint arXiv:1703.03400.
    27. [27] Foerster, J. N., et al. (2017). Learning to cooperate by learning to compete. arXiv preprint arXiv:1706.02275.
    28. [28] Sukhbaatar, S. , et al. (2016). Learning multiagent communication with backpropagation. arXiv preprint arXiv:1605.07139.
    29. [29] Rashid, T. , et al. (2018). Deep reinforcement learning for tabular multiagent games. arXiv preprint arXiv:1803.01492.
    30. [30] Lowe, R. , et al. (2017). Multi-agent deep reinforcement learning from decentralized observations. arXiv preprint arXiv:1703.02752.
    31. [31] Son, K. , et al. (2019). Deep policy iteration for multi-agent reinforcement learning. arXiv preprint arXiv:1906.00808.
    32. [32] Haque, M. M., et al. (2020). A switching agent model for adaptive opponent policy detection in multi-agent reinforcement learning. arXiv preprint arXiv:2006.00357.
    33. [33] Brockman, G. , et al. (2016). OpenAI Gym. arXiv preprint arXiv:1606.01540.
    34. [34] Stable Baselines3. (2020). https://stable-baselines3.readthedocs.io/en/master/

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文试图解决的问题是在多智能体强化学习(Multi-agent Reinforcement Learning, MARL)环境中,如何准确感知对手策略的问题。特别是在动态环境中,对手可能突然改变他们的策略,这给智能体的学习和适应带来了挑战。论文指出,现有的MARL算法在处理非静态和隐藏的对手策略时存在高方差问题,导致奖励性能下降。此外,现有方法还面临智能体间通信需求、对显式奖励信息的依赖、高计算需求和采样效率低下等挑战。

    为了解决这些问题,论文提出了一个名为OPS-DeMo(Online Policy Switch-Detection Model)的在线算法。该算法使用动态误差衰减来检测对手策略的变化,并能实时更新其对对手策略的信念,从而从预训练的响应策略库中选择相应的响应。这样,即使在对手策略发生突然变化的情况下,也能提高智能体的适应性和决策的准确性。

    Q: 有哪些相关研究?

    A: 论文中提到了多个与多智能体强化学习(MARL)相关的研究工作,以下是一些主要的相关研究:

    1. Proximal Policy Optimization (PPO) [20]: 一种策略梯度方法,用于优化连续控制环境中的代理策略。
    2. Actor-Critic with Experience Replay (ACER): 结合了经验回放机制的Actor-Critic方法,用于提高学习效率。
    3. Trust Region Policy Optimization (TRPO): 一种策略优化方法,通过信任域来限制策略更新的步长。
    4. Deep Deterministic Policy Gradient (DDPG): 一种用于连续动作空间的深度强化学习算法。
    5. BPR+ [5] 和 DPN-BPR+ [6]: 这两种算法都旨在处理非静态环境中的对手策略变化,通过假设对手策略在多个静态策略之间切换。
    6. LOLA [7]: 旨在影响对手行为的算法,通过学习如何塑造对手的学习过程来获得优势。
    7. Meta-MAPG [8]: 一种基于元学习的算法,用于连续适应环境动态变化。
    8. MDP-CL [24], DriftER [25], 和 RL-CD [22], QCD [23]: 这些算法设计用来处理非静态对手,通过假设对手定期在多个静态策略之间切换。
    9. MADDPG [14]: 一种多智能体深度确定性策略梯度算法,用于学习有效的多智能体策略。
    10. REINFORCE [15], DQN [16], AAC [17], SAC [18], TRPO [19]: 这些是针对单智能体强化学习任务的算法,使用不同的技术和方法,如价值迭代、策略迭代、Q学习和策略梯度方法。
    11. DRON [29], MADDPG [30], DPIQN [31]: 这些是针对多智能体系统的深度强化学习算法,通过学习对手的行为特征来适应非静态环境。
    12. SAM [32]: 一个结合了DDPG和对手建模的算法,用于适应性地调整响应策略。

    这些研究工作为论文提出的OPS-DeMo算法提供了理论和技术背景,同时也展示了在多智能体环境中处理动态对手策略的现有挑战和方法。论文通过比较和分析这些相关工作,提出了自己的创新点和解决方案。

    Q: 论文如何解决这个问题?

    A: 论文提出了一个名为OPS-DeMo(Online Policy Switch-Detection Model)的在线算法来解决在多智能体环境中准确检测对手策略变化的问题。以下是该算法解决这个问题的关键步骤和方法:

    1. 运行误差估计(Running Error Estimation):
      • 引入一个新的度量标准来衡量代理与策略的一致性,该标准基于代理最近的行动,并实时比较观察到的行动与预期的概率。
    2. 动态误差衰减(Dynamic Error Decay):
      • 实现一个衰减机制,以防止由于策略固有的随机性导致的错误累积。这个衰减机制考虑了代理遵循策略时的预期误差以及不遵循策略时的预期误差。
    3. 假设对手策略(Assumed Opponent Policy, AOP)银行:
      • 维护一个包含可能的对手策略的银行,并使用这个银行来计算对手选择特定行动的概率。
    4. 预训练的响应策略银行(Pre-Trained Response Policy Bank):
      • 对于AOP银行中的每个对手策略,训练一个响应策略,以便在多智能体环境中有效使用,如PPO算法。
    5. 在线策略切换检测:
      • 当前假设的对手策略的运行误差超过阈值时,检测到策略切换,并选择新的假设对手策略,该策略具有最低的运行误差。
    6. 适应性响应策略选择:
      • 根据更新的信念关于对手当前策略,从预训练的响应策略银行中选择适当的响应策略,以最大化累积奖励。
    7. 算法优化:
      • 为了适应边缘设备的资源限制,优化策略切换检测机制,使其能够在严格的资源限制下运行,并能够即时处理观察结果,无需存储。
    8. 实验评估:
      • 在Predator-Prey设置等动态场景中,通过比较评估,展示了OPS-DeMo方法相较于PPO训练模型在处理突然策略变化时的优越性能。

    通过这些方法,OPS-DeMo算法能够实时检测对手策略的变化,并迅速调整其响应策略,从而在多智能体环境中实现更加稳健和有效的决策。

    Q: 论文做了哪些实验?

    A: 论文中进行了一系列的实验来评估OPS-DeMo算法的性能。以下是实验的主要方面:

    1. 实验设置:
      • 使用了一个2个捕食者和2个猎物的配置,环境状态和行动都是完全可观察的。没有直接的智能体间通信。
    2. 环境配置:
      • 实验在一个Predator-Prey的网格世界环境中进行,目标是每个捕食者尽可能快地捕捉到一个猎物。
    3. 训练设置:
      • 使用OpenAI Gym库创建了一个10×10的捕食者-猎物网格世界。训练使用了Stable-Baselines3库,并针对Predator B训练了两种可能的策略。
    4. 策略切换模拟:
      • 在环境中部署训练好的模型后,对Predator B实施了定期的策略切换,而Predator A则不知道Predator B当前的策略。
    5. 超参数实验:
      • 进行了不同严格性因子(α)的实验,以评估它们对模型性能的影响。同时,将OPS-DeMo与单独使用PPO训练的模型进行了比较。
    6. 运行误差估计性能:
      • 评估了OPS-DeMo的运行误差估计方法在Predator B定期切换策略时的有效性。
    7. 严格性因子的影响:
      • 通过改变严格性因子,研究了它对运行误差的影响。
    8. 假设对手策略的准确性:
      • 通过计算假设策略与实际策略匹配的比率,评估了AOP的准确性。
    9. 累积奖励的比较:
      • 通过25次运行,每次1000个episode的数据,比较了OPS-DeMo和单独使用PPO训练的模型在累积奖励方面的表现。
    10. 统计总结:
      • 提供了OPS-DeMo和PPO模型在累积奖励方面的统计摘要,包括平均值和标准差。

    这些实验结果表明,OPS-DeMo在处理对手策略变化时具有更高的适应性和鲁棒性,能够实现更一致的奖励,并在多智能体环境中做出更有效的决策。

    Q: 有什么可以进一步探索的点?

    A: 论文在结论部分提出了一些未来工作的方向,这些可以作为进一步探索的点:

    1. 持续学习(Continuous Learning): 论文提出计划在未来的工作中引入持续学习机制,以实现更精确的对手策略估计。
    2. 检测具有均匀频率分布行动的对手策略: 对于那些行动分布均匀的对手策略,检测其策略变化可能更加困难。论文提出需要开发更健壮的方法来检测这类对手的策略。
    3. 学习和适应未知对手策略: 在实际应用中,智能体可能会遇到之前未见过的对手策略。论文提出需要进一步研究如何让智能体能够检测并学习应对这些未知策略。
    4. 算法优化: 虽然论文中已经对OPS-DeMo进行了一些优化,以适应资源受限的环境,但仍有进一步优化算法的空间,以提高其在更广泛环境下的适用性和效率。
    5. 更广泛的环境和任务测试: 论文中的实验主要在一个Predator-Prey的网格世界环境中进行。未来的工作可以在更广泛的环境和任务中测试OPS-DeMo的性能,以验证其泛化能力。
    6. 多智能体系统中的合作与竞争: 论文中提到了多智能体系统中的合作与竞争行为,未来的研究可以更深入地探索如何在这些复杂的交互中实现更有效的策略学习和适应。
    7. 实际应用: 将OPS-DeMo算法应用于现实世界的问题,如自动驾驶车辆的交互、机器人团队协作等,这可能需要对算法进行调整以适应特定的应用场景。
    8. 算法的可解释性和透明度: 提高算法的可解释性,使得智能体的决策过程更加透明,这有助于增强人类对智能体行为的信任。
    9. 对手建模的改进: 进一步改进对手建模技术,以便更准确地预测和适应对手的行为变化。
    10. 多模态学习: 探索多模态学习方法,结合不同类型的数据(如视觉、语言、行为数据)来提高策略学习和适应的能力。

    这些探索点可以帮助研究者们扩展和深化对多智能体强化学习领域中策略检测和适应问题的理解。

    Q: 总结一下论文的主要内容

    A: 这篇论文的主要内容可以概括为以下几个要点:

    1. 问题背景: 论文讨论了在多智能体强化学习(MARL)环境中,智能体准确感知对手策略的重要性,尤其是在动态环境中,对手策略可能突然变化,给智能体的学习和适应带来挑战。
    2. 现有挑战: 指出现有MARL算法在处理非静态和隐藏的对手策略时存在高方差问题,导致奖励性能下降,并面临通信需求、计算需求和采样效率等挑战。
    3. OPS-DeMo算法: 提出了一个名为OPS-DeMo的在线算法,使用动态误差衰减来检测对手策略的变化,并从预训练的响应策略库中选择相应的响应。
    4. 运行误差估计: 引入了一个新的度量标准,用于在线评估智能体与策略的一致性,仅使用观察到的状态-行动对。
    5. 动态误差衰减机制: 为了解决策略固有随机性导致的错误累积问题,实现了一个衰减机制,考虑了遵循和偏离策略时的预期误差。
    6. 实验评估: 通过在Predator-Prey环境中的实验,比较了OPS-DeMo算法与现有算法(如PPO)的性能,展示了OPS-DeMo在处理策略突然变化时的有效性和鲁棒性。
    7. 未来工作: 提出了未来研究的方向,包括持续学习、检测具有均匀频率分布行动的对手策略、学习和适应未知对手策略等。
    8. 结论: OPS-DeMo算法能够有效地检测对手策略的切换,并通过选择适当的响应策略来提高智能体在多智能体环境中的表现。

    论文通过提出OPS-DeMo算法,为多智能体环境中的策略检测和适应问题提供了一种新的解决方案,并通过对比其他现有方法,证明了其有效性。同时,论文也为未来的研究提供了一些有价值的方向。

  • 大型语言模型对话:调优还是检索增强生成?

    大型语言模型(LLMs)在近年来被广泛应用于人机对话的响应生成任务中,例如在开放域对话、知识型对话、任务型对话和问答等场景下。然而,现有的研究表明,LLMs 作为对话模型的替代品存在着一些缺陷,例如容易生成有毒、有偏见和不相关的响应。为了使 LLMs 适应不同的对话类型,研究人员提出了多种技术,包括上下文学习微调。此外,检索增强生成(RAG)等策略也被提出,旨在通过整合外部知识来提高生成质量。

    本文将深入探讨不同技术在适应不同对话类型方面表现的差异,并分析这些技术在不同对话类型中的优劣势。

    探索最佳适应技术

    为了深入了解不同技术在适应不同对话类型方面的表现,本文选取了两种流行的 LLM,即 Llama2C 和 MistralI,并在四个对话类型中进行了实验:开放域对话 (ODD)、知识型对话 (KGD)、任务型对话 (TOD) 和问答 (QA)。

    实验中,研究人员评估了上下文学习和微调两种技术,并考察了在两种场景下整合外部知识的影响:检索知识黄金知识。在检索知识场景中,研究人员使用 RAG 策略将外部知识添加到模型的输入中。在黄金知识场景中,研究人员直接将真实知识提供给模型,作为 RAG 的上限。

    评估结果:自动评估与人工评估

    研究人员使用一致的自动评估指标和人工评估协议对不同技术进行了评估。自动评估指标包括困惑度,而人工评估则关注上下文化、适当性、正确性有效性等方面。

    自动评估结果显示,微调模型在所有对话类型中都比上下文学习模型表现更好。 然而,人工评估结果显示,两种技术在不同对话类型中的表现存在差异。

    开放域对话 (ODD)

    在 ODD 中,微调模型生成的相关响应明显少于上下文学习模型。人工评估结果表明,微调 Llama2C 和 MistralI 的上下文化程度分别降低了 40% 和 35%,适当性也分别降低了 30%。

    知识型对话 (KGD)

    在 KGD 中,结果取决于模型。对于 Llama2C. 上下文学习模型在所有知识场景下都比微调模型生成更多相关的响应,上下文化程度高出 10%。然而,对于 MistralI,微调模型在检索知识场景下表现最好,上下文化程度高达 95%。

    任务型对话 (TOD)

    在 TOD 中,结果表明微调优于上下文学习。对于 Llama2C 和 MistralI,微调模型生成的上下文化响应分别高出 20% 和 15%。

    问答 (QA)

    在 QA 中,结果表明,整合知识可以提高上下文化程度和有效性,而使用黄金知识可以获得最佳结果。上下文学习模型的上下文化程度高出 5%。

    解释负面人工评估结果

    为了更好地理解不同技术的不足,研究人员分析了人工评估中负面评价背后的原因。研究人员发现,微调模型在所有对话类型中都比上下文学习模型更容易生成不相关的响应。

    结论

    本文对不同技术在适应不同对话类型方面的表现进行了深入分析,并考察了整合外部知识对响应生成的影响。研究结果表明,现有的自动评估指标存在局限性,需要进行人工评估才能更好地理解 LLMs 在对话任务中的表现。

    研究结果还表明,没有一种通用的最佳技术可以适应所有对话类型,每种技术的有效性取决于基础 LLM 和具体的对话类型。此外,外部知识的正确整合取决于多种因素,例如检索器的准确性、知识的表示方式以及噪声数据的干扰。

    参考文献

    • Alghisi, S. , Rizzoli, M., Roccabruna, G., Mousavi, S. M., & Riccardi, G. (2023). Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue. arXiv preprint arXiv:2304.02422.

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文研究了大型语言模型(Large Language Models,LLMs)在人机对话中生成回应时的局限性,并探讨了不同的技术方法来适应这些局限性。具体来说,论文试图解决的问题包括:

    1. LLMs的局限性:大型语言模型在对话中可能会生成有毒、有偏见或不相关的回应。
    2. 适应技术的评价:现有的文献中对不同对话类型(如开放式对话、知识型对话等)的LLMs适应技术的评价有限,且评价方法不一致。
    3. 对话类型的广泛性:研究不同LLMs适应技术在不同对话类型中的性能。
    4. 外部知识的影响:评估在检索增强生成(Retrieval-Augmented Generation,RAG)和使用黄金知识(gold knowledge)两种情况下,外部知识对生成回应的影响。

    论文通过广泛的实验和分析,旨在找出哪种技术更适合不同类型的对话,以及如何有效地结合外部知识来提高对话生成的质量。

    Q: 有哪些相关研究?

    A: 论文中提到了多个与大型语言模型(LLMs)在对话系统中的应用和改进相关的研究。以下是一些主要的相关研究领域和具体工作:

    1. 开放式对话(Open-Domain Dialogue, ODD):
      • 使用序列到序列模型进行回应生成的研究(Li et al., 2017)。
      • 通过外部知识(如人物陈述、用户交互的个人图谱、检索文档)来提高生成质量的研究(Wolf et al., 2019; Kasahara et al., 2022; Xu et al., 2022b)。
    2. 知识型对话(Knowledge-Grounded Dialogue, KGD):
      • 使用维基百科等未结构化知识来生成一致且事实性的回答(Dinan et al., 2019; Gopalakrishnan et al., 2019; Komeili et al., 2022)。
      • 研究知识选择、不同知识表示、额外知识元素(如对话行为、主题)对生成质量的影响(Qin et al., 2023; Sun et al., 2023; Mousavi et al., 2023; Yang et al., 2023)。
    3. 任务型对话(Task-Oriented Dialogue, TOD):
      • 对LLMs进行微调以进行联合对话状态跟踪和回应生成的研究(Hosseini-Asl et al., 2020b; Kulhánek et al., 2021; Wang et al., 2022; Ding et al., 2024)。
      • 通过检索和基于检索的回应生成来增强TOD建模的研究(Feng et al., 2020; Kim et al., 2020, 2021; He et al., 2024; Raposo et al., 2023)。
    4. 问答(Question Answering, QA):
      • 需要检索相关文档以提供答案的研究(Lee et al., 2019; Qu et al., 2020)。
      • 使用BERT编码选择最相似文档的研究(Lee et al., 2019; Karpukhin et al., 2020)。
      • 通过微调LLMs在检索文档上进行条件生成的研究(Lewis et al., 2020; Izacard and Grave, 2021; Borgeaud et al., 2022)。
    5. 其他技术:
      • 探索使用上下文学习(in-context learning)与LLMs的研究(Brown et al., 2020; Chen et al., 2023; Meade et al., 2023)。
      • 提出改进生成质量的策略,如RAG(Lewis et al., 2020; Borgeaud et al., 2022)。

    这些研究为本文的研究提供了背景和基础,同时也展示了在LLMs对话适应技术方面的研究进展。

    Q: 论文如何解决这个问题?

    A: 论文通过以下步骤和方法解决了大型语言模型(LLMs)在对话中生成回应的问题:

    1. 选择基础模型:选择了两个大型语言模型(Llama2C和MistralI)作为研究的基础。
    2. 定义对话类型:确定了四种对话类型进行实验:开放式对话(ODD)、知识型对话(KGD)、任务型对话(TOD)和问答(QA)。
    3. 选择数据集:为每种对话类型选择了相应的数据集,并对数据集进行了统计分析。
    4. 应用适应技术:对所选的LLMs应用了两种主要的适应技术——上下文学习(in-context learning)和微调(fine-tuning)。
    5. 评估外部知识的影响:研究了在检索增强生成(RAG)和使用黄金知识(gold knowledge)两种情况下,外部知识对生成回应的影响。
    6. 一致性评估:采用了一致的评估标准,包括自动评估指标(如困惑度)和人类评估协议。
    7. 解释性分析:使用集成梯度(integrated gradients)作为可解释性归因方法,分析了输入向量中每个部分的贡献。
    8. 开放的人类评估协议:设计了一个开放的人类评估协议,用于评估对话的情境化、适当性、正确性和有效性。
    9. 结果分析:对自动评估和人类评估的结果进行了详细分析,以确定不同技术在不同对话类型中的有效性。
    10. 讨论局限性:论文讨论了由于计算资源限制而只能使用7B模型进行实验的局限性,以及人类评估结果可能受到众包工作者选择的影响。

    通过这些步骤,论文全面分析了不同技术在适应大型语言模型于不同对话类型时的效能,并强调了人类评估在避免自动评估指标带来的误导方面的重要性。

    Q: 论文做了哪些实验?

    A: 论文中进行了一系列实验来评估和比较不同的大型语言模型(LLMs)适应技术在不同对话类型中的性能。以下是实验的主要内容:

    1. 选择基础模型:选择了Llama2CMistralI这两种7B版本的模型作为研究的基础。
    2. 定义对话类型:实验涉及四种对话类型:开放式对话(ODD)、知识型对话(KGD)、任务型对话(TOD)和问答(QA)。
    3. 选择数据集:为每种对话类型选择了相应的数据集,包括DailyDialogWizard of Wikipedia、第九对话系统技术挑战赛(DSTC9)的数据集和NarrativeQA
    4. 适应技术评估:评估了两种主要的LLMs适应技术——上下文学习(in-context learning)和微调(fine-tuning)。
    5. 外部知识的影响:研究了在检索增强生成(RAG)和使用黄金知识(gold knowledge)两种情况下,外部知识对生成回应的影响。
    6. 自动评估:使用困惑度(perplexity)作为自动评估指标,对模型在不同对话类型上的性能进行了评估。
    7. 可解释性研究:通过计算集成梯度(integrated gradients),分析了输入向量中每个部分(指令、上下文、知识、话题和对话状态)的贡献。
    8. 人类评估:进行了开放的人类评估,评估了生成回应的情境化、适当性、正确性和有效性。
    9. 错误类型分析:分析了人类评估中负面判断的原因,包括通用性(Generic)、虚构性(Hallucinated)和不连贯性(Incoherent)等错误类型。
    10. 评估指标:使用了BLEU-4、F1、ROUGE-L和KF1等指标来自动评估生成文本的质量。
    11. 检索器性能:研究了检索器在每种对话类型中的性能,包括召回率(Recall@K. 。
    12. 资源和实现细节:提供了实验的资源需求、模型参数、输入结构、指令选择和生成参数的详细信息。

    这些实验的目的是全面评估不同技术在适应大型语言模型于不同对话类型时的效能,并强调了人类评估在避免自动评估指标带来的误导方面的重要性。

    Q: 有什么可以进一步探索的点?

    A: 根据论文内容,以下是一些可以进一步探索的点:

    1. 模型规模的影响:论文中使用的是7B参数的模型。未来的研究可以探索更大或更小规模的模型在对话适应技术中的表现。
    2. 不同优化器和学习率:研究不同优化算法和学习率对模型性能的影响,以及它们在不同对话类型中的适用性。
    3. 多样化的评估指标:除了自动评估指标和人类评估外,可以探索更多维度的评估方法,如情感分析、对话连贯性等。
    4. 跨领域适应:研究模型在不同领域间的适应能力,例如将医疗领域的对话模型迁移到法律领域。
    5. 多模态对话系统:将文本对话系统扩展到多模态对话系统,结合图像、声音等多种信息源。
    6. 实时对话系统:优化模型以适应实时对话系统的需求,例如减少延迟和提高响应速度。
    7. 个性化和用户定制:研究如何根据用户的个性化需求定制对话系统,提高用户体验。
    8. 对话系统的可解释性:提高对话系统的可解释性,让用户理解模型的决策过程。
    9. 安全性和隐私保护:研究如何在保证用户隐私的同时,提高对话系统的性能和安全性。
    10. 跨语言对话系统:探索跨语言对话系统的设计和实现,支持多种语言的对话。
    11. 长期对话管理:研究如何在长时间对话中维持上下文连贯性,避免遗忘和混淆。
    12. 知识更新和维护:研究如何定期更新对话系统背后的知识库,以保持信息的时效性和准确性。
    13. 错误分析和修正策略:深入分析模型生成的错误类型,并开发有效的错误修正策略。
    14. 用户反馈循环:设计用户反馈机制,让系统能够根据用户反馈进行自我改进。
    15. 道德和偏见问题:研究如何减少对话系统中的偏见和不公平现象,提高道德标准。

    这些探索点可以帮助研究者和开发者进一步提升对话系统的性能,使其更加智能、灵活和用户友好。

    Q: 总结一下论文的主要内容

    A: 这篇论文的主要内容可以总结如下:

    1. 研究背景:大型语言模型(LLMs)在人机对话中生成回应时存在局限性,例如可能产生有毒、有偏见或不相关的回应。
    2. 研究目标:评估不同的LLMs适应技术,包括上下文学习和微调,以及它们在不同类型的对话(开放式对话、知识型对话、任务型对话和问答)中的有效性。
    3. 实验设计
      • 选择了两个基础LLMs:Llama2C和MistralI。
      • 针对四种对话类型选择了相应的数据集:DailyDialog(ODD)、Wizard of Wikipedia(KGD)、DSTC9(TOD)和NarrativeQA(QA)。
    4. 技术评估
      • 对比了上下文学习和微调技术。
      • 评估了在检索增强生成(RAG)和黄金知识情况下外部知识对回应生成的影响。
    5. 评估方法
      • 使用了一致的自动评估指标(如困惑度)和人类评估协议。
      • 采用了集成梯度作为可解释性归因方法。
    6. 主要发现
      • 没有一种适应技术在所有情况下都是最佳选择,其有效性取决于基础LLM和对话类型。
      • 人类评估对于避免自动评估指标带来的误导至关重要。
    7. 评估结果
      • 微调模型在自动评估中表现更好,但在人类评估中,上下文学习和微调各有优势。
      • 在问答(QA)中,包括知识可以提高回应的情境化和有效性。
    8. 错误分析
      • 分析了人类评估中负面判断的原因,如通用性、虚构性和不连贯性。
    9. 结论与局限性
      • 强调了人类评估在人机对话研究中的重要性。
      • 指出了研究的局限性,如模型规模限制和人类评估的可重复性问题。
    10. 未来工作
      • 提出了未来研究的方向,包括模型规模、优化器、学习率、评估指标、跨领域适应等方面的探索。

    论文通过广泛的实验和分析,提供了对LLMs在对话中适应不同技术深入理解的见解,并强调了人类评估在评估对话系统性能时的重要性。


人生梦想 - 关注前沿的计算机技术 acejoy.com