分类: 🌏

  • 理解越狱成功:大型语言模型中潜在空间动态的研究

    在大规模生成式AI模型(Large Language Models, LLMs)越来越普及的今天,确保这些模型输出的安全性成为了一个重要问题。尽管模型提供者采用了强化学习(Reinforcement Learning from Human Feedback, RLHF)和安全过滤等方法来防止模型生成有害内容,但仍有一些方法可以绕过这些安全措施,导致模型输出不当内容。这些方法被称为“越狱”(jailbreaks)。本文旨在深入理解不同类型的越狱方法是如何工作的,并探讨可能的对策。

    研究方法

    数据与模型

    本研究聚焦于Vicuna 13B v1.5模型,并使用了一组包含24种越狱类型和352个有害提示的数据集。

    测量越狱成功

    越狱成功率(Attack Success Rate, ASR)是通过Llama Guard 2 8B和Llama 3 8B模型的判断以及人工检查来计算的。

    激活模式分析

    研究使用主成分分析(PCA)来分析模型不同层次中不同越狱类型的激活模式,以识别相似行为的簇。

    越狱向量的相似性与可转移性

    通过计算越狱提示和非越狱提示之间激活的平均差异,提取每种越狱类型的越狱向量。使用余弦相似度来评估这些向量之间的相似性,并测试这些向量在其他越狱类型中的转移性,即使用它们来引导模型远离生成有害输出。

    有害性抑制分析

    研究探讨越狱是否通过减少模型对提示有害性的感知来成功。通过分析模型在越狱提示上的激活与预定义的“有害性向量”之间的余弦相似度来实现这一点。

    关键发现

    激活聚类

    越狱激活根据其语义攻击类型聚类,表明存在共享的内部机制。

    越狱向量的相似性

    不同类别的越狱向量显示出显著的余弦相似性,表明这些向量可以在不同的越狱类型之间进行交叉缓解。

    越狱向量的可转移性

    使用一种越狱类型的越狱向量可以降低其他越狱类型的成功率,即使这些越狱类型在语义上不相似。

    有害性抑制

    成功的越狱,特别是涉及样式操纵和人格采用的越狱,有效地减少了模型对提示有害性的感知。

    启示

    开发稳健的对策

    研究结果表明,通过针对成功攻击的共享机制,可以开发出可推广的越狱对策。

    对越狱动态的机制理解

    本研究提供了关于越狱如何利用LLMs内部工作原理的宝贵见解,为更有效的对齐策略铺平了道路。

    限制

    • 本研究仅聚焦于单一LLM(Vicuna 13B v1.5),限制了发现的普遍性。
    • 研究主要考察了一组特定的越狱类型,可能忽略了其他成功的攻击向量。

    结论

    本文揭示了LLMs中越狱成功的潜在空间动态。研究结果强调了通过利用不同越狱类型的共享机制来开发稳健对策的潜力。需要进一步研究以探索这些发现对各种LLM架构和攻击策略的普遍性。

    参考文献

    1. Achiam, J. , et al. (2023). GPT-4 technical report. arXiv preprint arXiv:2303.08774.
    2. Bai, Y. , et al. (2022a). Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862.
    3. Chao, P. , et al. (2023). Jailbreaking black box large language models in twenty queries. arXiv preprint arXiv:2310.08419.
    4. Lee, A. , et al. (2024). A mechanistic understanding of alignment algorithms: A case study on DPO and toxicity. arXiv preprint arXiv:2401.01967.
    5. Wei, A. , et al. (2024). Jailbroken: How does LLM safety training fail? Advances in Neural Information Processing Systems, 36.
  • Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models – A Summary

    This research paper delves into the mechanisms behind the success of jailbreaking techniques used to elicit harmful responses from Large Language Models (LLMs) despite implemented safety measures.

    Here’s a breakdown of the key aspects:

    Problem: LLMs are trained to refuse harmful requests. However, jailbreak attacks can circumvent these safeguards, posing a challenge to model alignment.

    Goal: This study aims to understand how different jailbreak types work and identify potential countermeasures.

    Methodology:

    1. Data and Models: The research focuses on the Vicuna 13B v1.5 model and utilizes a dataset of 24 jailbreak types applied to 352 harmful prompts.
    2. Measuring Jailbreak Success: Jailbreak success is measured using Attack Success Rate (ASR) calculated based on the judgment of Llama Guard 2 8B, Llama 3 8B, and manual inspection.
    3. Analyzing Activation Patterns: Principal Component Analysis (PCA) is used to analyze the activation patterns of different jailbreak types in the model’s layers to identify clusters of similar behavior.
    4. Similarity and Transferability of Jailbreak Vectors: Jailbreak vectors are extracted for each type by calculating the mean difference in activations between jailbroken and non-jailbroken prompts. Cosine similarity is used to assess the similarity between these vectors. The transferability of these vectors is tested by using them to steer the model away from generating harmful outputs for other jailbreak types.
    5. Harmfulness Suppression Analysis: The study investigates whether jailbreaks succeed by reducing the model’s perception of harmfulness. This is done by analyzing the cosine similarity between the model’s activations on jailbroken prompts and a pre-defined “harmfulness vector.”

    Key Findings:

    • Activation Clustering: Jailbreak activations cluster according to their semantic attack type, suggesting shared underlying mechanisms.
    • Jailbreak Vector Similarity: Jailbreak vectors from different classes show significant cosine similarity, indicating potential for cross-mitigation.
    • Transferability of Jailbreak Vectors: Steering the model with a jailbreak vector from one class can reduce the success rate of other jailbreak types, even those semantically dissimilar.
    • Harmfulness Suppression: Successful jailbreaks, particularly those involving style manipulation and persona adoption, effectively reduce the model’s perception of harmfulness.

    Implications:

    • Developing Robust Countermeasures: The findings suggest that developing generalizable jailbreak countermeasures is possible by targeting the shared mechanisms of successful attacks.
    • Mechanistic Understanding of Jailbreak Dynamics: The research provides valuable insights into how jailbreaks exploit the internal workings of LLMs, paving the way for more effective alignment strategies.

    Limitations:

    • The study focuses on a single LLM (Vicuna 13B v1.5), limiting the generalizability of findings to other models.
    • The research primarily examines a specific set of jailbreak types, potentially overlooking other successful attack vectors.

    Conclusion:

    This paper sheds light on the latent space dynamics of jailbreak success in LLMs. The findings highlight the potential for developing robust countermeasures by leveraging the shared mechanisms underlying different jailbreak types. Further research is needed to explore the generalizability of these findings across various LLM architectures and attack strategies.

  • 人工智能模型的组合学习:理论与实践调查

    近年来,人工智能领域取得了长足进步,但要真正实现通用人工智能,我们还需要解决一个关键问题:组合学习。组合学习是指人工智能模型能够将基本概念组合起来,构建更复杂的概念的能力,这对于人类认知,尤其是语言理解和视觉感知至关重要。

    组合学习的五个方面

    组合学习的研究源于对人类语言和认知的观察。学者们从认知科学和语言学角度提出了几个衡量组合学习能力的关键方面:

    • 系统性或新组合 (Systematicity or Novel Composition):模型是否能够将已知的部件和规则系统地重新组合,形成新的表达?例如,模型是否能够理解从未见过的词语组合,例如“红色的大象”?
    • 生产力或长度泛化 (Productivity or Length Generalization):模型是否能够处理比训练数据中更长的表达?例如,模型是否能够理解包含多个嵌套句子的复杂句子?
    • 可替代性或同义词 (Substitutivity or Synonymity):模型是否能够识别同义词,并在表达中进行替换?例如,模型是否能够理解“甜甜圈”和“炸面包圈”是同一个意思?
    • 局部性 (Localism):模型是否能够理解局部和全局的组合关系?例如,模型是否能够理解一个词语在不同句子中的不同含义?
    • 过度泛化 (Overgeneralization):模型是否能够识别规则的例外情况?例如,模型是否能够理解“break”的过去式是“broke”,而不是“breaked”?

    组合学习的抽象任务和数据集

    为了评估人工智能模型的组合学习能力,学者们设计了一系列抽象任务和数据集。以下是一些常用的数据集:

    • CREPE (Compositional REPresentation Evaluation benchmark):该数据集包含多个子集,其中一个子集专门用于评估模型的系统性。任务是根据图片生成描述,测试模型是否能够将已知的概念组合成新的描述。
    • SCAN (Simplified CommAI Navigation tasks):该数据集用于评估模型在二维网格世界中根据自然语言指令进行导航的能力。其中一个子集用于评估模型的系统性,测试模型是否能够理解从未见过的指令组合。
    • gSCAN (Grounded SCAN):该数据集是 SCAN 的扩展版本,包含多个子集,每个子集都侧重于测试模型在特定方面的组合能力,例如新物体属性组合、新方向、新上下文引用等。
    • PCFG SET (Probabilistic Context Free Grammar String Edit Task):该数据集是一个人工翻译任务,测试模型是否能够将由概率上下文无关文法生成的序列翻译成表示其含义的序列。该数据集包含多个子集,用于测试系统性、生产力、可替代性、局部性和过度泛化等方面。
    • COGS (Compositional Generalization Challenge):该数据集是一个语义解析任务,测试模型是否能够理解英语句子并将其转化成形式化的语义表示。该数据集包含多个子集,用于测试系统性和生产力等方面。

    组合学习模型

    为了解决组合学习问题,学者们开发了多种人工智能模型,包括:

    • 基本神经网络 (Basic Neural Models):例如 LSTM (Long short-term memory) 和 CNN (Convolutional neural network) 等。这些模型在处理序列数据方面表现出色,但对于组合学习任务来说,它们的能力有限。
    • 基于 Transformer 的架构 (Transformer-based Architectures):Transformer 是一种近年来兴起的强大神经网络架构,在自然语言处理领域取得了巨大成功。大型语言模型 (LLM) 通常采用 Transformer 架构,并在许多组合学习任务中表现出色。
    • 神经符号架构 (Neuro-Symbolic Architectures):神经符号架构将神经网络和符号推理结合起来,旨在构建更强大的组合学习模型。例如,VisProg 是一种神经符号模型,能够根据自然语言指令解决视觉推理任务。

    理论发现

    学者们对组合学习模型进行了大量的理论研究,试图理解它们的局限性和能力。

    • 经典神经网络 (Classical Neural Network):理论研究表明,经典神经网络在处理复杂组合结构方面存在局限性。
    • Transformer:理论研究表明,Transformer 在处理长序列数据时存在精度问题,并且可能无法解决需要处理整个输入信息的任务。
    • 大型语言模型 (Large Language Models):理论研究表明,大型语言模型的组合学习能力可能存在争议,部分研究认为它们只是通过记忆和模式识别来解决问题,而并非真正理解了组合关系。

    讨论和未来方向

    尽管人工智能模型在组合学习方面取得了一定进展,但仍然存在一些挑战:

    • 合成和不现实的评估 (Synthetic and Unrealistic Evaluations):当前大多数组合学习评估方法使用的是合成数据,这可能无法反映真实世界的情况。
    • 大型语言模型评估的挑战 (LLM Evaluation Challenge):大型语言模型的训练数据规模庞大,这使得评估它们的组合学习能力变得困难,因为很难区分它们是真正理解了组合关系,还是仅仅记住了训练数据中的模式。
    • 理论方法的不一致性 (Inconsistent Theoretical Methodology):目前还没有一个完善的理论框架来评估大型语言模型的组合学习能力,这阻碍了我们对它们能力的深入理解。

    未来,组合学习研究需要关注以下方向:

    • 开发更现实的评估方法 (Develop More Realistic Evaluation Methods):使用真实世界数据来评估模型的组合学习能力。
    • 建立更完善的理论框架 (Establish a More Comprehensive Theoretical Framework):开发更严谨的理论方法来分析模型的组合学习能力。
    • 借鉴认知科学 (Draw Inspiration from Cognitive Science):从人类认知机制中汲取灵感,构建更强大的组合学习模型。

    组合学习是实现通用人工智能的关键,需要学者们持续研究和探索。相信随着技术的不断发展,人工智能模型的组合学习能力将会得到进一步提升。

    参考文献

    • [1] Kwangjun Ahn, Sébastien Bubeck, Sinho Chewi, Yin Tat Lee, Felipe Suarez, and Yi Zhang. Learning threshold neurons via the “edge of stability”, 2023.
    • [2] Jacob Andreas, Marcus Rohrbach, Trevor Darrell, and Dan Klein. Neural module networks, 2017.
    • [3] Dzmitry Bahdanau, Harm de Vries, Timothy J. O’Donnell, Shikhar Murty, Philippe Beaudoin, Yoshua Bengio, and Aaron Courville. Closure: Assessing systematic generalization of clevr models, 2020.
    • [4] Dzmitry Bahdanau, Shikhar Murty, Michael Noukhovitch, Thien Huu Nguyen, Harm de Vries, and Aaron Courville. Systematic generalization: What is required and can it be learned?, 2019.
    • [5] David Barrett, Felix Hill, Adam Santoro, Ari Morcos, and Timothy Lillicrap. Measuring abstract reasoning in neural networks. In Jennifer Dy and Andreas Krause, editors, Proceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine Learning Research, pages 511–520. PMLR, 10–15 Jul 2018.

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文《A SURVEY ON COMPOSITIONAL LEARNING OF AI MODELS: THEORETICAL AND EXPERIMENTAL PRACTICES》主要探讨了人工智能模型在组合学习(compositional learning)方面的现状和挑战。组合学习是指理解和操作复杂结构的能力,通过将它们分解为更简单的部分,并重新组合这些部分以形成具有一致理解的新复杂概念。这种能力对于智能体在未观察到的情况下进行泛化学习至关重要。

    尽管组合学习在智能中扮演着内核角色,但目前缺乏系统化的理论及实验研究方法,这使得分析计算模型的组合学习能力变得困难。论文的主要贡献和解决的问题包括:

    1. 文献综述:系统回顾了关于人工智能模型组合学习的文献,并与认知科学研究创建了联系。
    2. 概念识别:识别了认知和语言学研究中组合性抽象概念,并将这些概念与语言和视觉模型在组合推理中面临的计算挑战联系起来。
    3. 定义和任务概述:提供了组合性的形式定义、任务、评估基准、计算模型的种类和理论发现的概览。
    4. 现代研究分析:涵盖了对大型语言模型的现代研究,以深入理解这些最先进人工智能模型展示的尖端组合能力,并指出了未来研究的重要方向。
    5. 理论和实验方法:检视了包括认知方面、计算模型和评估范式在内的组合学习多个方面,既包括理论研究也包括实践应用。

    论文的目标是为理解和改进人工智能模型在处理组合性任务时的能力提供更全面的视角,并推动该领域的研究发展。

    Q: 有哪些相关研究?

    A: 论文中提到了多项与组合学习相关的研究工作,以下是一些主要的研究方向和相关论文:

    1. 认知和语言学中的组合性概念:研究了人类如何从认知、语言学和心理学的角度学习组合性概念,如系统性(systematicity)、生成性(productivity)、替代性(substitutivity)、局部性(localism)和过度泛化(overgeneralization)。
    2. 计算模型:探讨了传统符号AI模型和神经网络模型在组合学习上的能力,包括:
      • 基本神经模型,如LSTM、CNN和Transformers。
      • 基于Transformer的架构,研究了不同配置的Transformer在组合任务上的表现。
      • 神经符号架构,结合了神经网络和符号推理,以提高组合泛化能力。
    3. 评估方法:分析了理论分析和实验分析两种评估方法,包括对不同计算模型的表达能力、组合学习能力和对未观察情况的泛化能力的评估。
    4. 数据集和基准:列举了多个用于评估组合学习的数据集,例如CREPE、SCAN、gSCAN、PCFG SET、CFQ、COGS等,这些数据集针对不同的组合性方面进行了设计。
    5. 理论发现:提供了对经典神经网络、Transformers和现代大型语言模型(LLMs)的组合泛化能力的理论研究结果。
    6. 特定架构的改进:讨论了针对提高组合泛化能力的特定架构改进,例如GroCoT(Grounded Compositional Transformer)和带有Pushdown Layers的Transformer。
    7. 神经符号模型:探讨了神经符号模型在组合学习中的应用,例如使用自然语言解释生成形式规范的方法。
    8. 人类与机器学习:讨论了人类在组合学习方面的认知研究,并与AI模型的表现进行了比较。
    9. 未来研究方向:指出了当前研究中的挑战,并提出了未来研究的方向,如更复杂的组合任务、数据污染问题、理论方法的一致性以及认知动机。

    这些研究工作涵盖了从基础理论到实际应用的广泛领域,旨在推动对人工智能模型组合学习能力的深入理解和改进。

    Q: 论文如何解决这个问题?

    A: 论文通过以下方式解决组合学习的问题:

    1. 文献综述:对现有的关于人工智能模型组合学习的文献进行全面的回顾,以了解当前的研究动态和存在的问题。
    2. 概念界定:明确定义了组合学习中的关键概念,如系统性、生成性、替代性、局部性和过度泛化,并讨论了这些概念在认知科学和语言学中的基础。
    3. 计算模型分析:分析了不同类型的计算模型,包括基本神经网络模型、基于Transformer的架构和神经符号架构,以及它们在处理组合学习任务时的能力和局限性。
    4. 评估方法:提出了评估模型组合学习能力的理论和实验方法,包括对模型表达能力、学习能力和泛化能力的评估。
    5. 数据集和基准:介绍了专门设计用于测试和评估模型组合学习能力的数据集和基准,如CREPE、SCAN、gSCAN等,并讨论了它们在不同组合性方面的应用。
    6. 理论发现:提供了对现有模型组合泛化能力的理论研究结果,包括对经典神经网络、Transformers和大型语言模型的理论分析。
    7. 模型改进建议:基于理论和实验分析的结果,提出了改进模型组合泛化能力的潜在方法,如架构调整、训练策略优化等。
    8. 未来研究方向:指出了当前研究中的挑战和不足,并提出了未来研究的方向,如更复杂的组合任务、数据污染问题、理论方法的一致性以及认知动机的集成。
    9. 跨学科视角:结合了认知科学、语言学和计算机科学等多个学科的研究成果,以促进对组合学习更深入的理解。

    通过这些方法,论文旨在为人工智能领域提供一个关于组合学习的全面视角,并推动该领域的发展。

    Q: 论文做了哪些实验?

    A: 论文《A SURVEY ON COMPOSITIONAL LEARNING OF AI MODELS: THEORETICAL AND EXPERIMENTAL PRACTICES》主要进行了以下类型的实验和分析:

    1. 理论分析:对现有的组合学习理论进行了深入分析,包括对不同计算模型的表达能力、组合学习能力和泛化能力的理论研究。
    2. 模型评估:对不同类型的神经网络模型,如LSTM、CNN和Transformers,在组合学习任务上的表现进行了评估。这包括对模型在系统性、生成性、替代性、局部性和过度泛化等不同组合性方面的表现进行测试。
    3. 数据集分析:使用了多个专门为组合学习设计的基准数据集,如CREPE、SCAN、gSCAN、PCFG SET、CFQ和COGS,来测试和评估模型的组合学习能力。
    4. 架构改进实验:对特定的神经网络架构进行了改进,以提高其在组合任务上的表现。例如,对Transformer架构进行了改进,以解决其在处理复杂组合任务时的局限性。
    5. 神经符号模型实验:探索了结合神经网络和符号推理的神经符号模型在组合学习中的应用,如使用自然语言解释生成形式规范的方法。
    6. 大型语言模型(LLMs)的评估:对大型语言模型在组合学习任务上的表现进行了评估,包括对模型在算法任务、PCFG任务和自然语言外推等任务上的能力进行了测试。
    7. 理论限制研究:对Transformers和其他神经网络模型的理论限制进行了研究,以了解它们在处理无限输入长度和复杂组合任务时的局限性。
    8. 新兴能力的研究:探讨了大型语言模型中所谓的”新兴能力”(emerging abilities),并对其是否真的存在进行了评估。

    这些实验和分析旨在深入理解人工智能模型在组合学习方面的能力,并识别当前模型的局限性和未来的改进方向。论文通过这些实验和分析,为组合学习领域的研究提供了理论和实践的见解。

    Q: 有什么可以进一步探索的点?

    A: 论文在讨论和未来方向部分提出了一些可以进一步探索的关键点,包括:

    1. 合成和不切实际的评估:当前许多评估组合性的测试是合成的,可能无法完全反映现实世界的应用。未来的研究可以探索更接近现实世界数据和任务的评估方法。
    2. 大型语言模型(LLM)的评估挑战:由于数据污染和评估指标的复杂性,对LLMs的组合泛化能力进行评估存在困难。需要更可靠的方法来准确评估这些模型在未观察到的情况下的泛化能力。
    3. 不一致的理论方法:目前缺乏一个统一和实用的理论框架来研究LLMs的局限性和能力。需要更多的理论研究来深入理解模型的泛化能力。
    4. 认知动机:现代AI模型与人类智能之间存在显着差异。未来的研究应该超越当前的技术趋势,构建能够支持知识和理解的因果模型,这些模型应该具有组合性和学习如何学习的能力。
    5. 复杂任务的评估:研究者可以设计更复杂的任务来评估模型的组合学习能力,例如多跳问题回答和组合数学推理。
    6. 数据集和基准的改进:开发新的数据集和基准测试,以更好地测试模型在不同方面的组合学习能力。
    7. 模型架构的创新:探索新的神经网络架构,这些架构可能更适合处理组合任务,例如通过引入递归状态跟踪机制来改进Transformer。
    8. 神经符号模型的进一步研究:深入研究神经符号模型,以利用它们在组合泛化方面的优势,并探索如何将这些方法应用于更广泛的任务。
    9. 人类学习过程的模拟:研究如何更好地模拟人类的学习过程,特别是在组合学习方面,以提高AI模型的泛化能力。
    10. 跨学科研究:鼓励跨学科的研究,结合认知科学、心理学、语言学和计算机科学等领域的知识,以更全面地理解和改进组合学习。

    这些探索点为未来的研究提供了方向,旨在推动人工智能领域在组合学习方面取得新的进展。

    Q: 总结一下论文的主要内容

    A: 这篇论文《A SURVEY ON COMPOSITIONAL LEARNING OF AI MODELS: THEORETICAL AND EXPERIMENTAL PRACTICES》提供了对人工智能模型组合学习能力的全面综述。以下是论文的主要内容总结:

    1. 引言:介绍了组合学习的重要性,它在人类认知中的作用,尤其是在语言理解和视觉感知方面。
    2. 组合学习概念:探讨了组合学习的理论基础,包括系统性、生成性、替代性、局部性和过度泛化等概念。
    3. 抽象任务和数据集:分析了评估模型组合学习能力的不同任务和数据集,如CREPE、SCAN、gSCAN、PCFG SET、CFQ和COGS等。
    4. 组合学习模型:概述了不同类型的计算模型,包括基本神经网络模型、基于Transformer的架构和神经符号架构。
    5. 理论发现:提供了对经典神经网络、Transformers和大型语言模型的组合泛化能力的理论研究结果。
    6. 实验方法:讨论了评估模型组合学习能力的实验方法,包括对模型在不同组合性方面的表现进行测试。
    7. 讨论和未来方向:指出了当前研究中的挑战,如合成和不切实际的评估、LLM的评估挑战、不一致的理论方法和认知动机的缺乏,并提出了未来研究的方向。
    8. 结论:总结了论文的主要发现,并强调了进一步研究的必要性,以提高人工智能模型在组合学习方面的能力。

    论文通过综述现有的研究、分析不同的模型和评估方法,并讨论未来的研究方向,为理解和改进人工智能模型的组合学习能力提供了宝贵的见解。

  • 赋予对话系统“大脑”:从神经科学到虚拟接待员

    随着聊天机器人、语言模型和语音技术的快速发展,人们越来越渴望创造能够通过自然语言或直接语音与人类无缝交互的系统。本文将探讨如何将对话系统研究置于具身智能的更广阔背景下,借鉴神经生物学和神经心理学中的概念,定义一种能够融合手工设计和人工神经网络的行为架构,为未来模仿学习或指令学习等新学习方法打开大门。

    传统对话系统的局限性

    传统的语音助手通常采用一种简单的线性信息流架构,从语音识别到自然语言理解,再到对话管理和自然语言生成,最终输出文本或语音。这种架构虽然在处理简单任务方面表现出色,但面临着一些挑战:

    • 数据依赖性强: 机器学习方法需要大量对话数据进行训练,这在一些领域难以获得。
    • 奖励函数定义困难: 强化学习方法需要定义合适的奖励函数,这在复杂对话场景中非常困难。
    • 可控性/可解释性有限: 基于统计的深度神经网络方法的可控性和可解释性较差。

    另一方面,手工设计的对话系统虽然易于开发,可控性高,但扩展性存在局限,难以应对复杂多变的对话场景。

    借鉴神经科学:Miron系统

    本文提出了一种名为“Miron”的系统,其灵感来源于神经科学中的镜像神经元理论。镜像神经元在动物执行特定动作时以及观察其他个体执行相同动作时都会被激活,这表明动作理解和动作生成可能共享相同的表征。

    Miron系统将这一概念应用于自然语言理解 (NLU) 和自然语言生成 (NLG) 模块,将一个特定的意图 (intent) 与一组用于识别和生成该意图的模板句子联系起来。每个Miron还包含一个可选的数据结构,用于描述模板句子中使用的命名实体 (named entities),例如日期、地点、人物等。

    Miron系统的优势:

    • 统一识别和生成: Miron系统使用相同的模板句子进行识别和生成,简化了设计过程。
    • 可扩展性: Miron模板可以生成大量句子,为统计 NLU 模型提供训练数据。
    • 模仿学习的潜力: Miron系统为通过观察和模仿学习对话行为提供了可能性。

    具身智能和多模态交互

    除了文本对话,具身智能系统还可以通过虚拟化身或物理机器人与人类进行多模态交互,例如眼神、表情、手势等。Miron系统可以通过文本形式表示多模态信息,实现多模态交互。

    对话/行为引擎:基于递归神经网络的架构

    为了处理异步感知事件 (例如语音、传感器信号) 并生成相应的反应,本文提出了一种基于递归神经网络 (RNN) 的对话/行为引擎。该引擎将状态定义为规则,每个规则对应一个状态,当其条件满足时,就会执行一组关联的动作。

    行为引擎的架构:

    • 条件层: 包含识别到的 Miron 意图、动作完成反馈事件、命名实体状态和工作记忆状态。
    • AND 层: 通过权重矩阵和当前激活的规则,确定哪些规则可以被激活。
    • 预选层: 在多个规则可以被激活的情况下,随机选择一个规则。
    • OR 层: 考虑所有激活的规则,最终确定下一个激活的规则。
    • 动作层: 生成相应的动作,包括内部 Miron 意图、内部动作、工作记忆状态变化等。

    内部语言:模拟人类的思考过程

    人类可以通过“内部语言”进行思考,例如回忆记忆或想象场景。本文借鉴这一概念,允许对话系统通过内部 Miron 意图触发行为,就像外部用户发出指令一样。

    模型驱动开发:图形化 DSL

    为了简化对话/行为的设计过程,本文提出了一种图形化领域特定语言 (DSL),允许开发者通过图形化方式创建对话/行为模型。DSL 包含 Miron 元素和规则元素,分别用于定义语言相关方面 (例如意图、命名实体、模板) 和行为逻辑 (例如条件、动作)。

    对话设计:模块化和参数化

    对话可以看作是机器和用户之间一系列言语行为的交替。为了简化对话设计,本文提出了一种基于回合制 (turn-taking) 的架构,将对话流程分解成多个模块,例如用户模型、响应模型、错误模型、情景分析模块、行为参数化模块和参数化行为模块。

    虚拟接待员:应用案例

    本文使用上述方法开发了一个虚拟接待员系统,该系统运行在一个展台上,由一个虚拟化身代表,用于迎接访客、收集信息、验证访客预约信息并联系相关人员迎接访客。

    系统架构:

    • 化身框架: 提供了用于创建虚拟化身的工具和接口。
    • 语音技术: 集成了文本转语音 (TTS) 和语音识别 (ASR) 模块。
    • 电话/邮件通信: 支持电话和邮件通信功能。
    • 人脸识别和距离检测: 支持人脸识别和距离检测功能。

    对话设计:

    • 模块化: 将对话流程分解成多个模块,例如访客模型、情景分析模块、信息参数化模块和错误处理模块。
    • 冗余设计: 通过提供多种信息和处理错误的方式,提高对话的可靠性。
    • 非语言行为: 使用表情、动作等非语言行为,增强用户体验。

    用户研究:

    用户研究表明,虚拟接待员系统获得了较高的用户满意度,用户认为该系统易用、吸引人且能有效地完成任务。

    总结和未来展望

    本文展示了如何将神经科学中的概念应用于手工设计的对话管理系统,并提出了一种基于模型驱动开发和图形化 DSL 的设计方法。未来,学习方法将是实现可扩展对话系统的关键,而模仿学习、指令学习和课程学习将发挥重要作用。

    参考文献:

    • Alderson-Day, B. , & Fernyhough, C. (2015). Inner Speech: Development, Cognitive Functions,
      Phenomenology, and Neurobiology. Psychol Bull., 141(5), 931-965.
    • Bohus, D. , & Horvitz, E. (2009). Dialog in the open world: platform and applications. In Proceedings of the 2009 international conference on Multimodal interfaces (pp. 31-38).
    • Rizzolatti, G. , & Craighero, L. (2004), The Mirror-Neuron System, Annu. Rev. Neurosci., 27, 169–92.
    • Weinschenk, S. (2011). 100 things every designer needs to know about people. Pearson Education.

    Q. 这篇论文试图解决什么问题?

    A. 这篇论文探讨了如何将类似于大脑的概念引入到具身对话管理系统中,以提高与人类通过自然语言或直接语音进行无缝交互的系统的能力。具体来说,论文试图解决的问题包括:

    对话管理的挑战:在聊天室、数字助手和自然语言用户界面系统中处理对话管理的问题,这通常涉及如何设计和实现有效的对话系统。

    传统方法的局限性:传统的对话管理方法,包括手工设计模型、基于机器学习的解决方案和混合系统,都有各自的局限性,如数据需求量大、奖励函数定义困难、控制性和可解释性有限。

    提高控制性和可解释性:尽管机器学习方法在模拟人类对话自然性方面具有吸引力,但它们在控制性和可解释性方面存在不足。论文提出通过引入神经生物学和神经心理学的概念,可以设计出既具有高控制性又能够适应未来新学习方法(如模仿学习或指令学习)的对话系统。

    扩展到多模态交互:论文还探讨了如何将对话系统扩展到具身智能领域,包括虚拟助手和物理机器人,以及如何通过定义抽象层来统一处理多模态输入和输出。

    简化对话系统设计:论文提出了一种基于神经行为引擎的方法,允许使用图形化语言创建混合主动对话和动作生成,这有助于简化对话系统的设计并提高其可扩展性。

    降低计算资源需求:论文还关注于如何在计算资源有限的情况下构建对话系统,这对于工业应用来说是一个重要的考虑因素。

    总的来说,这篇论文的目标是展示如何通过结合神经生物学的灵感和模型驱动开发(MDD)的方法,创建出既简单又具有高度控制性和可扩展性的对话系统。

    Q. 有哪些相关研究?

    A. 论文中提到了多个与对话系统、自然语言处理、神经生物学和人工智能相关的研究。以下是一些关键的参考文献和相关研究领域:

    Mirror Neurons: Rizzolatti & Craighero (2004, 2007) 提供了关于镜像神经元的原始发现和理论,这些神经元在动作执行和观察时都会被激活。

    Natural Language Understanding (NLU): 论文中提到了一些用于自然语言理解的简单方法,如 Canonico & De Russis (2018) 和 Abdellatif (2020) 的工作。

    Dialog Management (DM) Systems: Masche & Le (2018), Burgan (2017), 和 Lee et al. (2010) 提供了关于对话管理系统的综述。

    Natural Language Generation (NLG): Santhanam & Shaikh (2019) 和 Gatt & Krahmer (2018) 对NLG模块的不同实现进行了综述。

    Embodied Intelligence: Pezzulo et al. (2011) 讨论了具身智能的重要性以及它如何影响社交机器人的设计。

    Model-Driven Development (MDD): Rodrigues da Silva (2015) 提供了关于MDD的综述,这是一种用于设计复杂系统的方法。

    Neural Networks and State Machines: Das (1994), Gile et al. (1995) 探讨了使用递归神经网络来表示有限状态机的方法。

    Inner Speech: Vygotsky (1986) 和 Morin (2013) 讨论了内部语言的概念,以及它如何影响自我调节行为。

    Evolution of Speech: Rizzolatti & Craighero (2007) 提出了关于人类语言发展的假设。

    Social Bots and Chatbots: 论文提到了商业产品如 Apple Siri®, Amazon Alexa®, 和 Google Home®,以及它们在不同行业中的广泛应用。

    Multimodal Interactions: 论文中提到了如何将对话系统扩展到多模态交互,包括虚拟助手和物理机器人。

    Statistical Language Models: Theune (2003) 提供了关于使用统计语言模型的NLG方法的综述。

    Reinforcement Learning: 在讨论机器学习方法时,论文提到了强化学习解决方案可能面临的挑战。

    Neurobiology and Neuroscience: 论文中引用了多个神经生物学的研究,以展示如何从神经科学中获得灵感来设计对话系统。

    这些参考文献和研究领域为论文提出的对话系统设计方法提供了理论基础和实践指导。

    Q. 论文如何解决这个问题?

    A. 论文通过以下几个关键方法来解决对话管理系统的挑战:

    引入神经生物学概念:论文借鉴了神经生物学中的镜像神经元概念,提出了“Mirons”系统,以模拟语言理解(NLU)和语言生成(NLG)的相互关联。

    混合主动对话和动作生成:通过一个基于图形语言的神经行为引擎,实现了混合主动对话和动作生成,允许系统根据手工设计的模型进行响应。

    图形化对话模型:通过图形化对话模型,展示了如何使用受大脑启发的架构来提高对话系统的可用性。

    模型驱动开发(MDD):利用MDD方法和专门的图形领域特定语言(DSL),简化了对话系统行为的定义过程。

    状态机和行为引擎:论文详细描述了一个基于递归神经网络(RNN)的行为引擎,该引擎允许并行状态和非确定性决策,以处理异步感知事件。

    内部语言和反馈循环:通过内部语言和反馈循环的概念,模拟了人类的内部对话过程,允许系统在没有外部输入的情况下触发程序性反应。

    多模态交互:论文讨论了将Mirons概念扩展到其他模态,如视觉和声音,以支持具身智能体的多模态交互。

    虚拟接待员应用案例:通过一个虚拟接待员的实际应用案例,展示了所提出方法的应用,并进行了用户研究来评估用户体验。

    用户研究和评估:通过使用系统可用性量表(SUS)、AttrakDiff量表和特定量表进行用户研究,评估了虚拟接待员应用的用户接受度和对话质量。

    设计原则和方法:论文强调了设计原则和方法的重要性,以减少对话系统的自然复杂性,并通过模块化、参数化和规划来简化对话管理架构。

    这些方法的结合,旨在创建一个既能够控制和解释,又能够适应未来学习技术如模仿学习或指令学习的对话系统。

    Q. 论文做了哪些实验?

    A. 论文中进行了一项用户研究来评估虚拟接待员应用的用户接受度和对话质量。以下是实验的详细步骤和结果:

    参与者:

    由于COVID-19大流行,参与者是从公司内部招募的20名志愿者,他们扮演访客的角色。

    参与者包括40%的女性和60%的男性,平均年龄为34.5岁。

    大多数参与者是德国人,还有来自法国、意大利、俄罗斯和中国的参与者,他们都精通英语。

    测试任务场景:

    参与者随机选择两个预定义的访客档案,包括访客姓名、公司名称和联系人。

    他们需要尝试使用选定的档案与系统注册两次。

    成功注册后,虚拟接待员会调用访客的联系人。

    测试环境:

    虚拟接待员的展位位于大楼入口大厅,靠近人类接待员的桌子。

    测试环境没有控制背景噪音,可能存在侧边对话、自动门开关声、手推车滚动声等。

    评估量表:

    使用了系统可用性量表(SUS)、AttrakDiff量表和特定量表来评估用户体验。

    SUS量表用于评估系统的整体可接受性。

    AttrakDiff量表用于评估产品的实用性和吸引力。

    特定量表包括30个问题,涵盖了用户界面设计的多个心理学方面。

    测试结果:

    所有参与者都成功注册。

    SUS量表得分为90.3,表明系统处于可接受性量表的最高范围。

    AttrakDiff量表显示系统在实用性方面的得分较高,但在“技术/人类”和“不要求/具有挑战性”的感知方面存在不确定性,这对于一个技术系统来说是积极的。

    特定量表的结果与SUS和AttrakDiff的积极结果一致,特别是关于语音识别、语音合成以及对话理解和支持的问题。

    结论:

    用户研究的结果表明,虚拟接待员应用被用户高度接受,并且在对话质量方面表现良好。
    这项用户研究提供了对虚拟接待员应用实际效用的实证评估,并帮助研究者了解其在实际环境中的表现。

    Q. 有什么可以进一步探索的点?

    A. 论文在最后一部分提出了一些未来可能的研究方向和进一步探索的点,主要包括:

    学习方法的改进:尽管当前的学习方法通过大量训练数据来提高性能,但论文认为需要更多地从婴儿发展研究中汲取灵感,探索模仿学习、指令学习或课程学习等方法。

    对话的自然性和可扩展性:论文指出,尽管手工设计的对话管理系统可以从生物学中获益,但未来的可扩展解决方案需要依赖于学习方法。

    多模态交互的深入研究:论文提到了将对话系统扩展到多模态交互的重要性,这包括进一步探索如何结合语言、视觉和其他感官输入。

    模型驱动开发(MDD)的进一步应用:论文提出MDD和图形化DSL可以帮助简化对话系统的设计,但需要进一步研究如何更有效地结合这些工具和方法。

    内部语言和反馈循环的模拟:论文中提到的内部语言和反馈循环的概念可以进一步探索,以更好地理解和模拟人类的内部对话过程。

    用户研究的扩展:论文中的用户研究为评估虚拟接待员应用提供了基础,但可以扩展到更多用户群体和不同环境,以获得更全面的反馈。

    系统架构的优化:论文提出的虚拟接待员系统架构可以进一步优化,以提高性能、可靠性和用户体验。

    隐私和数据保护:鉴于系统使用生物识别数据,如何确保用户数据的安全和隐私是未来研究的一个重要方向。

    跨领域应用:论文中的方法和框架是否可以应用于其他领域,例如医疗、教育或客户服务,也是一个值得探索的问题。

    技术集成:如何将最新的人工智能技术,如强化学习、深度学习和自然语言处理,更有效地集成到对话管理系统中。

    这些探索点为未来的研究提供了方向,旨在提高对话系统的智能性、适应性和用户友好性。

    Q. 总结一下论文的主要内容

    A. 这篇论文主要探讨了如何将类似于大脑的概念引入到对话管理系统中,以提高与人类通过自然语言或直接语音进行无缝交互的能力。以下是对论文主要内容的总结:

    背景介绍:随着聊天机器人、语言模型和语音技术的发展,人们对创建能够通过自然语言或语音与人类无缝交互的系统越来越感兴趣。

    对话管理的挑战:讨论了对话管理在聊天室、数字助手和自然语言用户界面系统中的问题,以及现有的解决方案,包括手工设计模型、基于机器学习的解决方案和混合系统。

    神经生物学启发:论文提出将神经生物学和神经心理学的概念引入对话系统设计中,以实现手工设计和人工神经网络的融合,并为未来的学习方式如模仿学习或指令学习铺平道路。

    神经行为引擎:介绍了一个神经行为引擎,它允许基于手工设计模型使用图形语言创建混合主动对话和动作生成。

    Mirons系统:提出了一个名为“Mirons”的数据结构,用于定义特定意图并将其与用于对话系统中感知和生成意图的模板句子列表相关联。

    具身智能和多模态交互:强调了具身智能在社交机器人设计中的重要性,并提出了一个抽象层来统一处理多模态输入和输出。

    行为/对话引擎:详细描述了一个基于递归神经网络的行为引擎,该引擎允许处理异步感知事件并产生适当的反应。

    内部语言:引入了“内部语言”的概念,模拟人类的内部对话过程,允许系统在没有外部输入的情况下触发程序性反应。

    模型驱动开发(MDD):讨论了使用MDD方法和图形化DSL来简化对话系统行为的定义过程。

    对话设计:提供了设计对话的指导原则和方法,包括模块化、参数化和规划。

    虚拟接待员应用案例:通过一个虚拟接待员的实际应用案例,展示了所提出方法的应用,并进行了用户研究来评估用户体验。

    用户研究:进行了一项用户研究,使用SUS、AttrakDiff和特定量表来评估虚拟接待员应用的用户接受度和对话质量。

    结论和未来工作:论文总结了研究成果,并提出了未来可能的研究方向,包括改进学习方法、多模态交互和隐私保护等。

    论文的内核贡献在于提出了一种结合神经生物学概念和模型驱动开发的对话系统设计方法,并通过实际应用案例和用户研究展示了其有效性。

  • 化繁为简:垂直LoRA,让Transformer模型更轻盈

    近年来,Transformer模型在自然语言处理领域掀起了一场革命,其强大的能力让世人惊叹。但随着模型规模不断扩大,训练和部署这些庞然大物也变得越来越困难,尤其对于个人用户和小型机构来说。

    为了解决这一难题,研究者们提出了各种解决方案,其中低秩分解成为了一个重要的方向。LoRA[7] 就是一个典型的例子,它通过在预训练模型的每一层学习一个低秩增量来实现高效的微调。

    本文则更进一步,提出了一个全新的模型设计范式——垂直LoRA (VLoRA)[7]。它基于一个全新的视角:将Transformer模型看作是密集型期望最大化(EM)算法[7]。

    Transformer:隐藏的EM算法

    在监督学习中,Transformer模型的目标是最大化后验概率 $P(y|x;\theta)$,其中 $x$ 是输入,$y$ 是标签,$\theta$ 是模型参数。本文指出,Transformer模型的每一层实际上都是EM算法的一次迭代,前向传播对应于E步,而下一层与当前层权重差异则对应于M步。

    这个发现揭示了Transformer模型中一个重要的规律:每一层都是基于前一层学习一个增量。而正是基于这一规律,VLoRA应运而生。

    VLoRA:垂直分解,层层递进

    VLoRA 首先定义一个全秩基层,然后每一层都基于上一层学习一个低秩增量,并使用LoRA分解来逼近这个增量。这种垂直分解的方式,使得模型参数数量大幅减少,同时保留了原始模型的性能。

    与传统的水平LoRA相比,VLoRA 更加高效,因为它减少了模型的总体参数,而不是仅仅针对微调阶段。

    实验验证:性能提升,更少参数

    本文在图像分类任务上进行了实验,使用 CIFAR-10 数据集[31] 对 12 层的 Vision Transformer[32] 进行了训练,并比较了其 VLoRA 版本的性能。

    实验结果表明:

    • VLoRA 版本的训练损失和准确率虽然略低于原始模型,但在评估阶段却展现出更强的泛化能力,不容易过拟合。
    • VLoRA 版本的最佳评估指标与原始模型几乎相同,但参数数量却大幅减少。
    • 即使使用较小的低秩(例如 r=2),VLoRA 依然能有效地对每一层的权重增量进行建模。

    未来展望:更轻盈,更强大

    VLoRA 的出现,为构建更轻盈、更强大的 Transformer 模型提供了新的思路。它不仅可以用于降低模型的训练和部署成本,还可以提升模型的泛化能力,使其在更多场景下发挥作用。

    参考文献

    [1] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.

    [2] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.

    [3] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.

    [4] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, et al. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288, 2023.

    [5] Anthropic. The claude 3 model family: Opus, sonnet, haiku, 2024.

    [6] Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, and Luke Zettlemoyer. Qlora: Efficient finetuning of quantized llms. Advances in Neural Information Processing Systems, 36, 2024.

    [7] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.

    [8] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, and Sylvain Gelly. Parameter-efficient transfer learning for nlp. In International conference on machine learning, pages 2790–2799. PMLR, 2019.

    [9] Jonas Pfeiffer, Aishwarya Kamath, Andreas Rückl, Kyunghyun Cho, and Iryna Gurevych. Adapterfusion: Non-destructive task composition for transfer learning. arXiv preprint arXiv:2005.00247, 2020.

    [10] Qingru Zhang, Minshuo Chen, Alexander Bukharin, Pengcheng He, Yu Cheng, Weizhu Chen, and Tuo Zhao. Adaptive budget allocation for parameter-efficient fine-tuning. In The Eleventh International Conference on Learning Representations, 2023.

    [11] Sinong Wang, Belinda Z Li, Madian Khabsa, Han Fang, and Hao Ma. Linformer: Self-attention with linear complexity. arXiv preprint arXiv:2006.04768, 2020.

    [12] Xiang Lisa Li and Percy Liang. Prefix-tuning: Optimizing continuous prompts for generation. arXiv preprint arXiv:2101.00190, 2021.

    [13] Xiao Liu, Kaixuan Ji, Yicheng Fu, Weng Lam Tam, Zhengxiao Du, Zhilin Yang, and Jie Tang. P-tuning v2: Prompt tuning can be comparable to fine-tuning universally across scales and tasks. arXiv preprint arXiv:2110.07602, 2021.

    [14] Brian Lester, Rami Al-Rfou, and Noah Constant. The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691, 2021.

    [15] Nikita Kitaev, Łukasz Kaiser, and Anselm Levskaya. Reformer: The efficient transformer. arXiv preprint arXiv:2001.04451, 2020.

    [16] Jialin Li, Qiang Nie, Weifu Fu, Yuhuan Lin, Guangpin Tao, Yong Liu, and Chengjie Wang. Lors: Low-rank residual structure for parameter-efficient network stacking. arXiv preprint arXiv:2403.04303, 2024.

    [17] Misha Denil, Babak Shakibi, Laurent Dinh, Marc Aurelio Ranzato, and Nando De Freitas. Predicting parameters in deep learning. Advances in neural information processing systems, 26, 2013.

    [18] Armen Aghajanyan, Luke Zettlemoyer, and Sonal Gupta. Intrinsic dimensionality explains the effectiveness of language model fine-tuning. arXiv preprint arXiv:2012.13255, 2020.

    [19] Chunyuan Li, Heerad Farkhoor, Rosanne Liu, and Jason Yosinski. Measuring the intrinsic dimension of objective landscapes. arXiv preprint arXiv:1804.08838, 2018.

    [20] Max Jaderberg, Andrea Vedaldi, and Andrew Zisserman. Speeding up convolutional neural networks with low rank expansions. arXiv preprint arXiv:1405.3866, 2014.

    [21] Tara N Sainath, Brian Kingsbury, Vikas Sindhwani, Ebru Arisoy, and Bhuvana Ramabhadran. Low-rank matrix factorization for deep neural network training with high-dimensional output targets. In 2013 IEEE international conference on acoustics, speech and signal processing, pages 6655–6659. IEEE, 2013.

    [22] Xiangyu Zhang, Jianhua Zou, Kaiming He, and Jian Sun. Accelerating very deep convolutional networks for classification and detection. IEEE transactions on pattern analysis and machine intelligence, 38(10):1943–1955, 2015.

    [23] Jian Xue, Jinyu Li, and Yifan Gong. Restructuring of deep neural network acoustic models with singular value decomposition. In Interspeech, pages 2365–2369, 2013.

    [24] Emily L Denton, Wojciech Zaremba, Joan Bruna, Yann LeCun, and Rob Fergus. Exploiting linear structure within convolutional networks for efficient evaluation. Advances in neural information processing systems, 27, 2014.

    [25] Vadim Lebedev, Yaroslav Ganin, Maksim Rakhuba, Ivan Oseledets, and Victor Lempitsky. Speeding-up convolutional neural networks using fine-tuned cp-decomposition. arXiv preprint arXiv:1412.6553, 2014.

    [26] Yong-Deok Kim, Eunhyeok Park, Sungjoo Yoo, Taelim Choi, Lu Yang, and Dongjun Shin. Compression of deep convolutional neural networks for fast and low power mobile applications. arXiv preprint arXiv:1511.06530, 2015.

    [27] Xiangdi Meng, Damai Dai, Weiyao Luo, Zhe Yang, Shaoxiang Wu, Xiaochen Wang, Peiyi Wang, Qingxiu Dong, Liang Chen, and Zhifang Sui. Periodiclora: Breaking the low-rank bottleneck in lora optimization. arXiv preprint arXiv:2402.16141, 2024.

    [28] Yang Lin, Xinyu Ma, Xu Chu, Yujie Jin, Zhibang Yang, Yasha Wang, and Hong Mei. Lora dropout as a sparsity regularizer for overfitting control. arXiv preprint arXiv:2404.09610, 2024.

    [29] Soufiane Hayou, Nikhil Ghosh, and Bin Yu. Lora+: Efficient low rank adaptation of large models. arXiv preprint arXiv:2402.12354, 2024.

    [30] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.

    [31] Alex Krizhevsky, Geoffrey Hinton, et al. Learning multiple layers of features from tiny images. 2009.

    [32] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.

  • KAN网络:深度学习的新希望

    近年来,深度学习技术取得了长足的进步,多层感知机(MLP)作为其基础模型,在图像识别、自然语言处理等领域发挥着重要作用。然而,MLP也存在着一些局限性,例如可解释性差、容易受到维度灾难的影响等。

    为了克服这些问题,麻省理工学院等机构的研究人员提出了一种全新的神经网络模型——KAN网络,即Kolmogorov-Arnold Networks(科尔莫戈洛夫-阿诺德网络)。KAN网络的设计灵感源于著名的科尔莫戈洛夫-阿诺德表示定理,该定理表明任何多元连续函数都可以表示为单变量函数的有限组合和加法运算。

    KAN网络的独特之处

    与MLP不同,KAN网络将可学习的激活函数放置在连接节点的边上,而不是节点本身。这意味着KAN网络没有线性权重矩阵,而是使用可学习的样条函数来代替每个权重参数。这种看似简单的改变,却赋予了KAN网络强大的能力。

    1. 准确性: KAN网络可以用更小的模型达到与更大的MLP相当甚至更好的准确性。这得益于它能够有效地学习组合结构和单变量函数,从而克服了维度灾难的影响。

    2. 可解释性: KAN网络的结构非常直观,可以轻松地可视化,并且可以与人类用户进行交互。这使得科学家能够更好地理解模型的内部机制,并将其用于科学发现。

    数学知识

    为了更好地理解KAN网络的数学基础,以下是一些关键的数学知识:

    科尔莫戈洛夫-阿诺德表示定理

    科尔莫戈洛夫-阿诺德表示定理是KAN网络的理论基础。该定理指出,对于任何连续的多元函数 ( f: \mathbb{R}^n \to \mathbb{R} ),存在 ( 2n+1 ) 个单变量函数 ( \phi_i ) 和 ( \psi ) ,使得:
    [ f(x_1, x_2, \ldots, x_n) = \sum_{i=1}^{2n+1} \psi \left( \sum_{j=1}^n \phi_{ij}(x_j) \right). ]

    这个定理表明,任何多元函数都可以通过有限数量的单变量函数和加法来表示。这为KAN网络提供了理论支持,使得它能够表示复杂的多元函数。

    样条函数

    样条函数是KAN网络中的关键组件。样条函数是一种分段定义的多项式函数,通常用于数据拟合和插值。样条函数的形式为:
    [ S(x) = \sum_{i=0}^{k} a_i B_i(x), ]
    其中 ( B_i(x) ) 是基函数, ( a_i ) 是系数。样条函数的灵活性和连续性使其非常适合用作神经网络中的可学习参数。

    KAN网络的应用

    研究人员在数学和物理学领域进行了大量的实验,证明了KAN网络的巨大潜力。

    1. 数学领域: 在结理论中,KAN网络可以帮助科学家重新发现结不变量的关系,并推导出新的定理。

    2. 物理领域: 在凝聚态物理学中,KAN网络可以帮助科学家提取准周期紧束缚模型的迁移率边缘,并理解安德森局域化现象。

    KAN网络的未来展望

    尽管KAN网络已经展现出巨大的潜力,但它仍然处于发展阶段,未来还有很多值得探索的方向。

    1. 数学基础: 目前对KAN网络的数学理解还很有限,需要进一步研究其数学基础,特别是对于深层KAN网络的数学分析。

    2. 算法优化: KAN网络的训练速度较慢,需要进一步优化算法,提高训练效率。

    3. 应用扩展: KAN网络可以应用于更多领域,例如流体力学、密度泛函理论等,并与现有的深度学习架构(例如Transformer)进行整合。

    总而言之,KAN网络是一种具有巨大潜力的深度学习模型,它结合了样条函数和MLP的优点,在准确性和可解释性方面都表现出色。随着

  • KAN网络:深度学习的新希望

    近年来,深度学习技术取得了长足的进步,多层感知机(MLP)作为其基础模型,在图像识别、自然语言处理等领域发挥着重要作用。然而,MLP也存在着一些局限性,例如可解释性差、容易受到维度灾难的影响等。

    为了克服这些问题,麻省理工学院等机构的研究人员提出了一种全新的神经网络模型——KAN网络,即Kolmogorov-Arnold Networks(科尔莫戈洛夫-阿诺德网络)。KAN网络的设计灵感源于著名的科尔莫戈洛夫-阿诺德表示定理,该定理表明任何多元连续函数都可以表示为单变量函数的有限组合和加法运算。

    KAN网络的独特之处

    与MLP不同,KAN网络将可学习的激活函数放置在连接节点的边上,而不是节点本身。这意味着KAN网络没有线性权重矩阵,而是使用可学习的样条函数来代替每个权重参数。这种看似简单的改变,却赋予了KAN网络强大的能力。

    1. 准确性: KAN网络可以用更小的模型达到与更大的MLP相当甚至更好的准确性。这得益于它能够有效地学习组合结构和单变量函数,从而克服了维度灾难的影响。

    2. 可解释性: KAN网络的结构非常直观,可以轻松地可视化,并且可以与人类用户进行交互。这使得科学家能够更好地理解模型的内部机制,并将其用于科学发现。

    KAN网络的应用

    研究人员在数学和物理学领域进行了大量的实验,证明了KAN网络的巨大潜力。

    1. 数学领域: 在结理论中,KAN网络可以帮助科学家重新发现结不变量的关系,并推导出新的定理。

    2. 物理领域: 在凝聚态物理学中,KAN网络可以帮助科学家提取准周期紧束缚模型的迁移率边缘,并理解安德森局域化现象。

    KAN网络的未来展望

    尽管KAN网络已经展现出巨大的潜力,但它仍然处于发展阶段,未来还有很多值得探索的方向。

    1. 数学基础: 目前对KAN网络的数学理解还很有限,需要进一步研究其数学基础,特别是对于深层KAN网络的数学分析。

    2. 算法优化: KAN网络的训练速度较慢,需要进一步优化算法,提高训练效率。

    3. 应用扩展: KAN网络可以应用于更多领域,例如流体力学、密度泛函理论等,并与现有的深度学习架构(例如Transformer)进行整合。

    总而言之,KAN网络是一种具有巨大潜力的深度学习模型,它结合了样条函数和MLP的优点,在准确性和可解释性方面都表现出色。随着研究的不断深入,KAN网络有望成为深度学习领域的新希望,助力科学家们进行更深入的科学发现。

  • 赋予视觉语言模型空间推理能力:SpatialVLM

    视觉语言模型(VLM)在近年来取得了显著进展,在图像字幕生成、视觉问答(VQA)、具身规划、动作识别等各种任务中展现出强大的能力。然而,即使是最先进的VLM在空间推理方面仍然存在不足,例如无法识别物体在三维空间中的位置关系,或无法理解物体之间的距离或大小差异。

    空间推理的缺失:为什么VLM难以理解空间关系?

    我们认为,VLM在空间推理方面能力有限,主要是因为其训练数据中缺乏三维空间知识。大多数VLM都是基于互联网规模的图像-字幕对数据集进行训练,这些数据集包含有限的空间信息。这主要是因为获取包含丰富空间信息的具身数据或高质量的三维空间查询标注存在困难。

    SpatialVLM:让VLM“看懂”空间关系

    为了解决这个问题,我们提出了一个名为SpatialVLM的系统,它可以生成大量包含空间推理信息的VQA数据,并使用这些数据来训练VLM,从而增强其空间推理能力。

    SpatialVLM的核心思想是利用现有的视觉模型来自动生成丰富的三维空间标注。具体而言,通过结合开放词汇检测、度量深度估计、语义分割和以物体为中心的字幕模型,我们可以对真实世界中的数据进行大规模密集标注。SpatialVLM将这些视觉模型生成的标注转换为可用于训练VLM的格式,使其能够学习字幕生成、VQA和空间推理等多种任务。

    SpatialVLM的强大能力:超越传统VLM

    通过实验,我们发现SpatialVLM训练后的VLM具有许多理想的能力:

    • 增强对空间关系的理解: SpatialVLM能够更好地回答关于物体空间关系的定性问题,例如“哪个物体在左边?”或“哪个物体更高?”。
    • 进行定量估计: SpatialVLM能够可靠地进行定量估计,例如“物体A距离物体B有多远?”或“物体A的宽度是多少?”。这种能力不仅赋予了VLM关于物体大小的常识性知识,还可以将其用作重排任务的开放词汇奖励标注器。
    • 解锁新应用: SpatialVLM可以与强大的大型语言模型(LLM)结合,进行空间链式推理,解决需要多步空间推理的复杂问题。

    SpatialVLM的关键技术:

    1. 从2D图像中提取空间信息:

    • 语义过滤: 使用CLIP模型过滤掉不适合生成空间推理VQA数据的图像,例如单一物体图像或没有场景背景的图像。
    • 以物体为中心的上下文提取: 利用现有的视觉模型,例如区域提议、区域字幕和语义分割模型,提取以物体为中心的上下文信息,包括像素簇和开放词汇字幕描述。
    • 将2D上下文提升到3D上下文: 使用深度估计模型将单目2D像素提升到度量尺度的3D点云,并将其转换为大地坐标系。
    • 消除歧义: 使用细粒度的物体字幕和语义导向的后处理算法来消除物体字幕的歧义。

    2. 大规模空间推理VQA数据集:

    • 生成定性和定量问题: 设计了38种类型的定性和定量空间推理问题,并使用模板生成大量VQA数据对。
    • 从点云和3D包围盒中提取答案: 使用专门设计的函数从点云和3D包围盒中提取答案,以确保答案的准确性。

    3. 学习空间推理:

    • 直接空间推理: 使用PaLM-E的架构和训练流程,并使用混合数据集进行训练,其中包含5%的空间推理任务。
    • 空间链式推理: 利用LLM作为协调器,将复杂问题分解成简单问题,并使用SpatialVLM进行回答,最终将推理结果整合在一起。

    SpatialVLM的实验结果:

    • SpatialVLM在定性和定量空间VQA任务上都取得了显著的性能提升,超越了包括GPT-4V在内的所有基线模型。
    • SpatialVLM在其他任务上的性能没有下降,甚至在包含空间推理问题的VQA-v2测试集中表现更好。
    • SpatialVLM可以作为机器人任务的奖励标注器,并能够进行空间链式推理,解决需要多步空间推理的复杂问题。

    总结:

    SpatialVLM为VLM注入了空间推理能力,并为其解锁了新的应用领域。它证明了通过生成大量包含空间推理信息的VQA数据,可以有效地增强VLM的空间推理能力。未来,我们可以进一步研究更细致的几何原语,以更好地将空间推理与三维几何联系起来。

    参考文献:

    • [1] Chen, B. , Xu, Z., Kirmani, S., Driess, D., Florence, P., Ichter, B., … & Xia, F. (2024). SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities. arXiv preprint arXiv:2401.12168.
  • vAttention: 让 LLM 推理更快速、更便捷

    大型语言模型 (LLM) 正在改变着各个领域,但其高昂的计算资源消耗和内存占用成为了制约其应用的关键瓶颈。为了解决 LLM 推理中的内存问题,vLLM 提出了 PagedAttention,它通过动态分配内存来避免预先分配过多的内存,从而减少内存浪费。然而,PagedAttention 也存在一些缺陷,例如需要修改注意力内核代码,增加了开发难度,并且性能也受到一定影响。

    为了克服 PagedAttention 的局限性,本文介绍了一种全新的内存管理技术——vAttention。vAttention 巧妙地利用了系统本身的虚拟内存机制,将预分配虚拟内存和实际分配物理内存分离,并拓展了分配小内存的 PyTorch 算子,从而实现了更灵活、更高效的内存管理。

    PagedAttention 的局限性

    PagedAttention 通过动态分配内存,将 KV 缓存分割成多个固定大小的块,并在需要时分配内存。然而,这种方法存在以下几个问题:

    • 需要修改注意力内核代码: PagedAttention 导致 KV 缓存存储在非连续的虚拟内存中,需要修改注意力内核代码以支持分页,增加了开发难度。
    • 增加了框架复杂度: PagedAttention 需要在服务框架中实现一个内存管理器,负责分配和释放 KV 缓存,增加了框架的复杂度。
    • 性能下降: PagedAttention 会增加 GPU 和 CPU 的运行时开销,导致性能下降。

    vAttention:突破传统内存管理的限制

    vAttention 则采用了一种更巧妙的方案,它保留了 KV 缓存的虚拟内存连续性,并利用系统本身的虚拟内存机制来实现按需物理内存分配。

    vAttention 的核心思想:

    1. 预留虚拟内存: vAttention 预先分配足够大的虚拟内存空间来存储 KV 缓存,但并不分配物理内存。
    2. 按需物理内存分配: vAttention 仅在需要时才分配物理内存页面,并将这些页面映射到虚拟内存中。
    3. 利用低级 CUDA 支持: vAttention 利用 CUDA 低级 API,可以对虚拟和物理内存进行细粒度控制,实现更灵活的内存管理。
    4. 拓展 PyTorch 接口: vAttention 扩展了 PyTorch 缓存分配器,允许应用程序为张量保留虚拟内存缓冲区,而无需提前提交物理内存。
    5. 请求级 KV-cache 索引: vAttention 使用唯一的标识符来定位每个请求的子张量,并进行相应的内存分配和释放。

    vAttention 的优势:

    • 连续内存: vAttention 保证了 KV 缓存存储在连续的虚拟内存中,避免了内存碎片化问题。
    • 性能提升: vAttention 能够无缝接入 FlashAttention 等高性能注意力计算内核,并通过优化内存管理机制,显著提升了 LLM 的性能。
    • 更易于移植: vAttention 能够直接使用现有的注意力内核,无需修改代码,方便移植到不同的 LLM 模型和框架中。

    性能评估

    实验结果表明,vAttention 在吞吐量和推理时间方面都取得了显著提升,性能比 vLLM 高出 1.97 倍。

    总结

    vAttention 作为 PagedAttention 的升级版本,有效地解决了传统内存管理机制的缺陷,为 LLM 的应用提供了更强大的支持。它不仅提高了 LLM 的性能,也简化了开发流程,为 LLM 的进一步发展提供了新的方向。

    注: 本文内容主要参考了 vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention 的论文,并加入了个人理解和分析。

  • LLM 前沿技术跟踪:PagedAttention 升级版 vAttention

    近年来,大型语言模型(LLM)在各个领域都取得了显著进展,但其高昂的计算资源消耗和内存占用成为了制约其应用的关键瓶颈。PagedAttention 作为一种动态内存分配机制,在一定程度上解决了 LLM 的内存问题,但也存在一些缺陷,例如内存不连续导致的效率低下和开发难度增加。

    本文将介绍一种全新的内存管理技术——vAttention,它可以看作是 PagedAttention 的升级版本,有效地解决了这些问题,并显著提升了 LLM 的性能。

    PagedAttention 的局限性

    PagedAttention 通过动态分配内存来应对 LLM 自回归生成时内存需求不确定的问题。然而,这种方法存在以下几个不足:

    • 内存不连续: PagedAttention 会导致内存分配不连续,需要在框架中引入额外的内存管理代码,增加了开发难度。
    • 注意力计算效率降低: kv cache 在注意力计算中无法连续读取,需要手动修改注意力内核代码进行分段读取,降低了计算效率。
    • 性能劣于 FlashAttention: 在小数据量时,PagedAttention 的速度明显慢于 FlashAttention,可能是由于 cache 命中率高,连续内存读取效率更高导致的。

    vAttention:突破传统内存管理的限制

    vAttention 巧妙地利用了虚拟内存机制,将预分配虚拟内存和实际分配物理内存分离,并拓展了分配小内存的 PyTorch 算子,将内存管理从注意力内核中剥离出来。

    vAttention 的核心思想:

    1. 预留虚拟内存: 创建足够长的虚拟内存,但并不分配物理内存,利用系统本身的虚拟内存管理机制。
    2. 按需物理内存分配: 每次优先分配一个物理内存页面,仅当请求已使用完其先前分配的所有物理内存页面时,再分配新的物理内存,并映射到虚拟内存中。
    3. 利用低级 CUDA 支持: vAttention 利用 CUDA 低级 API,可以对虚拟和物理内存进行细粒度控制,实现更灵活的内存管理。
    4. 拓展 PyTorch 接口: vAttention 扩展了 PyTorch 缓存分配器,允许应用程序为张量保留虚拟内存缓冲区,而无需提前提交物理内存。
    5. 请求级 KV-cache 索引: vAttention 使用唯一的整数标识符来定位请求的子张量,并进行相应的内存分配和释放。

    vAttention 的优势:

    • 连续内存: vAttention 保证了 KV 缓存存储在连续的虚拟内存中,无需提前提交物理内存,避免了内存碎片化问题。
    • 性能提升: vAttention 能够无缝接入 FlashAttention 等高性能注意力计算内核,并通过优化内存管理机制,显著提升了 LLM 的性能。

    性能评估

    实验结果表明,vAttention 在吞吐量和推理时间方面都取得了显著提升,性能比 vLLM 高出 1.97 倍。

    总结

    vAttention 作为 PagedAttention 的升级版本,有效地解决了传统内存管理机制的缺陷,为 LLM 的应用提供了更强大的支持。它不仅提高了 LLM 的性能,也简化了开发流程,为 LLM 的进一步发展提供了新的方向。

    注: 本文内容主要参考了 akaihaoshuai 的知乎文章,并加入了个人理解和分析。

人生梦想 - 关注前沿的计算机技术 acejoy.com