标签: AGI

  • 🎭 打破学术文章的枯燥:幽默与AI的奇妙结合

    🧠 引言

    如今,大型语言模型(LLMs)已经成为AI领域的耀眼明星。这些模型通过预训练学到了海量的知识,并通过监督微调(SFT)来适应特定的人类指令,从而在特定领域的数据集上表现出色。然而,获取高质量的SFT数据集并不是一件容易的事。就像是寻找一颗完美的珍珠,你需要在沙滩上仔细筛选贝壳。

    在这篇文章中,我们将探索一个略带喜感的数据来源——“弱智吧”,一个中文网站,用户在上面提出“愚蠢”的问题以更好地理解某些话题。你可能会问:“这些‘愚蠢’的问题真的能帮助大型语言模型变得更聪明吗?”嗯,不要小看这些问题,它们背后有着深刻的教育学、心理学和认知科学的内涵。

    🎨 方法论:愚蠢问题的奥秘

    在我们开始之前,让我们先来认识一下什么是“愚蠢”的问题。有一个经典的例子:“既然人体的70%是水,那是否意味着每10个人中就有7个是水伪装的?”这些问题表面上看似荒谬,但背后往往隐藏着逻辑陷阱、幽默和抽象思维。

    🎯 数据集的构建

    我们的研究首先使用GPT-4分析了若智吧问题的成功案例,定义了一组解释性规则。这些规则不仅帮助我们理解数据集的内在逻辑,还为构建新的高质量数据集提供了指导。通过这些规则,我们期望生成的数据能够在不同的任务中表现出多样性和适用性,从而提升模型在广泛任务上的性能。

    🌱 数据增强

    我们使用这些规则对MMLU训练集的数据进行增强,生成了八个不同的数据集。让我们来看看其中一个规则——“模糊概念边界”。它挑战隐含假设,通过将一个场景中的想法应用到另一个场景中来揭示细微的、依赖于上下文的真理。这种方法鼓励一种更加灵活和适应的思维方式。

    🔍 数据过滤和混合策略

    为了探索不同规则在不同学科或任务上的影响,我们设计了数据过滤和混合实验。通过计算困惑度(PPL)选择样本,我们提出了两种策略:选择困惑度最高的样本和选择困惑度最低的样本。这些策略帮助我们发现,单一规则增强的数据集比混合数据集更有效地提高了LLM的性能。

    🚀 实验结果

    我们的实验结果显示,使用“愚蠢”规则生成的数据集在MMLU测试集上的总体性能提升了约0.54%。然而,与直接使用种子数据集进行微调相比,这种方法并没有进一步提高整体性能。更细致的分析显示,不同规则生成的数据集对SFT模型在不同学科和任务上的表现有不同的影响。

    🌍 学科层面的分析

    在学科层面上,提取的规则往往会降低SFT模型在“STEM”学科上的表现,而在“人文学科”上则有轻微的提升。例如,使用“社会现象、双关语或流行词”规则生成的数据集在整体MMLU测试集上的表现略优于种子数据集(66.28%对66.27%)。

    🧩 任务层面的分析

    细致到任务层面的分析显示,在特定任务上,不同规则生成的数据集往往产生一致的性能变化。我们的分析表明,不同规则对任务表现的影响一致性超过60%。这意味着,尽管规则之间有差异,但其应用于适当任务时可能较为一致地影响模型性能。

    🎭 结论

    总的来说,我们的研究揭示了若智吧数据源的微妙影响。尽管从若智吧提取的规则在STEM相关任务上往往降低了性能,但在哲学思考和社会现象、双关语或流行词等领域则提供了适度的提升。这表明,生成规则的选择可能不如它们在适当任务中的应用那么重要。这一见解对于指导高质量SFT数据集的开发至关重要,强调了将数据特征与特定领域和任务相匹配以优化LLM性能的重要性。

    📚 参考文献

    1. Achiam, J. , et al. (2023)
    2. Dubey, A. , et al. (2024)
    3. Hui, W. , et al. (2024)
    4. Jiang, Z. , et al. (2024a)
    5. Liu, B. , et al. (2024a)

  • 🌟 知识图谱、大型语言模型与幻觉:NLP视角的深度探讨

    🧵 引言:语言模型的光辉与阴影

    当我们谈及 大型语言模型(LLMs) 的时候,脑海中往往浮现出它们的无限潜力。正如《星际穿越》中的量子机器人,它们能驾驭复杂的语言任务,从文本生成到问答系统,从写诗到预测代码。然而,正所谓“月有阴晴圆缺,人有悲欢离合”,LLMs 的能力背后也隐藏着一个不容忽视的阴影—— 幻觉(hallucinations)

    幻觉是什么?简单来说,这是 LLMs 在生成看似合理却完全不符合事实的内容时出现的现象。例如,当你问某个模型埃及金字塔的建造年份,它可能信口开河地回答“18世纪”,这不仅令人哭笑不得,还可能导致严重的误导,尤其是在医疗、法律等事实敏感领域。

    但别急,科学界从不轻易退缩。近年来,研究者提出了一种聪明的解决方案—— 知识图谱(Knowledge Graphs, KGs)。这些图谱就像一座座百科全书型的迷宫,储存着真实世界中的实体(节点)和它们的关系(边)。将 KGs 与 LLMs 结合,或许能为幻觉问题带来一线曙光。

    本论文正是站在 NLP(自然语言处理)的前沿,探讨如何利用知识图谱来缓解大型语言模型的幻觉问题。我们深入分析了目前的研究现状,讨论了数据集、模型设计以及评估方法的优劣,并指明了未来研究的方向。


    📚 背景:LLMs 与幻觉的共舞

    🌀 幻觉的多样性

    幻觉的出现并非单一的错误,而是多种形式交织的复杂现象。如图 1 所示,不同类型的幻觉包括:

    1. 世界知识相关的幻觉:模型生成的内容与客观事实冲突。例如,错误地描述历史事件的时间或地点。
    2. 自相矛盾型幻觉:模型在同一段对话中给出前后矛盾的回答。
    3. 上下文违背型幻觉:生成的内容与用户提供的提示或上下文完全不符。

    尽管某些情况下,幻觉可能被用作创造性任务(如艺术创作)的灵感来源(Perkovic et al., 2024),但在诸如问答、信息检索和推荐系统等需要高准确性的领域,幻觉无疑是一个重大的障碍。

    🔑 知识图谱的潜力

    知识图谱是以结构化方式存储的事实集合,能够作为一种补充手段,为语言模型提供上下文信息,从而避免完全依赖模型内部的“记忆”。与重新训练语言模型(这是一项昂贵且耗时的任务)不同,知识图谱可以在推理阶段实时提供最新的事实。


    🛠️ 方法概述:如何融合知识图谱与语言模型

    如图 2 所示,知识图谱可以在模型的不同阶段进行整合:

    1. 预训练阶段:在模型训练时直接引入知识图谱信息。
    2. 推理阶段:在生成内容时通过提示或架构调整引入知识图谱。
    3. 后处理阶段:在模型生成输出后,通过知识图谱验证内容的准确性并进行修正。

    以下我们逐一探讨这些方法的优劣势。

    🎓 预训练中的知识整合

    一种方法是将知识图谱三元组(例如,”巴黎 -> 是 -> 法国的首都”)直接融入模型的预训练过程中。例如,Sun et al. (2021) 提出了一种通过掩码实体预测任务将知识注入文本的方法。这种方法的优势在于,模型在训练时就能学习到广泛的事实知识。然而,这种方法的缺点在于知识的静态性——一旦模型训练完成,更新知识需要重新训练整个模型。


    🤔 推理中的知识注入

    推理阶段的知识注入主要通过提示(prompting)完成。例如,将用户的查询与相关的知识图谱信息结合,形成一个新的提示输入模型。然而,提示法也有其固有的局限性:

    1. 上下文窗口限制:模型的输入长度有限,可能导致信息丢失。
    2. 提示格式的敏感性:模型对提示的措辞非常敏感,稍有变化可能导致截然不同的输出。

    为此,研究者提出了 上下文感知解码(context-aware decoding)技术,通过动态调整模型对提示中知识的优先级来提高生成内容的准确性(Shi et al., 2024)。


    🩹 后处理与输出修正

    后处理方法的核心思想是:生成内容后,利用知识图谱验证其准确性,并对错误部分进行修正。例如,Guan et al. (2024) 提出了一个五阶段管道系统,依次进行内容生成、事实提取、验证、修正。虽然这一方法在理论上能够显著提高内容的可靠性,但其多阶段设计也增加了出错的风险和计算成本。


    🔍 幻觉的评估方法:从粗到细

    幻觉的评估是解决问题的第一步。然而,这一任务并不简单,因为幻觉往往涉及语义层面的问题,而非简单的语法错误。

    🌟 现有评估指标

    目前常用的评估指标包括:

    • BERTScoreBARTScore:通过比较生成文本与参考文本的语义相似性来评估内容的正确性。
    • 文本蕴涵:使用模型判断生成内容是否与事实知识相符。

    然而,这些方法通常只能捕捉整体的语义偏差,而无法检测到细粒度的错误(例如,一个单词的错误可能导致整个句子的意思发生重大变化)。

    🪞 精细化评估的必要性

    为此,研究者提出了一些更细粒度的评估工具。例如,FELM 基准(Zhao et al., 2024)能够在句子层面评估幻觉,而 MuShroom-2025 数据集甚至可以在文本片段(span)层面检测幻觉。


    🌐 多语言的挑战与机遇

    幻觉问题在低资源语言中尤为严重,因为这些语言缺乏足够的训练数据。此外,当前的大多数知识图谱和评估数据集都集中于英文,这进一步限制了语言模型在多语言场景中的应用。

    研究者建议通过多语言知识图谱(如 Kaffee et al., 2023)来解决这一问题。这些图谱不仅可以改善低资源语言的知识覆盖,还能帮助模型在多语言环境中实现一致的表现。


    🚀 未来研究方向

    通过本文的讨论,我们总结出以下几个关键的未来研究方向:

    1. 大规模多语言数据集:构建包含知识图谱三元组的大规模数据集,以支持模型的训练和评估。
    2. 细粒度幻觉检测:开发能够在文本片段层面检测幻觉的工具。
    3. 摆脱提示依赖的知识整合方法:研究一种更高效、更稳定的知识整合方法,而非依赖于易碎的提示工程。
    4. 多方法组合研究:探索不同知识整合方法的协同作用,以设计更可靠的系统。
    5. 跨语言研究:在幻觉检测和消除中引入多语言支持。

    📜 结论

    知识图谱与大型语言模型的结合为解决幻觉问题提供了希望。然而,这一领域仍然充满挑战,尤其是在多语言支持、细粒度评估以及知识整合方法的多样性方面。我们相信,通过 NLP 和语义网社区的共同努力,这些挑战终将被克服。


    📚 参考文献

    1. Augenstein, I. , et al. (2024). “On the Factuality of Language Models.”
    2. Zhang, X. , et al. (2023). “A Comprehensive Survey on Hallucinations in LLMs.”
    3. Guan, Y. , et al. (2024). “Retrofitting LLM Outputs Using Knowledge Graphs.”
    4. Zhao, L. , et al. (2024). “FELM Benchmark for Fine-Grained Hallucination Evaluation.”
    5. Kaffee, L. , et al. (2023). “Multilingual Knowledge Graphs: Challenges and Opportunities.”

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 知差(chai)网
快取状态: No
内存使用量: 9.1314 MB
资料库查询次数: 3
页面产生时间: 0.641 (秒)