🎭 打破学术文章的枯燥：幽默与AI的奇妙结合

作者：

在

🧠 引言

如今，大型语言模型（LLMs）已经成为AI领域的耀眼明星。这些模型通过预训练学到了海量的知识，并通过监督微调（SFT）来适应特定的人类指令，从而在特定领域的数据集上表现出色。然而，获取高质量的SFT数据集并不是一件容易的事。就像是寻找一颗完美的珍珠，你需要在沙滩上仔细筛选贝壳。

在这篇文章中，我们将探索一个略带喜感的数据来源——“弱智吧”，一个中文网站，用户在上面提出“愚蠢”的问题以更好地理解某些话题。你可能会问：“这些‘愚蠢’的问题真的能帮助大型语言模型变得更聪明吗？”嗯，不要小看这些问题，它们背后有着深刻的教育学、心理学和认知科学的内涵。

🎨 方法论：愚蠢问题的奥秘

在我们开始之前，让我们先来认识一下什么是“愚蠢”的问题。有一个经典的例子：“既然人体的70%是水，那是否意味着每10个人中就有7个是水伪装的？”这些问题表面上看似荒谬，但背后往往隐藏着逻辑陷阱、幽默和抽象思维。

🎯 数据集的构建

我们的研究首先使用GPT-4分析了若智吧问题的成功案例，定义了一组解释性规则。这些规则不仅帮助我们理解数据集的内在逻辑，还为构建新的高质量数据集提供了指导。通过这些规则，我们期望生成的数据能够在不同的任务中表现出多样性和适用性，从而提升模型在广泛任务上的性能。

🌱 数据增强

我们使用这些规则对MMLU训练集的数据进行增强，生成了八个不同的数据集。让我们来看看其中一个规则——“模糊概念边界”。它挑战隐含假设，通过将一个场景中的想法应用到另一个场景中来揭示细微的、依赖于上下文的真理。这种方法鼓励一种更加灵活和适应的思维方式。

🔍 数据过滤和混合策略

为了探索不同规则在不同学科或任务上的影响，我们设计了数据过滤和混合实验。通过计算困惑度（PPL）选择样本，我们提出了两种策略：选择困惑度最高的样本和选择困惑度最低的样本。这些策略帮助我们发现，单一规则增强的数据集比混合数据集更有效地提高了LLM的性能。

🚀 实验结果

我们的实验结果显示，使用“愚蠢”规则生成的数据集在MMLU测试集上的总体性能提升了约0.54%。然而，与直接使用种子数据集进行微调相比，这种方法并没有进一步提高整体性能。更细致的分析显示，不同规则生成的数据集对SFT模型在不同学科和任务上的表现有不同的影响。

🌍 学科层面的分析

在学科层面上，提取的规则往往会降低SFT模型在“STEM”学科上的表现，而在“人文学科”上则有轻微的提升。例如，使用“社会现象、双关语或流行词”规则生成的数据集在整体MMLU测试集上的表现略优于种子数据集（66.28%对66.27%）。

🧩 任务层面的分析

细致到任务层面的分析显示，在特定任务上，不同规则生成的数据集往往产生一致的性能变化。我们的分析表明，不同规则对任务表现的影响一致性超过60%。这意味着，尽管规则之间有差异，但其应用于适当任务时可能较为一致地影响模型性能。

🎭 结论

总的来说，我们的研究揭示了若智吧数据源的微妙影响。尽管从若智吧提取的规则在STEM相关任务上往往降低了性能，但在哲学思考和社会现象、双关语或流行词等领域则提供了适度的提升。这表明，生成规则的选择可能不如它们在适当任务中的应用那么重要。这一见解对于指导高质量SFT数据集的开发至关重要，强调了将数据特征与特定领域和任务相匹配以优化LLM性能的重要性。

📚 参考文献

Achiam, J. , et al. (2023)✅
Dubey, A. , et al. (2024)✅
Hui, W. , et al. (2024)✅
Jiang, Z. , et al. (2024a)✅
Liu, B. , et al. (2024a)✅

AGI