告别选择题：Open-LLM-Leaderboard 为大型语言模型开启新纪元

大型语言模型（LLM）正在迅速改变我们的世界，从文本生成到翻译、摘要、代码生成，甚至聊天互动，它们展现出惊人的能力。然而，如何准确评估这些模型的真实实力，成了一个至关重要的问题。

传统的评估方法通常使用多选题（MCQ）。模型被要求从多个选项中选择最合适的答案。然而，这种方法存在着明显的缺陷：

选择偏差: 模型可能会倾向于选择特定位置的选项，例如「选项A」，因为训练数据中存在着对特定选项ID的先验概率偏差。
随机猜测: 对于那些规模较小的LLM，它们可能无法真正理解问题，而是通过随机猜测来获得正确答案。

为了解决这些问题，Open-LLM-Leaderboard应运而生。它利用开放式问题（OSQ）来评估LLM的能力，彻底摆脱了选择偏差和随机猜测的影响。开放式问题要求模型生成一个完整的答案，而不是从预设选项中选择。

Open-LLM-Leaderboard：从MCQ到OSQ的进化

Open-LLM-Leaderboard面临着两大挑战：

如何从MCQ中筛选出适合转化为OSQ的问题？
如何验证LLM对OSQ的答案是否正确？

为了解决第一个挑战，研究人员设计了一个自动筛选流程，将MCQ数据集分为可转化和不可转化两类。通过多阶段过滤，他们最终确定了23,839个适合转化为OSQ的问题。

对于第二个挑战，研究人员设计了一个特定任务的提示，并利用GPT-4来判断LLM生成的答案是否正确。他们还通过人工验证，确保了自动评估策略的可靠性。

OSQ-bench：一个开放式问题的基准

Open-LLM-Leaderboard使用了名为OSQ-bench的开放式问题基准，该基准包含来自9个不同数据集的42,000个问题，涵盖了各种领域，例如文学、常识推理、医学、科学等。

OSQ-bench具有以下特点：

多样性: 涵盖了不同类型的开放式问题，例如填空、简答、解释等。
高质量: 经过严格的筛选，确保每个问题都适合用开放式方式回答。

Open-LLM-Leaderboard：一个公平的竞技场

Open-LLM-Leaderboard对不同规模的LLM进行了评估，包括GPT-4o、GPT-4、Claude-3 Opus、Gemini Pro、Mistral-Large等大型模型，以及Qwen1.5、Gemma、SlimPajama-DC等小型模型。

评估结果显示：

GPT-4o在OSQ方面表现出色，成为目前最强大的LLM。
小型模型在OSQ方面表现较差，但Qwen1.5的表现相对突出。

告别选择题，拥抱开放式未来

Open-LLM-Leaderboard为LLM评估开辟了新的道路，它不仅能更准确地评估LLM的能力，还能促进LLM在更广泛的领域得到应用。

参考文献:

Myrzakhan, A. , Bsharat, S. M., & Shen, Z. (2024). Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena. arXiv preprint arXiv:2401.00000.✅

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是如何改进对大型语言模型（LLMs）的评估方法。具体来说，论文指出了现有评估方法中存在的两个主要问题：

选择偏差（Selection Bias）：在多项选择题（MCQ）中，LLMs可能会因为先前训练数据中某些选项ID（如A/B/C/D. ��的不平衡概率而倾向于选择特定的答案选项。这种内在偏差会影响模型基于这些ID预测答案的结果。✅
随机猜测问题：在MCQ中，即使是小规模的LLMs也有可能仅通过随机猜测就得到正确答案，这并不能真正反映模型的实际能力。

为了根本解决这些问题，论文提出了一种更彻底的方法，即从MCQ转变为开放式问题（open-style questions），这可以消除选择偏差和随机猜测的问题。然而，这种转变带来了两个新的挑战：

如何识别适合从MCQ转换为开放式问题的问题。
如何验证LLM开放式回答的正确性，特别是与人类标注的基准答案相比较。

论文的目标是通过建立一个全新的基于完全开放式问题的LLM评估基准，来解决这些挑战，并引入了Open-LLM-Leaderboard来跟踪不同LLMs的性能并反映它们的真实能力。

Q: 有哪些相关研究？

A: 相关研究主要集中在以下几个方面：

大型语言模型（LLMs）的发展：例如GPT-3和GPT-4等模型在自然语言处理领域的影响和应用，这些模型在文本生成、翻译、摘要、代码生成和聊天机器人交互等任务中表现出色。
多项选择题（MCQ）作为评估工具：MCQ在评估和提升LLMs能力方面变得至关重要，相关数据集如MMLU、HellaSwag和ARC等，它们评估广泛的知识和常识推理，帮助基准测试LLMs在不同领域的理解、推理和知识应用能力。
LLMs中的偏差问题：特别是选择偏差，由于LLMs在评估MCQ时可能倾向于选择某些答案选项，这可能导致评估结果偏斜，不能准确反映模型的真实理解和推理能力。
开放式问题的定义和评估：开放式问题要求模型生成不受预设选项限制的答案，这要求模型具有更深入的理解力和生成信息性、不受限制的回答的能力。
自动转换MCQ为开放式问题：研究提出了多阶段过滤方法，通过自定义提示和评分系统来识别适合转换的问题，并对这些问题进行分类和转换。
开放式问题答案的正确性评估：设计了特定的提示和使用GPT-4等模型来验证LLM生成的开放式答案的正确性。
开放式问题基准（OSQ-bench）：创建了一个包含多个数据集的基准，用于评估LLMs在开放式问题上的表现。
模型性能比较：对不同规模的LLMs在多个数据集上的表现进行了评估和比较，包括GPT-4系列、Claude-3 Opus、Mistral Large等。

这些研究为开发新的评估框架和基准提供了理论和实践基础，有助于更准确地评估和比较LLMs的性能。

Q: 论文如何解决这个问题？

A: 论文通过以下几个步骤解决上述问题：

定义开放式问题（Open-style Questions）：
- 开放式问题要求模型生成一个不受预设选项限制的答案，这有助于评估模型的生成能力、理解上下文的能力以及处理复杂任务的能力。
自动转换MCQ为开放式问题：
- 设计了一个多阶段过滤方法，包括初步的二元分类筛选，以确定哪些问题适合转换为开放式问题。
- 使用信心评分（1到10的范围）进一步评估问题的适合度，以确保只有那些足够清晰、可以独立于选项回答的问题被转换。
开放式问题答案的评估：
- 为了评估LLM生成的开放式答案的正确性，设计了一个定制化的提示，使用正确的MCQ答案作为基准来验证开放式答案。
建立开放式问题基准（OSQ-bench）：
- 从多个数据集中筛选并构建了一个包含42K问题的开放式问题基准，涵盖了不同的领域和问题类型。
多样性和质量分析：
- 对基准中的问题进行了分类，以确保多样性，并分析了问题的长度和复杂性。
性能评估和排行榜：
- 对多个LLMs在开放式问题上的表现进行了评估，并与多项选择题的表现进行了比较，建立了一个新的排行榜来跟踪和展示不同LLMs的性能。
实验和分析：
- 对不同规模的LLMs在多个数据集上的表现进行了实验，分析了它们在开放式问题上的准确性，并与MCQ的表现进行了对比。
建立信任度：
- 通过与人类评估者的结果进行比较，使用Cohen’s kappa统计量来验证自动评估策略的可靠性。

通过这些方法，论文成功地建立了一个新的评估基准和排行榜，用于更准确地评估和比较LLMs在开放式问题上的性能。

Q: 论文做了哪些实验？

A: 论文中进行了一系列实验来评估和比较不同大型语言模型（LLMs）在开放式问题（Open-Style Questions, OSQ）上的表现。以下是实验的主要步骤和发现：

模型选择：
- 选择了不同规模的LLMs，包括大规模模型（如GPT-4o, GPT-4, Claude-3 Opus等）和小规模模型（如Qwen1.5, Gemma等）。
数据集：
- 使用了多个数据集，包括MMLU, ARC, MedMCQA, PIQA, CommonsenseQA, Race, OpenbookQA, HellaSwag和WinoGrande，这些数据集覆盖了广泛的领域和任务。
评估方法：
- 对于多项选择题（MCQ），使用OpenAI Evals框架进行评估，直接比较生成的响应与正确答案ID。
- 对于开放式问题，使用GPT-4模型来确定LLMs生成的回答是否正确，相对于数据集中的预设正确答案。
结果分析：
- 发现所有模型在OSQ上的准确率都显著低于MCQ。平均来看，OSQ的准确率比MCQ低约25%。
性能比较：
- 对比了不同模型在不同数据集上的表现，发现GPT-4o在OSQ任务上的整体表现最好，准确率达到70.15%。
排行榜和竞技场：
- 建立了一个基于OSQ表现的模型排行榜，展示了各模型在不同数据集上的表现。
误差分析：
- 对初步过滤结果进行了手动错误分析，选择了100个被分类为「YES」和「NO」池中的问题进行评估。
可靠性验证：
- 对自动评估策略的准确性进行了验证，通过随机抽取100个结果并与人类评估者的结果进行比较，使用Cohen’s kappa统计量得出了0.83的高一致性得分。
多样性和分布分析：
- 对基准中的问题进行了分类和分析，以确保多样性，并探讨了问题长度的分布。

这些实验为评估LLMs提供了一个更深入的理解，并展示了开放式问题在评估模型能力方面的优势。通过这些实验，论文证明了其提出的评估方法的有效性和可靠性。

Q: 有什么可以进一步探索的点？

A: 尽管论文提出了一种新的评估方法和基准，但仍有一些潜在的点可以进一步探索：

评估指标的多样性：目前的评估主要依赖于答案的准确性。未来的研究可以探索更多的评估指标，比如答案的相关性、创造性、深度和自然性。
上下文理解的评估：开放式问题可能需要对上下文的深入理解。研究可以进一步探索如何评估LLMs在理解和应用上下文信息方面的能力。
跨领域性能的比较：研究可以进一步探索LLMs在不同领域（如科学、技术、艺术等）的性能，以及它们如何处理跨学科的问题。
模型的可解释性：在评估LLMs时，理解模型是如何生成答案的同样重要。未来的工作可以集中在提高模型的可解释性，帮助用户理解模型的决策过程。
模型的鲁棒性测试：评估模型在面对错误信息、歧义或模糊问题时的表现，以及它们如何适应和处理这些情况。
实时评估和反馈：开发实时评估系统，可以在模型生成答案的同时提供反馈，帮助模型学习和改进。
用户研究和人机交互：研究用户如何与基于LLMs的系统交互，以及如何设计更直观、更有效的用户界面。
多模型集成和比较：探索如何结合多个模型的优势，以及如何比较不同模型在特定任务上的表现。
长期跟踪和评估：随着LLMs的快速发展，长期跟踪和评估模型的性能变化，以及它们如何应对新的挑战和任务。
伦理和社会影响：研究LLMs在社会中的作用，包括它们可能带来的偏见、滥用问题，以及如何确保它们的使用符合伦理标准。
可扩展性和效率：研究如何提高评估过程的可扩展性和效率，特别是在处理大规模数据集和复杂模型时。
国际化和多语言支持：探索LLMs在不同语言和文化中的表现，以及如何改进它们对非英语语言的支持。

这些探索点可以帮助研究者更全面地理解和改进LLMs的性能，以及它们在实际应用中的潜力和限制。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以概括为以下几个要点：

问题识别：论文指出了使用多项选择题（MCQ）评估大型语言模型（LLMs）时存在的问题，包括选择偏差和随机猜测问题。
开放式问题提出：为了根本解决这些问题，论文提出了使用开放式问题作为评估LLMs的新方法。
评估基准建立：论文建立了一个新的评估基准，名为Open-LLM-Leaderboard，通过完全开放式问题来跟踪和反映不同LLMs的性能。
数据集和方法：介绍了如何从现有的MCQ数据集中筛选和转换问题，以创建适合开放式回答的数据集（OSQ-bench）。
评估策略：论文设计了一种自动评估策略，使用特定的提示和LLMs（如GPT-4）来验证开放式问题答案的正确性。
实验设计：进行了实验，评估了不同规模的LLMs在多个数据集上的性能，并与MCQ的表现进行了比较。
结果分析：发现所有模型在开放式问题上的准确率都显著低于多项选择题，这可能反映了模型在处理开放式问题时的真实能力。
排行榜创建：基于实验结果，创建了一个新的排行榜，展示了各模型在开放式问题上的表现。
可靠性验证：通过与人类评估者的比较，验证了自动评估策略的可靠性。
讨论与未来工作：论文讨论了Open-LLM-Leaderboard的优势和潜在局限性，并提出了未来可能的研究方向。
伦理和隐私：论文最后讨论了使用公共数据集和问题答案对用户隐私的最小影响。

论文通过提出新的评估方法和基准，为更准确、更全面地评估LLMs提供了一种新的视角，并为未来的研究和应用奠定了基础。

Open-LLM-Leaderboard：从MCQ到OSQ的进化

OSQ-bench：一个开放式问题的基准

Open-LLM-Leaderboard：一个公平的竞技场

告别选择题，拥抱开放式未来

发表评论 取消回复

发表评论取消回复