LLM测评榜

LLM测评榜

主要围绕大语言模型(LLM)和多模态模型的评测榜单展开。涵盖了多个评测平台,如LiveCodeBench、OpenCompass司南、AGI - Eval评测社区等。涉及众多模型,如Gemini - 2.5系列、Qwen系列、InternVL系列等,使用多种评测数据集,包括OlympicArena、RM - Bench、UGMathBench等,从代码能力、语言理解、视觉处理、多模态推理等多维度对模型进行评估。

OpenCompass是LLM评估平台,支持众多模型在超100个数据集上评测;SuperCLUE关注中文原生检索增强生成测评;LLM Leaderboard 2024展示2024年4月后模型公开基准性能;MMBench用于多模态模型评测。

核心功能

技术原理

通过构建不同的评测数据集和评测指标体系,对模型在特定任务上的表现进行量化评估。如OlympicArena通过一系列学科挑战任务评估人工智能高阶能力;RM - Bench从敏感度和鲁棒性两方面评估奖励模型。依据这些评测结果,按照一定规则生成模型的排名。OpenCompass等平台通过构建多类型评测数据集,让模型在这些数据集上完成任务,根据任务表现进行量化评分。如SuperCLUE针对检索增强生成能力构建特定评测体系,以评估模型在知识获取和生成内容准确性等方面的表现。

应用场景

⬆ 返回README目录 ⬆ Back to Contents