LLM测评榜

主要围绕大语言模型（LLM）和多模态模型的评测榜单展开。涵盖了多个评测平台，如LiveCodeBench、OpenCompass司南、AGI - Eval评测社区等。涉及众多模型，如Gemini - 2.5系列、Qwen系列、InternVL系列等，使用多种评测数据集，包括OlympicArena、RM - Bench、UGMathBench等，从代码能力、语言理解、视觉处理、多模态推理等多维度对模型进行评估。

OpenCompass是LLM评估平台，支持众多模型在超100个数据集上评测；SuperCLUE关注中文原生检索增强生成测评；LLM Leaderboard 2024展示2024年4月后模型公开基准性能；MMBench用于多模态模型评测。

核心功能

模型排名展示：为不同模型提供综合或特定维度的排名，如LiveCodeBench对模型代码能力排名，OpenCompass司南、OpenCompass和MMBench、有大语言模型、多模态模型等不同类型排名。
评测数据支持：采用多种评测数据集对模型进行全面评估，如AGI - Eval评测社区的OlympicArena涵盖七大学科领域，RM - Bench评估奖励模型能力，SuperCLUE开展中文原生检索增强生成基准测评。
信息参考：为行业和研究提供全面、客观、中立的评估参考，帮助用户了解模型优缺点，做出选择。

技术原理

通过构建不同的评测数据集和评测指标体系，对模型在特定任务上的表现进行量化评估。如OlympicArena通过一系列学科挑战任务评估人工智能高阶能力；RM - Bench从敏感度和鲁棒性两方面评估奖励模型。依据这些评测结果，按照一定规则生成模型的排名。OpenCompass等平台通过构建多类型评测数据集，让模型在这些数据集上完成任务，根据任务表现进行量化评分。如SuperCLUE针对检索增强生成能力构建特定评测体系，以评估模型在知识获取和生成内容准确性等方面的表现。

应用场景

模型选择：企业和开发者在选择合适的大语言模型或多模态模型时，可参考榜单排名和评测信息。
技术研究：研究人员可根据评测数据了解模型在不同维度的性能，为模型的改进和优化提供方向。
行业标准制定：有助于推动行业建立统一的评测标准和规范，促进人工智能技术的健康发展。
Overview Leaderboard | LMArena
AI Model & API Providers Analysis | Artificial Analysis
LiveCodeBench Leaderboard
OpenCompass司南 - 评测榜单
AGI-Eval评测社区
open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.
SuperCLUE
LLM Leaderboard 2024
MMBench
https://huggingface.co/spaces/gaia-benchmark/leaderboard

⬆ 返回README目录 ⬆ Back to Contents