2.LLM模型评估+RAG评估框架

2.LLM模型评估+RAG评估框架

LLM评估框架模块建立了多维度、全覆盖的大模型评估生态系统,涵盖通用能力测评、RAG系统评估和隐私安全检测。权威评测平台CLiB中文大模型榜单(128个模型全覆盖,包含ChatGPT、GPT-4o、Gemini、文心一言、通义千问等商用模型,以及Qwen2.5、Llama3.1、GLM4、InternLM2.5等开源模型)、OpenCompass司南(全方位能力评估)、魔塔EvalScope(流水线式评测框架)。

RAG专项评估RAGas(RAG Assessment专业框架)、Arize Phoenix(AI可观测性与评估)、DeepEval(LLM评估框架)、ChainForge(Prompt对战测试)等。多模态评估集成谷歌LMEval跨模型评估框架。隐私安全提供微软Presidio(PII敏感数据检测、编辑、掩码和匿名化),支持文本、图像和结构化数据的全方位隐私保护,确保模型应用的合规性和安全性。

1.CLiB中文大模型能力评测榜单

简介

ReLE(Really Reliable Live Evaluation for LLM)是一个中文大模型能力评测项目,原名CLiB。目前已涵盖257个大模型,包括商用和开源模型。支持多维度能力评测,涉及医疗、教育等8个领域及约300个细分维度,提供排行榜和超200万的大模型缺陷库,还为私有大模型提供免费评测服务。

总分.png

核心功能

应用场景

-----------------------------------------------------------

1.opencompass司南

简介

OpenCompass是面向大模型评测的一站式平台,提供丰富算法和功能支持,能帮助社区便捷、公平、全面地评估NLP模型性能,已被Meta AI官方推荐。

Snipaste<em>2025-07-19</em>13-52-12.png

Snipaste<em>2025-07-19</em>13-52-20.png

核心功能

技术原理

OpenCompass提供丰富的配置文件和工具,支持基于规则和LLM Judge的推荐配置,利用分布式计算技术实现高效评测。对于支持Huggingface AutoModel类或OpenAI接口推理引擎封装的模型,可直接进行评估。

应用场景

------------------------------------------------------------

2.魔塔evalscope

简介

EvalScope 是由 ModelScope 社区精心打造的综合模型评估与性能基准测试框架,为模型评估提供一站式解决方案,可满足大语言模型、多模态模型、嵌入模型等多种类型模型的评估需求,集成多个行业认可的基准和评估指标,能进行模型推理性能压力测试,还可与 ms - swift 训练框架无缝集成。

68747470733a2f2f7361696c2d6d6f652e6f73732d636e2d68616e677a686f752e616c6979756e63732e636f6d2f79756e6c696e2f696d616765732f6576616c73636f70652f646f632f4576616c53636f70652545362539452542362545362539452538342545352539422542452e706e67.png

核心功能

技术原理

EvalScope 架构包含多个模块:

应用场景

------------------------------------------------------------

1.Arize Phoenix

简介

Arize Phoenix是一个开源的AI可观测性平台,具有隐私性和可定制性,可自行托管或通过免费云实例访问。它基于OpenTelemetry协议,功能全面,涵盖追踪、评估、实验等,与超20个框架集成,对所有集成一视同仁。此外,针对高级需求组织,Arize还提供企业级平台。

核心功能

技术原理

由OpenTelemetry协议提供支持,该协议是经过实战检验的行业标准可观测性库,能使为Phoenix编写的代码在数十个其他平台上重复使用。

应用场景

适用于构建、评估和量产LLM应用程序的场景,可帮助用户在不同开发流程中对模型进行观测和优化。

------------------------------------------------------------

1.DeepEval

简介

涉及三款与大语言模型(LLM)相关的工具。DeepEval 是开源的 LLM 评估框架,支持“单元测试”LLM 输出、使用多种评估指标、生成合成数据集、红队测试及实时评估等,还有配套云平台 Confident AI。Phoenix 是开源 AI 可观测性平台,提供追踪、评估、数据集管理、实验、 playground、提示管理等功能,支持多框架和 LLM 提供商,可在多环境运行。

核心功能

技术原理

应用场景

------------------------------------------------------------

1.RAGas(RAG Assessment)

简介

Ragas (RAG Assessment) 是一个开源框架,专为评估检索增强生成 (RAG) 管道及其他大型语言模型 (LLM) 应用程序而设计。它旨在帮助开发者量化其LLM应用的性能,提供客观的评估指标和数据驱动的洞察,从而简化和提升LLM应用(特别是RAG系统)的测试和改进过程。

核心功能

技术原理

Ragas 的核心技术原理在于其指标驱动的评估方法。它通过定义和计算一系列专门针对RAG和LLM应用设计的评估指标来量化系统性能。这些指标并非基于传统的NLP评估方法,而是聚焦于LLM输出的独特特性,如答案与检索到的上下文的一致性(忠实度)、答案对提问的响应程度(答案相关性),以及检索到的上下文能否完全覆盖答案所需信息(上下文召回率)和是否包含冗余信息(上下文精确度)。通过这些客观指标,Ragas能够提供细致的性能分析,指导用户进行基于数据的功能改进和模型调优。

应用场景

------------------------------------------------------------

3.RAG评估框架

250913114-570879ef-ef8a-4e00-b37c-b49bc3c1a370.png

简介

核心功能

技术原理

应用场景

更多rag评估

------------------------------------------------------------

4.多模态AI评估框架-谷歌

简介

LMEval是由Google发布的一个开源框架,旨在提供一个统一、高效且一致的评估工具,用于评估各种大型语言模型(LLMs)和多模态模型(如文本、图像和代码)。它致力于简化跨平台模型性能比较的复杂性,并为开发者和研究人员提供一个易于使用的标准化评估基准,以加速AI技术的普及和创新。

核心功能

技术原理

应用场景

------------------------------------------------------------

5.PII隐私保护

简介

Presidio 是微软开源的用于检测、编辑、屏蔽和匿名化敏感数据(PII)的框架,涵盖文本、图像和结构化数据。它提供快速识别和匿名化模块,能检测如信用卡号、姓名、位置等多种敏感信息,支持多语言,具有可扩展性和定制性。

核心功能

技术原理

Presidio 利用命名实体识别(NER)、正则表达式、基于规则的逻辑和校验和等技术,结合上下文信息,在多种语言中识别 PII 实体。同时,它支持连接外部 PII 检测模型,增强识别能力。对于图像,通过 OCR 技术识别文本,再进行 PII 处理。

应用场景

------------------------------------------------------------

⬆ 返回README目录 ⬆ Back to Contents