FlagEval

FlagEval是由北京智源人工智能研究院推出的大模型评测体系及开放平台。它旨在建立科学、公正、开放的评测基准、方法和工具集，协助研究人员全方位评估基础模型及训练算法的性能。FlagEval采用“能力-任务-指标”三维评测框架，从多个维度全面评估大模型的认知能力。目前，该平台已覆盖自然语言处理（NLP）、计算机视觉（CV）、音频和多模态领域，支持多种任务和指标。

网站域名：flageval.baai.ac.cn 更新日期：2025-03-23 网站简称：FlagEval 网站分类：AI 开源模型人气指数：9

进入网站同类网站

站内搜索