FlagEval是由北京智源人工智能研究院推出的大模型评测体系及开放平台。它旨在建立科学、公正、开放的评测基准、方法和工具集,协助研究人员全方位评估基础模型及训练算法的性能。FlagEval采用“能力-任务-指标”三维评测框架,从多个维度全面评估大模型的认知能力。目前,该平台已覆盖自然语言处理(NLP)、计算机视觉(CV)、音频和多模态领域,支持多种任务和指标。
网站域名:flageval.baai.ac.cn
更新日期:2025-03-23
网站简称:FlagEval
网站分类:AI 开源模型
人气指数:9