HELM
工具介绍:HELM是斯坦福大学开发的语言模型整体评估系统,通过场景、适配和指标三个模块,全面评估英语语言模型在准确率、鲁棒性等7个方面的表现,涵盖问答、摘要等多种任务。
收录时间:2024-06-09 12:34:56
打开网站HELM 工具信息
目录
HELM:斯坦福大学的大语言模型评测体系
HELM(Holistic Evaluation of Language Models)是由斯坦福大学开发的一套全面的语言模型评估系统。这个评测体系主要由三个核心模块构成:
- 场景
- 适配
- 指标
每次评测都需要明确指定这三个要素:一个特定场景、一个用于适配模型的提示,以及一个或多个评估指标。
HELM的评测范围
HELM主要针对英语语言模型进行评估,包含7个关键指标:
- 准确率
- 不确定性/校准
- 鲁棒性
- 公平性
- 偏差
- 毒性
- 推断效率
评测任务
HELM涵盖的任务类型包括但不限于:
- 问答
- 信息检索
- 文本摘要
- 文本分类
通过这些多样化的任务和指标,HELM旨在全面评估语言模型的性能和特性。
评论 (0)
暂无评论