HELM

工具介绍:HELM是斯坦福大学开发的语言模型整体评估系统,通过场景、适配和指标三个模块,全面评估英语语言模型在准确率、鲁棒性等7个方面的表现,涵盖问答、摘要等多种任务。

收录时间:2024-06-09 12:34:56

打开网站

HELM 工具信息

目录

    HELM:斯坦福大学的大语言模型评测体系

    HELM(Holistic Evaluation of Language Models)是由斯坦福大学开发的一套全面的语言模型评估系统。这个评测体系主要由三个核心模块构成:

    • 场景
    • 适配
    • 指标

    每次评测都需要明确指定这三个要素:一个特定场景、一个用于适配模型的提示,以及一个或多个评估指标。

    HELM的评测范围

    HELM主要针对英语语言模型进行评估,包含7个关键指标:

    1. 准确率
    2. 不确定性/校准
    3. 鲁棒性
    4. 公平性
    5. 偏差
    6. 毒性
    7. 推断效率

    评测任务

    HELM涵盖的任务类型包括但不限于:

    • 问答
    • 信息检索
    • 文本摘要
    • 文本分类

    通过这些多样化的任务和指标,HELM旨在全面评估语言模型的性能和特性。

    评论 (0)

    暂无评论