PubMedQA
工具介绍:探索PubMedQA:包含273,500个问答实例的全面生物医学数据集,涵盖专家标注、未标注和人工生成数据。查看18个模型的医学测试排行榜,助力生物医学自然语言处理研究。
收录时间:2024-06-09 12:34:56
PubMedQA 工具信息
PubMedQA:全面的生物医学问答数据集
PubMedQA是一个广泛的生物医学研究问答资源,其特点如下:
- 包含1,000个经专家标注的高质量问答实例
- 提供61,200个未经标注的问答样本,为研究者提供更多数据
- 还包括211,300个通过人工方式生成的问答对
此外,PubMedQA还设立了一个权威的排行榜,目前已收录18个不同模型在医学测试中的表现得分,为研究者提供了宝贵的性能比较基准。
PubMedQA 替代品

Open LLM Leaderboard
探索HuggingFace的Open LLM Leaderboard,一个用于评估开源大型语言模型性能的平台。了解其采用的四大关键基准测试,包括AI2推理挑战、HellaSwag、MMLU和Tr...

FlagEval
FlagEval(天秤)是智源研究院开发的全面大模型评测平台,采用三维评测框架,提供30多种能力、5种任务和4大类指标的评测,涵盖600多个维度,包含84,433道题目,旨在全面评估大模型性能。
评论 (0)
暂无评论