Skip to content

LLM评测数据集

冬日新雨 edited this page Jun 16, 2023 · 21 revisions

现状、背景

  • 当前 LLM 发展迅速,各个公司和研究机构都相继推出了自研的通用 LLM 模型,宣传稿中都自称自研的 LLM 模型性能优越,超越同类竞品,对标 ChatGPT。
  • 为了帮助大家客观判断每一家公司或机构 LLM 模型的效果,特制定本数据集(jionlp-LLM-test-1.0),用于评测各个自研 LLM 的效果。

LLM 评测数据集简介

  • jionlp LLM 评测数据集主要用于评测通用 LLM 的效果评价。
  • 着眼点:考察 LLM 模型对人类用户的帮助效果、辅助能力,可否达到一个【智能助手】的水平。

LLM 评测数据集各版本说明

题库版本 说明
综合测试题1.0 初版测试题,覆盖各方面的任务和模型能力
综合测试题1.1 优化初版的一些低质题,增加高价值应用能力

加载数据集

>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])

测试结果

  • 以下测试模型结果均有 pdf 版本截图供验证参考,可关注 【JioNLP】 公众号下载查阅。
  • 有一些模型需要提供邀请码才可测试,欢迎大家提供邀请码,或直接使用测试题进行测试。
  • 该份测试结果均基于 1.0 版本。
模型 公司/机构 评分 日期 渠道
GPT4 OpenAI 86 2023-05-22 官网
ChatGPT3.5 OpenAI 82 2023-04-30 官网
文心一言 百度 59 2023-04-30 官网
星火大模型 讯飞 55 2023-05-01 官网
ChatGLM-6B 清华 45 2023-05-15 开源Git本地部署
通义千问 阿里巴巴
360 智脑 68 2023-05-22 官网
Anthropic Claude-Instant 66 2023-05-31 Poe网站
昆仑万维 天工