LLM评测数据集

现状、背景

当前 LLM 发展迅速，各个公司和研究机构都相继推出了自研的通用 LLM 模型，宣传稿中都自称自研的 LLM 模型性能优越，超越同类竞品，对标 ChatGPT。
为了帮助大家客观判断每一家公司或机构 LLM 模型的效果，特制定本数据集（jionlp-LLM-test-1.0），用于评测各个自研 LLM 的效果。

题库版本	说明
综合测试题1.0	初版测试题，覆盖各方面的任务和模型能力
综合测试题1.1	优化初版的一些低质题，增加高价值应用能力

>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader(version='1.1')
>>> print(llm_test[15])

模型	公司/机构	评分	日期	渠道
GPT4	OpenAI	86	2023-05-22	官网
ChatGPT3.5	OpenAI	82	2023-04-30	官网
文心一言	百度	59	2023-04-30	官网
星火大模型	讯飞	55	2023-05-01	官网
ChatGLM-6B	清华	45	2023-05-15	开源Git本地部署
通义千问	阿里巴巴
360	智脑	68	2023-05-22	官网
Anthropic	Claude-Instant	66	2023-05-31	Poe网站
昆仑万维	天工