[Idea] 关于大模型 Benchmark 的相关工作 #50

will-ww · 2023-08-28T00:02:06Z

随着大模型的飞速发展，各种相关的 benchmark 也层出不穷，开此 issue 收集相关工作，以促进思考与后续可能的工作~

1、BIG-bench（Google）

Jeff Dean 等人架构的 PaLM 模型中，同时提出了 BIG-Bench 大模型专用基准，与其他算法进行多项任务测试。

2、、HELM（Stanford）

3、Chatbot Arena（UC Berkeley）

An open platform for training, serving, and evaluating large language models.

4、SuperCLUE

中文通用大模型综合性基准：https://cluebenchmarks.com/index.html

5、Open LLMs Benchmark 开放大模型评测标准委员会（中国）

AIGC 开放社区联合大模型厂商、服务商、开源社区、应用方等共同成立一个独立的第三方 Open LLMs Benchmark，旨在构建一个公开、透明、可靠的大模型评测标准框架，为全球相关研究者、开发者和企业提供参考。

6、JioNLP

考察 LLM 模型对人类用户的帮助效果、辅助能力，可否达到一个智能助手的水平：https://github.com/dongrixinyu/JioNLP/

7、GAOKAO-Bench

是一个以中国高考题目为数据集，测评大模型语言理解能力、逻辑推理能力的测评框架。https://github.com/OpenLMLab/GAOKAO-Bench

8、c_eval

是上交、清华以及爱丁堡大学合作产出的一个评测集，包含52个学科来评估大模型高级知识和推理能力，其评估了包含 GPT-4、ChatGPT、Claude、LLaMA、Moss 等多个模型的性能。https://arxiv.org/pdf/2305.08322.pdf

9、CLiB

10、其他参考

bifenglin · 2023-09-15T16:40:21Z

非常齐全！

bifenglin · 2023-09-15T16:44:50Z

AIOSS-2018的邀请链接已失效，麻烦再邀请一下。。。

Provide feedback