Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Idea] 关于大模型 Benchmark 的相关工作 #50

Open
will-ww opened this issue Aug 28, 2023 · 2 comments
Open

[Idea] 关于大模型 Benchmark 的相关工作 #50

will-ww opened this issue Aug 28, 2023 · 2 comments

Comments

@will-ww
Copy link
Contributor

will-ww commented Aug 28, 2023

随着大模型的飞速发展,各种相关的 benchmark 也层出不穷,开此 issue 收集相关工作,以促进思考与后续可能的工作~

1、BIG-bench(Google)

Jeff Dean 等人架构的 PaLM 模型中,同时提出了 BIG-Bench 大模型专用基准,与其他算法进行多项任务测试。

2、、HELM(Stanford)

3、Chatbot Arena(UC Berkeley)

An open platform for training, serving, and evaluating large language models.

4、SuperCLUE

中文通用大模型综合性基准:https://cluebenchmarks.com/index.html

5、Open LLMs Benchmark 开放大模型评测标准委员会(中国)

AIGC 开放社区联合大模型厂商、服务商、开源社区、应用方等共同成立一个独立的第三方 Open LLMs Benchmark,旨在构建一个公开、透明、可靠的大模型评测标准框架,为全球相关研究者、开发者和企业提供参考。

6、JioNLP

考察 LLM 模型对人类用户的帮助效果、辅助能力,可否达到一个智能助手的水平:https://github.com/dongrixinyu/JioNLP/

7、GAOKAO-Bench

是一个以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架。https://github.com/OpenLMLab/GAOKAO-Bench

8、c_eval

是上交、清华以及爱丁堡大学合作产出的一个评测集,包含52个学科来评估大模型高级知识和推理能力,其评估了包含 GPT-4、ChatGPT、Claude、LLaMA、Moss 等多个模型的性能。https://arxiv.org/pdf/2305.08322.pdf

9、CLiB

中文大模型能力评测榜单:https://github.com/jeinlee1991/chinese-llm-benchmark

10、其他参考

@bifenglin
Copy link
Collaborator

非常齐全!

@bifenglin
Copy link
Collaborator

AIOSS-2018的邀请链接已失效,麻烦再邀请一下。。。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants