We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
随着大模型的飞速发展,各种相关的 benchmark 也层出不穷,开此 issue 收集相关工作,以促进思考与后续可能的工作~
1、BIG-bench(Google)
Jeff Dean 等人架构的 PaLM 模型中,同时提出了 BIG-Bench 大模型专用基准,与其他算法进行多项任务测试。
2、、HELM(Stanford)
3、Chatbot Arena(UC Berkeley)
An open platform for training, serving, and evaluating large language models.
4、SuperCLUE
中文通用大模型综合性基准:https://cluebenchmarks.com/index.html
5、Open LLMs Benchmark 开放大模型评测标准委员会(中国)
AIGC 开放社区联合大模型厂商、服务商、开源社区、应用方等共同成立一个独立的第三方 Open LLMs Benchmark,旨在构建一个公开、透明、可靠的大模型评测标准框架,为全球相关研究者、开发者和企业提供参考。
6、JioNLP
考察 LLM 模型对人类用户的帮助效果、辅助能力,可否达到一个智能助手的水平:https://github.com/dongrixinyu/JioNLP/
7、GAOKAO-Bench
是一个以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架。https://github.com/OpenLMLab/GAOKAO-Bench
8、c_eval
是上交、清华以及爱丁堡大学合作产出的一个评测集,包含52个学科来评估大模型高级知识和推理能力,其评估了包含 GPT-4、ChatGPT、Claude、LLaMA、Moss 等多个模型的性能。https://arxiv.org/pdf/2305.08322.pdf
9、CLiB
中文大模型能力评测榜单:https://github.com/jeinlee1991/chinese-llm-benchmark
10、其他参考
The text was updated successfully, but these errors were encountered:
非常齐全!
Sorry, something went wrong.
AIOSS-2018的邀请链接已失效,麻烦再邀请一下。。。
No branches or pull requests
随着大模型的飞速发展,各种相关的 benchmark 也层出不穷,开此 issue 收集相关工作,以促进思考与后续可能的工作~
1、BIG-bench(Google)
Jeff Dean 等人架构的 PaLM 模型中,同时提出了 BIG-Bench 大模型专用基准,与其他算法进行多项任务测试。
2、、HELM(Stanford)
3、Chatbot Arena(UC Berkeley)
An open platform for training, serving, and evaluating large language models.
4、SuperCLUE
中文通用大模型综合性基准:https://cluebenchmarks.com/index.html
5、Open LLMs Benchmark 开放大模型评测标准委员会(中国)
AIGC 开放社区联合大模型厂商、服务商、开源社区、应用方等共同成立一个独立的第三方 Open LLMs Benchmark,旨在构建一个公开、透明、可靠的大模型评测标准框架,为全球相关研究者、开发者和企业提供参考。
6、JioNLP
考察 LLM 模型对人类用户的帮助效果、辅助能力,可否达到一个智能助手的水平:https://github.com/dongrixinyu/JioNLP/
7、GAOKAO-Bench
是一个以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架。https://github.com/OpenLMLab/GAOKAO-Bench
8、c_eval
是上交、清华以及爱丁堡大学合作产出的一个评测集,包含52个学科来评估大模型高级知识和推理能力,其评估了包含 GPT-4、ChatGPT、Claude、LLaMA、Moss 等多个模型的性能。https://arxiv.org/pdf/2305.08322.pdf
9、CLiB
中文大模型能力评测榜单:https://github.com/jeinlee1991/chinese-llm-benchmark
10、其他参考
The text was updated successfully, but these errors were encountered: