GitHub - YoutechA320U/ELYZA-tasks-100-AutoEval: llama-cpp-pythonのggufでllama-cpp-pythonのggufを評価するスクリプト

ELYZA-tasks100-AutoEval

gguf量子化したgemma-2-27b-itでELYZA-tasks100を自動評価します。

ELYZA-tasks100-ansuwer_*.pyは評価対象のggufモデルにELYZA-tasks100（test.csv）を回答させます。answer.csvが生成されます。

ELYZA-tasks100-judge_gemma-2.pyはgguf量子化したgemma-2-27b-itにanswer.csvを採点させます。judge.csvが生成されます。

ELYZA-tasks100-result.pyはELYZA-tasks100（test.csv）とanswer.csvとjudge.csvを結合します。result.csvが生成されます。

gemma-2-27b-it-Q6_K-3436.gguf(llama.cpp_b3436)による自動評価(評価/被評価共にtemplreture=0.8)

※VRAM28GB環境で検証しています。

リンクの無いものはconvert_hf_to_gguf.pyで自前で量子化したもの。

モデル名など	スコア
Qwen2.5-32B-Instruct-imatrix-Q5_K_M-3787.gguf	3.98
Qwen2.5-32B-Instruct-imatrix-Q4_K_M-3787.gguf	3.92
gemma-2-27b-it-imatrix-Q6_K-3490.gguf	3.89
Qwen2.5-32B-Instruct-Q4_K_M.gguf	3.88
gemma-2-27b-it-Q6_K-3436.gguf	3.86
EZO-Humanities-9B-gemma-2-it-Q8_0-3436.gguf	3.83
dahara1/gemma-2-27b-it.Q4_K_M.gguf	3.82
Gemma-2-9B-It-SPPO-Iter3-Q8_0-3436.gguf	3.82
EZO-Common-9B-gemma-2-it-f16-3436.gguf	3.74
EZO-Common-9B-gemma-2-it-Q8_0-3436.gguf	3.73
EZO-Humanities-9B-gemma-2-it-f16-3436.gguf	3.68
dahara1/gemma-2-9b-it.f16.Q8.gguf	3.61
YukiTomita-CC/ELYZA-tasks-100_Human_solved	3.58
grapevine-AI/calm3-22b-chat-Q6_K.gguf	3.53
Llama-3-ELYZA-JP-8B-Q8_0.gguf	3.38
Ninja-V3-Q8_0.gguf	3.27
mistral-yuki-7B-Q8_0.gguf	3.12
Oumuamua-7b-instruct-v2-Q8_0.gguf	3.11
Ninja-V2-7B-Q8_0.gguf	3.09
Ninja-v1-NSFW-Q_8_0.gguf	2.88
japanese-starling-chatv-7b.Q8_0.gguf	2.87
Japanese-Chat-Umievo-itr001-7b.Q8_0.gguf	2.83
chatntq-ja-7b-v1.0.Q8_0.gguf	2.55
ELYZA-japanese-Llama-2-13b-instruct-Q8_0.gguf	2.52
ReadyON/karakuri-lm-8x7b-instruct-v0.1-IQ3_XS.gguf	2.44
TheBloke/calm2-7b-chat.Q8_0.gguf	2.15

備考

採点テンプレートはうみゆき氏の次の記事のものをお借りしました。

ライセンスはELYZA-task-100に依存します。

履歴

[2024/07/15] - 初回リリース
[2024/07/22] - answer.csvに使用モデルを、judge.csvに平均点を追記するよう対応
[2024/07/22] - Qwen2に対応
[2024/07/22] - 採点者をgemma-2-27b-it-Q6_K前提に変更
[2024/09/20] - Qwen2.5に対応していることを追記

Name		Name	Last commit message	Last commit date
Latest commit History 40 Commits
.gitattributes		.gitattributes
.gitignore		.gitignore
ELYZA-tasks100-ansuwer_calm2.py		ELYZA-tasks100-ansuwer_calm2.py
ELYZA-tasks100-ansuwer_calm3.py		ELYZA-tasks100-ansuwer_calm3.py
ELYZA-tasks100-ansuwer_gemma-2.py		ELYZA-tasks100-ansuwer_gemma-2.py
ELYZA-tasks100-ansuwer_karakuri.py		ELYZA-tasks100-ansuwer_karakuri.py
ELYZA-tasks100-ansuwer_llama2.py		ELYZA-tasks100-ansuwer_llama2.py
ELYZA-tasks100-ansuwer_llama3.py		ELYZA-tasks100-ansuwer_llama3.py
ELYZA-tasks100-ansuwer_qwen2.py		ELYZA-tasks100-ansuwer_qwen2.py
ELYZA-tasks100-judge_gemma-2.py		ELYZA-tasks100-judge_gemma-2.py
ELYZA-tasks100-result.py		ELYZA-tasks100-result.py
README.md		README.md
test.csv		test.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ELYZA-tasks100-AutoEval

gemma-2-27b-it-Q6_K-3436.gguf(llama.cpp_b3436)による自動評価(評価/被評価共にtemplreture=0.8)

備考

履歴

About

Releases

Packages

Languages

YoutechA320U/ELYZA-tasks-100-AutoEval

Folders and files

Latest commit

History

Repository files navigation

ELYZA-tasks100-AutoEval

gemma-2-27b-it-Q6_K-3436.gguf(llama.cpp_b3436)による自動評価(評価/被評価共にtemplreture=0.8)

備考

履歴

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages