gguf量子化したgemma-2-27b-itでELYZA-tasks100を自動評価します。
ELYZA-tasks100-ansuwer_*.py
は評価対象のggufモデルにELYZA-tasks100(test.csv
)を回答させます。answer.csv
が生成されます。
ELYZA-tasks100-judge_gemma-2.py
はgguf量子化したgemma-2-27b-itにanswer.csv
を採点させます。judge.csv
が生成されます。
ELYZA-tasks100-result.py
はELYZA-tasks100(test.csv
)とanswer.csv
とjudge.csv
を結合します。result.csv
が生成されます。
※VRAM28GB環境で検証しています。
リンクの無いものはconvert_hf_to_gguf.pyで自前で量子化したもの。
モデル名など | スコア |
---|---|
Qwen2.5-32B-Instruct-imatrix-Q5_K_M-3787.gguf | 3.98 |
Qwen2.5-32B-Instruct-imatrix-Q4_K_M-3787.gguf | 3.92 |
gemma-2-27b-it-imatrix-Q6_K-3490.gguf | 3.89 |
Qwen2.5-32B-Instruct-Q4_K_M.gguf | 3.88 |
gemma-2-27b-it-Q6_K-3436.gguf | 3.86 |
EZO-Humanities-9B-gemma-2-it-Q8_0-3436.gguf | 3.83 |
dahara1/gemma-2-27b-it.Q4_K_M.gguf | 3.82 |
Gemma-2-9B-It-SPPO-Iter3-Q8_0-3436.gguf | 3.82 |
EZO-Common-9B-gemma-2-it-f16-3436.gguf | 3.74 |
EZO-Common-9B-gemma-2-it-Q8_0-3436.gguf | 3.73 |
EZO-Humanities-9B-gemma-2-it-f16-3436.gguf | 3.68 |
dahara1/gemma-2-9b-it.f16.Q8.gguf | 3.61 |
YukiTomita-CC/ELYZA-tasks-100_Human_solved | 3.58 |
grapevine-AI/calm3-22b-chat-Q6_K.gguf | 3.53 |
Llama-3-ELYZA-JP-8B-Q8_0.gguf | 3.38 |
Ninja-V3-Q8_0.gguf | 3.27 |
mistral-yuki-7B-Q8_0.gguf | 3.12 |
Oumuamua-7b-instruct-v2-Q8_0.gguf | 3.11 |
Ninja-V2-7B-Q8_0.gguf | 3.09 |
Ninja-v1-NSFW-Q_8_0.gguf | 2.88 |
japanese-starling-chatv-7b.Q8_0.gguf | 2.87 |
Japanese-Chat-Umievo-itr001-7b.Q8_0.gguf | 2.83 |
chatntq-ja-7b-v1.0.Q8_0.gguf | 2.55 |
ELYZA-japanese-Llama-2-13b-instruct-Q8_0.gguf | 2.52 |
ReadyON/karakuri-lm-8x7b-instruct-v0.1-IQ3_XS.gguf | 2.44 |
TheBloke/calm2-7b-chat.Q8_0.gguf | 2.15 |
採点テンプレートはうみゆき氏の次の記事のものをお借りしました。
ライセンスはELYZA-task-100に依存します。
[2024/07/15] - 初回リリース
[2024/07/22] - answer.csvに使用モデルを、judge.csvに平均点を追記するよう対応
[2024/07/22] - Qwen2に対応
[2024/07/22] - 採点者をgemma-2-27b-it-Q6_K前提に変更
[2024/09/20] - Qwen2.5に対応していることを追記