Skip to content

Latest commit

 

History

History
executable file
·
51 lines (37 loc) · 1.78 KB

eval_math_cn.md

File metadata and controls

executable file
·
51 lines (37 loc) · 1.78 KB

eval_math

数据集

datasets/MATH/math.txt. math测试集,共包含458个问题。

其中,“[SEP]”之前的内容是原始问题,“[SEP]”之后的内容是该问题的标准答案。

评测

说明

examples/eval_math_2x32B.sh. 运行该程序即可获得模型在math数据集上的推理结果。

代码中的变量设置如下:

变量名 解释
CHECKPOINT_PATH 待评测checkpoint的路径
TOKENIZER_MODEL_PATH tokenizer的路径
MATH_DATA 待测试数据集的路径
OUTPUT_PATH 推理结果的保存路径

运行

运行以下命令获得推理结果:

bash -x examples/eval_math_2x32B.sh

结果

评测结果将保存在 OUTPUT_PATH中。其中,“[SEP]”之前的内容为原始问题,“[SEP]”之后的内容是模型对该问题的解析。

准确率

说明

tasks/MATH/score_math.py. 运行该程序即可获得math评测结果的准确率。

代码中的变量设置如下:

变量名称 说明
origin_file_path 测试集的保存路径
eval_file_path 评测结果文件的保存路径
txt_eval_res_dir 准确率评判结果的保存路径,以"true"结尾的文件中为正确结果,以"false"结尾的文件中为错误结果。

运行

执行以下命令以评估模型在测试集上的准确率:

python score_math.py

结果

“Number of correct answers”和“Number of incorrect answers”分别表示回答正确答案数和回答错误答案数,“accuracy”表示准确率。