hello,感谢开源模型,我在几个公开的评测集上进行自评测,保证采用每个benchmark官方的评测框架,发现效果一般,是模型的某些参数导致的吗(例如温度,一般的benchmark默认采用0.0),这是我评测的结果: