LongBench-Chat评测Qwen2.5-72B-Instruct指标不一致问题 #1148

ZayIsAllYouNeed · 2024-12-26T05:06:45Z

ZayIsAllYouNeed
Dec 26, 2024

尊敬的作者、同行，您好，我用LongBench-Chat的官方代码（https://github.com/THUDM/LongAlign/tree/main/LongBench_Chat）评测了Qwen2.5-72B-Instruct的128K上下文指标，
（将代码中的transformers推理更改为vllm推理，Qwen的config.json加上YaRN外推128K配置，其他参数均未变），
评估2次结果分别为8.42、8.44，没有达到技术报告上的8.72，请问评测过程有什么需要特别注意的地方吗？
我需要做什么以复现8.72的结果呢？

jklj077 · 2024-12-26T12:13:38Z

jklj077
Dec 26, 2024
Maintainer

cc: @hzhwcmhf

0 replies

xs1997zju · 2025-01-08T07:08:45Z

xs1997zju
Jan 8, 2025

+1 无法复现技术报告中的LongBenchChat指标

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LongBench-Chat评测Qwen2.5-72B-Instruct指标不一致问题 #1148

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 2 comments

{{title}}

{{title}}

Select a reply

LongBench-Chat评测Qwen2.5-72B-Instruct指标不一致问题 #1148

ZayIsAllYouNeed Dec 26, 2024

Replies: 2 comments

jklj077 Dec 26, 2024 Maintainer

xs1997zju Jan 8, 2025

ZayIsAllYouNeed
Dec 26, 2024

jklj077
Dec 26, 2024
Maintainer

xs1997zju
Jan 8, 2025