Update NLTK version in `*ifeval` tasks ( #2210 ) #2259

haileyschoelkopf · 2024-08-28T17:07:37Z

closes #2210 .

Forces nltk>=3.9 to be used in order to avoid

before:

hf (pretrained=meta-llama/Meta-Llama-3.1-8B-Instruct), gen_kwargs: (None), limit: None, num_fewshot: None, batch_size: auto
|      Tasks       |Version|Filter|n-shot|        Metric         |   |Value |   |Stderr|
|------------------|------:|------|-----:|-----------------------|---|-----:|---|------|
|ifeval            |      3|none  |     0|inst_level_loose_acc   |↑  |0.8633|±  |   N/A|
|                  |       |none  |     0|inst_level_strict_acc  |↑  |0.8333|±  |   N/A|
|                  |       |none  |     0|prompt_level_loose_acc |↑  |0.8041|±  |0.0171|
|                  |       |none  |     0|prompt_level_strict_acc|↑  |0.7616|±  |0.0183|
|leaderboard_ifeval|      2|none  |     0|inst_level_loose_acc   |↑  |0.8633|±  |   N/A|
|                  |       |none  |     0|inst_level_strict_acc  |↑  |0.8321|±  |   N/A|
|                  |       |none  |     0|prompt_level_loose_acc |↑  |0.8041|±  |0.0171|
|                  |       |none  |     0|prompt_level_strict_acc|↑  |0.7597|±  |0.0184|

after:

hf (pretrained=meta-llama/Meta-Llama-3.1-8B-Instruct), gen_kwargs: (None), limit: None, num_fewshot: None, batch_size: auto
|      Tasks       |Version|Filter|n-shot|        Metric         |   |Value |   |Stderr|
|------------------|------:|------|-----:|-----------------------|---|-----:|---|------|
|ifeval            |      4|none  |     0|inst_level_loose_acc   |↑  |0.8633|±  |   N/A|
|                  |       |none  |     0|inst_level_strict_acc  |↑  |0.8333|±  |   N/A|
|                  |       |none  |     0|prompt_level_loose_acc |↑  |0.8041|±  |0.0171|
|                  |       |none  |     0|prompt_level_strict_acc|↑  |0.7616|±  |0.0183|
|leaderboard_ifeval|      3|none  |     0|inst_level_loose_acc   |↑  |0.8645|±  |   N/A|
|                  |       |none  |     0|inst_level_strict_acc  |↑  |0.8321|±  |   N/A|
|                  |       |none  |     0|prompt_level_loose_acc |↑  |0.8059|±  |0.0170|
|                  |       |none  |     0|prompt_level_strict_acc|↑  |0.7597|±  |0.0184|

cc @clefourrier @NathanHB for visibility since this edits (although I do see prompt_level_loose_acc changing by 1 example's worth, scores should theoretically not be modified. Merging this anyway since this fixes a vulnerability from NLTK though.)

update nltk version to require 3.9.1

323327e

haileyschoelkopf requested review from lintangsutawika and baberabb as code owners August 28, 2024 17:07

baberabb approved these changes Aug 28, 2024

View reviewed changes

baberabb merged commit 2de3688 into main Aug 28, 2024
9 checks passed

baberabb deleted the 2210-nltk-punkt-fix branch August 28, 2024 17:17

jmercat pushed a commit to TRI-ML/lm-evaluation-harness that referenced this pull request Sep 25, 2024

update nltk version to require 3.9.1 (EleutherAI#2259)

3462b6d

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Update NLTK version in `*ifeval` tasks ( #2210 ) #2259

Update NLTK version in `*ifeval` tasks ( #2210 ) #2259

haileyschoelkopf commented Aug 28, 2024

Update NLTK version in *ifeval tasks ( #2210 ) #2259

Update NLTK version in *ifeval tasks ( #2210 ) #2259

Conversation

haileyschoelkopf commented Aug 28, 2024

Update NLTK version in `*ifeval` tasks ( #2210 ) #2259

Update NLTK version in `*ifeval` tasks ( #2210 ) #2259