Add inference api eval wrapper #494

bmosaicml · 2023-07-31T18:12:18Z

This PR creates an inference API wrapper interface for eval. It also provides two concrete instantiations of the interface for both OpenAI chat models and regular OpenAI models. The current version works only for LM tasks. In the future we can support QA tasks and CodeGen. We CANNOT support multiple choice tasks, because the models don't return the full logits.

This interface is also the basis for Nikhil's Mosaic faster transformer inference eval PR #558

Test OpenAI APIs: openai-eval-leLuzi openai-eval-qUWZVI
Test HF models not broken: all-eval-WxT9fe

| model_name               |   average |   world_knowledge |   commonsense_reasoning |   language_understanding |   symbolic_problem_solving |   reading_comprehension |   world_knowledge_lm_task_subscore |   language_understanding_lm_task_subscore |   symbolic_problem_solving_lm_task_subscore |   reading_comprehension_lm_task_subscore |   world_knowledge_lite |   commonsense_reasoning_lite |   language_understanding_lite |   symbolic_problem_solving_lite |   reading_comprehension_lite |
|:-------------------------|----------:|------------------:|------------------------:|-------------------------:|---------------------------:|------------------------:|-----------------------------------:|------------------------------------------:|--------------------------------------------:|-----------------------------------------:|-----------------------:|-----------------------------:|------------------------------:|--------------------------------:|-----------------------------:|
| mosaicml/mpt-7b-instruct |  0.434033 |          0.398764 |                0.415097 |                 0.371509 |                   0.171216 |                0.414691 |                           0.576308 |                                  0.378966 |                                    0.273182 |                                 0.588472 |               0.376383 |                     0.636311 |                      0.692063 |                        0.195028 |                     0.588472 |

| model_name           |   average | world_knowledge   | commonsense_reasoning   | language_understanding   | symbolic_problem_solving   | reading_comprehension   |   world_knowledge_lm_task_subscore |   language_understanding_lm_task_subscore |   symbolic_problem_solving_lm_task_subscore |   reading_comprehension_lm_task_subscore | world_knowledge_lite   | commonsense_reasoning_lite   | language_understanding_lite   | symbolic_problem_solving_lite   |   reading_comprehension_lite |
|:---------------------|----------:|:------------------|:------------------------|:-------------------------|:---------------------------|:------------------------|-----------------------------------:|------------------------------------------:|--------------------------------------------:|-----------------------------------------:|:-----------------------|:-----------------------------|:------------------------------|:--------------------------------|-----------------------------:|
| openai/gpt-4         |  0.683983 |                   |                         |                          |                            |                         |                           0.656461 |                                  0.577393 |                                    0.843193 |                                 0.671434 |                        |                              |                               |                                 |                     0.671434 |
| openai/gpt-3.5-turbo |  0.529258 |                   |                         |                          |                            |                         |                           0.630127 |                                  0.456013 |                                    0.701307 |                                 0.429421 |                        |                              |                               |                                 |                     0.429421 |
| openai/davinci       |  0.475937 |                   |                         |                          |                            |                         |                           0.625064 |                                  0.439049 |                                    0.276832 |                                 0.519369 |                        |                              |                               |                                 |                     0.519369 |
| openai/ada           |  0.281576 |                   |                         |                          |                            |                         |                           0.283446 |                                  0.272376 |                                    0.156899 |                                 0.347579 |                        |                              |                               |                                 |                     0.347579 |

llmfoundry/models/inference_api_wrapper/openai_causal_lm.py

tests/test_inference_api_eval_wrapper.py

llmfoundry/models/inference_api_wrapper/interface.py

Co-authored-by: Daniel King <43149077+dakinggg@users.noreply.github.com>

…into add_openai_wrapper

tests/test_inference_api_eval_wrapper.py

bmosaicml and others added 30 commits July 14, 2023 16:41

add subset num batches

7e8511b

add subset num batches

059c43e

remove tiktoken

75c455c

remove openai import

f028ad8

remove bad line

06fa54a

foo

3a139b2

add training callback

56a2c88

modify yamls

e16e86b

implement train

8341a76

fix indexing to get most recent eval result

6ff5cc5

finish

06560d5

Merge branch 'main' into enable_gauntlet_training

9e07ece

finish

989f61a

finish

4c316f1

finish

7de1b8c

finish

8a77e88

Merge branch 'main' into enable_gauntlet_training

61d682a

foo

6b2116d

foo

33d3165

working on debugging changeS

85c2641

[wip] removing logger dependency from model gauntlet

1b3944f

remove logger from eval

309570d

remove logger from eval

850bc8e

remove logger from eval

82cee97

Merge branch 'main' into enable_gauntlet_training

fe2c141

debug

df170de

debug

c20ee09

debug

f23a1ad

debug

7865e83

fix

96210f0

dakinggg reviewed Sep 15, 2023

View reviewed changes

bmosaicml and others added 8 commits September 15, 2023 15:19

Update llmfoundry/models/inference_api_wrapper/interface.py

1a9a77e

Co-authored-by: Daniel King <43149077+dakinggg@users.noreply.github.com>

Update llmfoundry/models/inference_api_wrapper/openai_causal_lm.py

2bd933a

Co-authored-by: Daniel King <43149077+dakinggg@users.noreply.github.com>

Update llmfoundry/models/inference_api_wrapper/interface.py

77f5279

Co-authored-by: Daniel King <43149077+dakinggg@users.noreply.github.com>

fix comments

359c893

fix comments

4a41efd

Merge branch 'main' into add_openai_wrapper

618ec6f

fix comments

8f155fa

Merge branch 'add_openai_wrapper' of github.com:mosaicml/llm-foundry …

3d4d0da

…into add_openai_wrapper

dakinggg approved these changes Sep 16, 2023

View reviewed changes

tests/test_inference_api_eval_wrapper.py Show resolved Hide resolved

tests/test_inference_api_eval_wrapper.py Show resolved Hide resolved

tests/test_inference_api_eval_wrapper.py Show resolved Hide resolved

dakinggg added 4 commits September 15, 2023 22:45

Update tests/test_inference_api_eval_wrapper.py

6cff092

Update tests/test_inference_api_eval_wrapper.py

e7df76f

Update tests/test_inference_api_eval_wrapper.py

dc7cef5

Merge branch 'main' into add_openai_wrapper

02187d0