Roberta embedding #7969

maxdebayser · 2024-08-28T19:43:53Z

This is a Draft PR based on PR #5447 to test Roberta embedding models.

To run cuda graphs have to be disabled because they aren't supported with encoder models

python -m vllm.entrypoints.openai.api_server --model /path/to/roberta --served-model-name roberta --enforce-eager

To test with the embeddings API:

curl http://localhost:8000/v1/embeddings \
  -H "Content-Type: application/json" \
  -d '{
    "input": "Your text string goes here",
    "model": "roberta"
  }'

…to tests/kernels/utils.py from vllm/utils.py

…rward()

…er_reviews

github-actions · 2024-08-28T19:44:03Z

👋 Hi! Thank you for contributing to the vLLM project.
Just a reminder: PRs would not trigger full CI run by default. Instead, it would only run fastcheck CI which consists a small and essential subset of CI tests to quickly catch errors. You can run other CI tests on top of default ones by unblocking the steps in your fast-check build on Buildkite UI.

Once the PR is approved and ready to go, please make sure to run full CI as it is required to merge (or just use auto-merge).

To run full CI, you can do one of these:

Comment /ready on the PR
Add ready label to the PR
Enable auto-merge.

🚀

maxdebayser · 2024-08-28T19:52:21Z

vllm/attention/ops/paged_attn.py

@@ -34,7 +34,7 @@ class PagedAttention:

    @staticmethod
    def get_supported_head_sizes() -> List[int]:
-        return [64, 80, 96, 112, 120, 128, 192, 256]
+        return [32, 64, 80, 96, 112, 120, 128, 192, 256]


TODO: It's strange that just adding another head size here makes the code run. Perhaps this is actually a silent failure and the actual kernel has to be added somewhere.

# Conflicts: # vllm/core/embedding_model_block_manager.py

Signed-off-by: Max de Bayser <maxdebayser@gmail.com>

# Conflicts: # vllm/inputs/data.py

Signed-off-by: Max de Bayser <mbayser@br.ibm.com>

maxdebayser · 2024-10-15T18:59:18Z

Closed in favor of #9387

afeldman-nm added 30 commits June 25, 2024 02:13

BART e2e test runs but does not pass

919bf88

Merge branch 'main' into infra_enc_dec_model_runner_reviews

753bab0

Merge branch 'main' into infra_enc_dec_cross_attn_reviews

125e5dc

removed extra line

597526a

changed nested if/else to elif/else in xformers mask computation code

a178b7a

reorganized helper functions that were only being used for testing in…

06c7f75

…to tests/kernels/utils.py from vllm/utils.py

removed attention_type

47c9f39

typing and formatting

2f0b05b

typing and formatting; fixed escape sequences in comments

d23c284

moved make_tensor_with_pad() helper function back to vllm.utils

1a6e5a3

formatting

e2a46e3

merge; a lot of formatting fixes to bart code but not fully passing

d43141f

removed unnecessary positions arguments from BART encoder, decoder fo…

5169a2a

…rward()

some reformatting

4400d77

fixed bug caused by overzealous refactoring

e61385d

BART with new explanatory comments & passing formatting tests

41e31e8

Removed unnecessary position arguments from BART routine; formatting

ba4e2c1

Merge branch 'main' into infra_enc_dec_cross_attn_reviews

4dabe19

Merge branch 'infra_enc_dec_cross_attn' into infra_enc_dec_model_runn…

a5c28fc

…er_reviews

Merge branch 'main' into infra_enc_dec_cross_attn_reviews

7ca0d7a

Merge branch 'main' into infra_enc_dec_cross_attn_reviews

c24697f

removed redundant elif

75756b9

Merge branch 'main' into infra_enc_dec_cross_attn_reviews

bcccc34

Merge branch 'main' into infra_enc_dec_cross_attn_reviews

c8f8d59

reverted unnecessarily vllm/utils.py changes

a501849

Merge branch 'main' into infra_enc_dec_cross_attn_reviews

83d474e

Merge branch 'main' into infra_enc_dec_cross_attn_reviews

64981b5

Merge branch 'main' into infra_enc_dec_cross_attn_reviews

8d36458

Merge branch 'main' into infra_enc_dec_cross_attn_reviews

5ff9c76

Merge branch 'main' into infra_enc_dec_cross_attn_reviews

2828aa7

maxdebayser commented Aug 28, 2024

View reviewed changes

laishzh added 5 commits September 8, 2024 23:50

feat: bert embedding implemented, but still have some bugs with mistral,

e351bfd

feat: some changes on test_embedding.py

3ff2d36

Merge branch 'main' of https://github.com/vllm-project/vllm

776dcbd

# Conflicts: # vllm/core/embedding_model_block_manager.py

feat: fix lint

0ea4da1

feat: fix lint

15be7fa

noooop mentioned this pull request Sep 20, 2024

[RFC]: Support encode only models by Workflow Defined Engine #8453

Open

1 task

maxdebayser and others added 19 commits September 23, 2024 13:14

Merge branch '5447' into roberta_embedding

afd997b

Merge branch 'main' into bert

464a90f

Signed-off-by: Max de Bayser <maxdebayser@gmail.com>

Merge branch 'bert' into roberta_embedding

30c875e

Merge branch 'main' into bert

2c8a5b9

Signed-off-by: Max de Bayser <maxdebayser@gmail.com>

add head size 32

08f1781

Signed-off-by: Max de Bayser <maxdebayser@gmail.com>

Merge remote-tracking branch 'origin/main'

3fbfdf4

# Conflicts: # vllm/inputs/data.py

Merge branch 'upstream_main' into bert

57bdd60

Signed-off-by: Max de Bayser <mbayser@br.ibm.com>

Merge branch 'bert' into roberta_embedding

a14b4e3

Signed-off-by: Max de Bayser <mbayser@br.ibm.com>

Merge branch 'upstream_main' into bert

107d9c2

Signed-off-by: Max de Bayser <mbayser@br.ibm.com>

Merge branch 'bert' into roberta_embedding

e7044a6

Merge remote-tracking branch 'maxdebayser/bert'

352d8b2

feat: revert embedding_block_manager

04b0bc6

Merge branch 'origin/main'

6440795

feat: update with origin/main

80c1885

Merge branch 'upstream_main' into bert

30b0f21

Merge branch 'bert' into roberta_embedding

5793373

Signed-off-by: Max de Bayser <mbayser@br.ibm.com>

add registry of encoder-only models

935c58d

Signed-off-by: Max de Bayser <mbayser@br.ibm.com>

Merge branch 'upstream_main' into roberta_embedding

ddbae13

Signed-off-by: Max de Bayser <mbayser@br.ibm.com>

Merge branch 'upstream_main' into roberta_embedding

44a4c04

maxdebayser closed this Oct 15, 2024

maxdebayser deleted the roberta_embedding branch October 15, 2024 19:54

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Roberta embedding #7969

Roberta embedding #7969

maxdebayser commented Aug 28, 2024

github-actions bot commented Aug 28, 2024

maxdebayser Aug 28, 2024

maxdebayser commented Oct 15, 2024

Roberta embedding #7969

Roberta embedding #7969

Conversation

maxdebayser commented Aug 28, 2024

github-actions bot commented Aug 28, 2024

maxdebayser Aug 28, 2024

Choose a reason for hiding this comment

maxdebayser commented Oct 15, 2024