varlen combine scheduler #70

LucasWilkinson · 2025-06-11T02:12:41Z

Improvement to address: vllm-project/vllm#18619 (comment)

When running the combine with large batch that is almost entirely decode with 1 prefill the previous grid was excessively large making the combine kernel take a long time.

Before this PR the grid size for combine would be cdiv(max_seqlen_q * num_heads, kBlockM) x batch_size after this PR its (cdiv(total_q * num_heads, kBlockM) + batch_size) x 1 which scales much better for large batches that are primarily made up of decodes.

e.g. if we have a batch of 256 where the q_seqlens are [600] + [1] * 255, (assuming num_heads 8 and kBlockM 8)

before this PR the grid would be:
cdiv(600 * 8, 8) x 256 = 153600

after this PR the grid is:
cdiv(855 * 8, 8) + 256 x 1 = 1111

hopper/flash_fwd_combine_kernel.h

tlrmchlsmth

Code looks good to me. Optimization makes sense. Nice work.

Should we try to push this upstream?

LucasWilkinson · 2025-06-16T17:35:05Z

Ya I'm going to make an upstream PR

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

Co-authored-by: Tyler Michael Smith <tysmith@redhat.com> Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

* varlen combine scheduler Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * cleanup Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * move check Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * standard scheduling algo Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * better heuristic Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * better comments Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * cleanup Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * cleanup Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * put in a more readable heurisitic Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * Apply suggestions from code review Co-authored-by: Tyler Michael Smith <tysmith@redhat.com> Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * FA2 8.0 PTX (vllm-project#69) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> --------- Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> Co-authored-by: Tyler Michael Smith <tysmith@redhat.com>

* varlen combine scheduler Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * cleanup Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * move check Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * standard scheduling algo Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * better heuristic Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * better comments Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * cleanup Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * cleanup Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * put in a more readable heurisitic Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * Apply suggestions from code review Co-authored-by: Tyler Michael Smith <tysmith@redhat.com> Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * FA2 8.0 PTX (#69) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> --------- Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> Co-authored-by: Tyler Michael Smith <tysmith@redhat.com>

* varlen combine scheduler Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * cleanup Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * move check Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * standard scheduling algo Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * better heuristic Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * better comments Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * cleanup Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * cleanup Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * put in a more readable heurisitic Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * Apply suggestions from code review Co-authored-by: Tyler Michael Smith <tysmith@redhat.com> Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> * FA2 8.0 PTX (#69) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> --------- Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> Co-authored-by: Tyler Michael Smith <tysmith@redhat.com> Signed-off-by: Jay Shah <jayhshah@gmail.com>

LucasWilkinson mentioned this pull request Jun 11, 2025

[Perf] Improve/Fix-regression for FA3 in High QPS regimes vllm-project/vllm#19463

Merged

4 tasks

LucasWilkinson marked this pull request as ready for review June 11, 2025 22:41

tlrmchlsmth reviewed Jun 11, 2025

View reviewed changes

hopper/flash_fwd_combine_kernel.h Outdated Show resolved Hide resolved

tlrmchlsmth reviewed Jun 11, 2025

View reviewed changes

hopper/flash_fwd_combine_kernel.h Outdated Show resolved Hide resolved

tlrmchlsmth approved these changes Jun 16, 2025

View reviewed changes

LucasWilkinson and others added 11 commits June 16, 2025 18:04

varlen combine scheduler

e6e5ef5

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

cleanup

023c175

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

move check

8b1d11e

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

standard scheduling algo

63d3dc9

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

better heuristic

abc2756

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

better comments

9d7ad8c

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

cleanup

b0d41ae

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

cleanup

355cb84

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

put in a more readable heurisitic

603c1ad

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

Apply suggestions from code review

099599c

Co-authored-by: Tyler Michael Smith <tysmith@redhat.com> Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

FA2 8.0 PTX (#69)

566d676

Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>

LucasWilkinson force-pushed the lwilkinson/varlen-combine-scheduler branch from 604050e to 566d676 Compare June 16, 2025 18:05

LucasWilkinson merged commit 2c6bcfc into main Jun 16, 2025
1 check passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

varlen combine scheduler #70

varlen combine scheduler #70

Uh oh!

LucasWilkinson commented Jun 11, 2025

Uh oh!

Uh oh!

Uh oh!

tlrmchlsmth left a comment

Uh oh!

LucasWilkinson commented Jun 16, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

varlen combine scheduler #70

varlen combine scheduler #70

Uh oh!

Conversation

LucasWilkinson commented Jun 11, 2025

Uh oh!

Uh oh!

Uh oh!

tlrmchlsmth left a comment

Choose a reason for hiding this comment

Uh oh!

LucasWilkinson commented Jun 16, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants