Separate `kv_scale` into `k_scale` and `v_scale` #25

mgoin · 2024-07-03T00:49:33Z

Since we already quantize key_cache and value_cache separately in PagedAttention, there is "free accuracy on the table" for FP8 KV Cache quantization as we could use separate per-tensor scales for each.

The FlashInfer FP8 attention kernel also uses separate k_scale and v_scale values, so this PR is in preparation to enable that usage. Source: https://github.com/flashinfer-ai/flashinfer/blob/dc2c76f8577d8695112b61d1fd43ef88569272ef/python/flashinfer/decode.py#L98-L101

mgoin added 2 commits July 3, 2024 00:49

Separate kv_scale into key_scale and value_scale

966052f

New format and pass test

639a620

mgoin changed the title ~~Separate kv_scale into key_scale and value_scale~~ Separate kv_scale into k_scale and v_scale Jul 16, 2024

mgoin merged commit 2cd265f into main Jul 23, 2024
4 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Separate `kv_scale` into `k_scale` and `v_scale` #25

Separate `kv_scale` into `k_scale` and `v_scale` #25

mgoin commented Jul 3, 2024 •

edited

Loading

Separate kv_scale into k_scale and v_scale #25

Separate kv_scale into k_scale and v_scale #25

Conversation

mgoin commented Jul 3, 2024 • edited Loading

Separate `kv_scale` into `k_scale` and `v_scale` #25

Separate `kv_scale` into `k_scale` and `v_scale` #25

mgoin commented Jul 3, 2024 •

edited

Loading