QuTLASS v0.2 #7

LopezCastroRoberto · 2025-10-28T10:35:55Z

🚀 What is new in QuTLASS v0.2:

FlashInfer backend support for B200 GPUs
Quantization-Aware Training (QAT) via MXFP types:
- Quartet clipping mask computation integrated in quantization routines
- Prototype backward kernels for MXFP4 (sm_120) and MXFP8 (sm_100)
- Integrated CUTLASS MXFP8 backward GEMM kernels (TN and NN layouts)
Updated Transformers Integration for QAT (#41897)
Nanochat-QAT Integration (#1)

Signed-off-by: LopezCastroRoberto <roberto.lopez.castro@udc.es>

LopezCastroRoberto added 5 commits October 23, 2025 04:30

qutlass-v0.2 init

4ba8ca3

delete TODO

3d4da2d

update cutlass submodule

8364c1e

Signed-off-by: LopezCastroRoberto <roberto.lopez.castro@udc.es>

update cutlass submodule

21dae49

Signed-off-by: LopezCastroRoberto <roberto.lopez.castro@udc.es>

v0.2 release

2a601ce

LopezCastroRoberto changed the title ~~Qutlass v0.2~~ QuTLASS v0.2 Oct 28, 2025

LopezCastroRoberto merged commit 0997aa2 into main Oct 28, 2025