Check number of stages for pipelined kernel #173

thomasfaingnaert · 2023-11-14T21:25:46Z

No description provided.

thomasfaingnaert · 2023-11-14T21:28:12Z

@maleadt How do you prefer we handle this case? Using a ConfigError as I do now? If so, we might want to also change the "Requested too much shared memory" error above to throw a ConfigError.

maleadt · 2023-11-14T21:39:15Z

If so, we might want to also change the "Requested too much shared memory" error above to throw a ConfigError.

That sounds right.

maleadt · 2023-11-14T22:37:51Z

Benchmark results for commit 7e9645b (comparing to 433aa68):

test	master	PR	Δmin
`FPU GEMM Int32*Int32=Int32 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	7.39 μs ± 1.63% (7.15 … 7.87 μs)	8.36 μs ± 2.08% (8.11 … 8.58 μs)	+13.3% ❌
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.16 μs ± 1.73% (8.82 … 9.3 μs)	8.08 μs ± 2.16% (7.87 … 8.34 μs)	-10.8% ✅
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	132.0 μs ± 0.858% (129.0 … 134.0 μs)	148.0 μs ± 0.366% (146.0 … 149.0 μs)	+12.7% ❌
`FPU GEMM Int64*Int64=Int64 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	21.4 μs ± 0.721% (21.2 … 21.7 μs)	24.3 μs ± 0.398% (23.8 … 24.8 μs)	+12.4% ❌
`FPU GEMM Float32*Float32=Float64 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	156.0 μs ± 0.689% (155.0 … 159.0 μs)	178.0 μs ± 0.715% (177.0 … 180.0 μs)	+14.1% ❌
`Tropical GEMM Float32*Float32=Float32 (128×256) · (256×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	124.0 μs ± 0.157% (124.0 … 124.0 μs)	123.0 μs ± 2.29% (108.0 … 124.0 μs)	-12.2% ✅
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	231.0 μs ± 1.09% (224.0 … 238.0 μs)	230.0 μs ± 1.39% (208.0 … 237.0 μs)	-7.1% ✅
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	148.0 μs ± 0.158% (147.0 … 149.0 μs)	143.0 μs ± 5.42% (129.0 … 149.0 μs)	-12.0% ✅
`WMMA GEMM+bias Float16*Float16+Float32=Float32 (128×128) · (128×128) (TN) OP (16, 16, 16)`	8.91 μs ± 1.82% (8.58 … 9.3 μs)	10.1 μs ± 1.36% (9.78 … 10.3 μs)	+13.9% ❌
`FPU GEMM Float32*Float32=Float64 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	156.0 μs ± 0.474% (154.0 … 159.0 μs)	177.0 μs ± 0.395% (175.0 … 180.0 μs)	+14.1% ❌
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.1 μs ± 1.89% (8.82 … 9.54 μs)	8.02 μs ± 2.0% (7.87 … 8.34 μs)	-10.8% ✅
`WMMA diagonal GEMM diag(Float16)*Float16=Float32 (128×128) · (128×128) (NN) OP (16, 16, 16)`	9.93 μs ± 1.38% (9.54 … 10.3 μs)	11.2 μs ± 1.16% (11.0 … 11.7 μs)	+15.0% ❌
`WMMA GEMM+bias Float16*Float16+Float32=Float32 (128×128) · (128×128) (NT) OP (16, 16, 16)`	9.05 μs ± 1.89% (8.82 … 9.3 μs)	10.3 μs ± 1.15% (9.78 … 10.7 μs)	+10.8% ❌
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	134.0 μs ± 3.06% (129.0 … 140.0 μs)	145.0 μs ± 4.78% (139.0 … 331.0 μs)	+7.6% ❌
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.43 μs ± 1.69% (8.11 … 8.82 μs)	7.43 μs ± 1.51% (7.15 … 7.87 μs)	-11.8% ✅
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.97 μs ± 1.68% (8.58 … 9.3 μs)	7.95 μs ± 1.69% (7.63 … 8.34 μs)	-11.1% ✅
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.07 μs ± 1.85% (8.82 … 9.54 μs)	8.02 μs ± 1.98% (7.87 … 8.34 μs)	-10.8% ✅
`Tropical GEMM Float32*Float32=Float32 (256×256) · (256×256) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	127.0 μs ± 0.136% (127.0 … 128.0 μs)	112.0 μs ± 0.146% (111.0 … 112.0 μs)	-12.2% ✅
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	145.0 μs ± 4.89% (130.0 … 150.0 μs)	148.0 μs ± 4.69% (147.0 … 307.0 μs)	+13.0% ❌
`Tropical GEMM Float32*Float32=Float32 (128×256) · (256×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	125.0 μs ± 0.122% (124.0 … 125.0 μs)	123.0 μs ± 4.58% (109.0 … 126.0 μs)	-12.1% ✅
`FPU GEMM Int32*Int32=Int32 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	9.41 μs ± 1.62% (9.06 … 9.78 μs)	10.7 μs ± 1.21% (10.5 … 11.0 μs)	+15.8% ❌
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.47 μs ± 1.85% (8.11 … 8.82 μs)	7.46 μs ± 1.74% (7.15 … 7.87 μs)	-11.8% ✅
`FPU GEMM Float32*Float32=Float64 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	180.0 μs ± 0.22% (178.0 … 182.0 μs)	180.0 μs ± 1.22% (158.0 … 181.0 μs)	-11.3% ✅

Comparison with baseline

test	GemmKernels	Baseline	%
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	15.0 μs ± 1.1% (14.8 … 15.3 μs)	7.22 μs ± 1.73% (6.68 … 7.63 μs)	45.2
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 32, 1), base shape (1, 32, 1)`	16.1 μs ± 0.992% (15.7 … 16.5 μs)	4.18 μs ± 3.7% (4.05 … 4.53 μs)	25.8
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	230.0 μs ± 0.735% (225.0 … 235.0 μs)	191.0 μs ± 1.92% (180.0 … 195.0 μs)	80.3
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.95 μs ± 1.69% (7.63 … 8.34 μs)	2.35 μs ± 6.61% (2.15 … 2.62 μs)	28.1
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	217.0 μs ± 3.96% (204.0 … 229.0 μs)	186.0 μs ± 2.54% (172.0 … 193.0 μs)	84.2
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (16, 16, 1), base shape (8, 4, 1)`	14.5 μs ± 1.05% (14.3 … 14.8 μs)	4.04 μs ± 3.49% (3.81 … 4.29 μs)	26.7
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	1.84 ms ± 2.73% (1.81 … 2.02 ms)	1.01 ms ± 1.19% (0.937 … 1.02 ms)	51.8
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (32, 4, 1), base shape (32, 1, 1)`	13.1 μs ± 0.933% (12.6 … 13.4 μs)	4.03 μs ± 3.31% (3.81 … 4.29 μs)	30.2
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (32, 4, 1), base shape (16, 2, 1)`	19.1 μs ± 0.897% (18.8 … 19.3 μs)	4.08 μs ± 2.68% (3.81 … 4.29 μs)	20.3
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	1.84 ms ± 2.29% (1.8 … 2.02 ms)	292.0 μs ± 0.32% (290.0 … 293.0 μs)	16.1
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	46.1 ms ± 0.884% (46.0 … 52.4 ms)	40.9 ms ± 0.405% (40.8 … 44.0 ms)	88.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (32, 4, 1), base shape (16, 2, 1)`	19.1 μs ± 0.905% (18.8 … 19.3 μs)	4.28 μs ± 3.36% (4.05 … 4.53 μs)	21.5
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	275.0 μs ± 30.6% (255.0 … 2550.0 μs)	109.0 μs ± 5.64% (109.0 … 249.0 μs)	42.7
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.49 μs ± 1.9% (8.11 … 8.82 μs)	3.82 μs ± 2.97% (3.58 … 4.29 μs)	44.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	15.3 μs ± 1.12% (15.0 … 15.7 μs)	4.07 μs ± 2.82% (3.81 … 4.29 μs)	25.4
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.74 μs ± 1.88% (8.34 … 9.06 μs)	5.17 μs ± 3.01% (4.77 … 5.48 μs)	57.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 8, 1), base shape (4, 8, 1)`	15.2 μs ± 1.1% (15.0 … 15.5 μs)	4.3 μs ± 3.35% (4.05 … 4.53 μs)	27.0
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	1.88 ms ± 2.9% (1.84 … 2.05 ms)	1.1 ms ± 2.52% (1.03 … 1.34 ms)	56.2
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	279.0 μs ± 6.03% (256.0 … 292.0 μs)	109.0 μs ± 0.157% (109.0 … 109.0 μs)	42.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 8, 1), base shape (4, 8, 1)`	15.2 μs ± 1.07% (15.0 … 15.5 μs)	4.04 μs ± 3.48% (3.81 … 4.29 μs)	25.4
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	365.0 μs ± 5.12% (343.0 … 390.0 μs)	291.0 μs ± 0.154% (290.0 … 293.0 μs)	84.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (16, 16, 1), base shape (4, 8, 1)`	15.3 μs ± 0.915% (15.0 … 15.7 μs)	4.08 μs ± 2.63% (3.81 … 4.29 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	1.45 ms ± 2.25% (1.43 … 1.53 ms)	1.11 ms ± 1.41% (1.04 … 1.14 ms)	72.4
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.08 μs ± 2.16% (7.87 … 8.34 μs)	2.22 μs ± 7.57% (1.91 … 2.38 μs)	24.2
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	1.86 ms ± 2.93% (1.82 … 2.03 ms)	293.0 μs ± 0.141% (292.0 … 294.0 μs)	16.1
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	148.0 μs ± 0.366% (146.0 … 149.0 μs)	28.7 μs ± 0.453% (28.4 … 29.1 μs)	19.4
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.02 μs ± 1.98% (7.87 … 8.34 μs)	2.46 μs ± 6.7% (2.15 … 2.62 μs)	27.3
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	46.1 ms ± 0.745% (46.0 … 52.4 ms)	40.8 ms ± 0.00522% (40.8 … 40.8 ms)	88.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (32, 4, 1), base shape (32, 1, 1)`	12.6 μs ± 1.31% (12.4 … 12.9 μs)	4.19 μs ± 3.69% (4.05 … 4.53 μs)	32.7
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	370.0 μs ± 5.26% (348.0 … 397.0 μs)	291.0 μs ± 0.16% (289.0 … 293.0 μs)	83.2
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	13.0 μs ± 1.16% (12.6 … 13.1 μs)	3.79 μs ± 3.24% (3.58 … 4.29 μs)	28.3
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.42 μs ± 1.87% (8.11 … 8.82 μs)	3.71 μs ± 3.69% (3.58 … 4.05 μs)	44.1
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	367.0 μs ± 5.2% (342.0 … 389.0 μs)	293.0 μs ± 4.42% (290.0 … 515.0 μs)	84.9
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	2.31 ms ± 3.47% (2.27 … 2.56 ms)	291.0 μs ± 0.213% (289.0 … 293.0 μs)	12.8
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	6.91 μs ± 0.818% (6.44 … 7.15 μs)	2.33 μs ± 5.96% (2.15 … 2.62 μs)	33.3
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.06 μs ± 1.92% (8.82 … 9.3 μs)	2.88 μs ± 4.82% (2.62 … 3.1 μs)	29.7
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.3 μs ± 1.19% (12.2 … 12.6 μs)	2.92 μs ± 5.11% (2.62 … 3.1 μs)	21.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 8, 2), base shape (4, 8, 1)`	16.0 μs ± 1.03% (15.7 … 16.5 μs)	4.17 μs ± 3.61% (4.05 … 4.53 μs)	25.8
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	16.4 μs ± 1.0% (16.0 … 16.7 μs)	4.18 μs ± 3.66% (4.05 … 4.53 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (32, 4, 1), base shape (32, 1, 1)`	31.6 μs ± 0.467% (31.5 … 31.9 μs)	4.08 μs ± 2.75% (3.81 … 4.29 μs)	12.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	13.5 μs ± 1.0% (13.1 … 13.8 μs)	4.04 μs ± 3.39% (3.81 … 4.29 μs)	29.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 32, 1), base shape (1, 32, 1)`	15.7 μs ± 1.08% (15.5 … 16.0 μs)	4.08 μs ± 2.78% (3.81 … 4.29 μs)	24.6
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	18.1 μs ± 0.873% (17.9 … 18.4 μs)	3.91 μs ± 3.62% (3.58 … 4.29 μs)	20.0
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	225.0 μs ± 0.735% (221.0 … 229.0 μs)	187.0 μs ± 1.96% (178.0 … 193.0 μs)	80.7
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	230.0 μs ± 1.39% (208.0 … 237.0 μs)	185.0 μs ± 2.18% (175.0 … 189.0 μs)	84.2
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 32, 1), base shape (2, 16, 1)`	21.9 μs ± 0.773% (21.7 … 22.2 μs)	4.29 μs ± 3.51% (4.05 … 4.53 μs)	18.7
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.39% (11.9 … 12.4 μs)	3.1 μs ± 3.61% (2.86 … 3.34 μs)	24.0
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	148.0 μs ± 4.69% (147.0 … 307.0 μs)	28.6 μs ± 0.525% (28.4 … 28.8 μs)	19.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (16, 16, 1), base shape (8, 4, 1)`	14.5 μs ± 1.07% (14.3 … 14.8 μs)	4.08 μs ± 2.73% (3.81 … 4.29 μs)	26.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 8, 2), base shape (4, 8, 1)`	12.4 μs ± 1.38% (12.2 … 12.6 μs)	4.03 μs ± 3.69% (3.81 … 4.29 μs)	31.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (16, 16, 1), base shape (4, 8, 1)`	15.4 μs ± 1.07% (15.3 … 15.7 μs)	4.04 μs ± 3.42% (3.81 … 4.29 μs)	25.0
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.0 μs ± 1.37% (11.7 … 12.4 μs)	5.22 μs ± 3.32% (5.01 … 5.72 μs)	42.9
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.5% (11.9 … 12.6 μs)	7.25 μs ± 1.91% (6.91 … 7.63 μs)	58.0
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.69 μs ± 2.11% (8.34 … 9.06 μs)	4.98 μs ± 3.5% (4.77 … 5.25 μs)	57.1
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	143.0 μs ± 5.42% (129.0 … 149.0 μs)	28.7 μs ± 0.476% (28.4 … 29.1 μs)	21.9
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.38% (12.2 … 12.6 μs)	3.81 μs ± 3.17% (3.58 … 4.29 μs)	29.4
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.36% (11.9 … 12.4 μs)	3.97 μs ± 4.02% (3.58 … 4.53 μs)	30.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 32, 1), base shape (2, 16, 1)`	21.9 μs ± 0.754% (21.7 … 22.2 μs)	4.04 μs ± 3.43% (3.81 … 4.53 μs)	17.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (32, 4, 1), base shape (16, 2, 1)`	19.1 μs ± 0.88% (18.8 … 19.3 μs)	4.03 μs ± 3.46% (3.81 … 4.29 μs)	20.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 8, 2), base shape (4, 8, 1)`	11.8 μs ± 1.36% (11.7 … 12.2 μs)	4.29 μs ± 3.44% (4.05 … 4.53 μs)	34.7
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.45% (11.9 … 12.4 μs)	5.2 μs ± 3.31% (5.01 … 5.48 μs)	42.0
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.71 μs ± 2.01% (8.34 … 9.06 μs)	5.13 μs ± 2.89% (4.77 … 5.48 μs)	57.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.13% (15.0 … 15.5 μs)	4.29 μs ± 3.43% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.25% (11.9 … 12.4 μs)	3.96 μs ± 3.84% (3.81 … 4.29 μs)	32.0
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	46.5 ms ± 1.02% (46.4 … 52.8 ms)	40.9 ms ± 1.19% (40.8 … 47.4 ms)	88.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (8, 8, 1), base shape (4, 8, 1)`	15.4 μs ± 0.831% (15.3 … 15.7 μs)	4.08 μs ± 2.63% (3.81 … 4.29 μs)	25.0
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.79 μs ± 2.03% (8.34 … 9.06 μs)	4.94 μs ± 3.36% (4.77 … 5.25 μs)	57.1
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.42% (12.2 … 12.9 μs)	7.4 μs ± 1.52% (7.15 … 7.87 μs)	58.8
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	373.0 μs ± 34.5% (350.0 … 2660.0 μs)	298.0 μs ± 35.4% (290.0 … 2590.0 μs)	82.8
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.3 μs ± 1.4% (11.9 … 12.6 μs)	7.32 μs ± 2.04% (7.15 … 7.63 μs)	60.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 8, 1), base shape (4, 8, 1)`	15.2 μs ± 1.13% (15.0 … 15.5 μs)	4.08 μs ± 2.61% (3.81 … 4.29 μs)	25.4
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	9.23 μs ± 1.64% (8.82 … 9.54 μs)	2.3 μs ± 5.23% (1.91 … 2.62 μs)	21.6
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.29 μs ± 1.74% (9.06 … 9.54 μs)	2.92 μs ± 5.15% (2.62 … 3.1 μs)	28.9
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.02 μs ± 2.0% (7.87 … 8.34 μs)	2.31 μs ± 5.21% (1.91 … 2.62 μs)	24.2
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (16, 16, 1), base shape (8, 4, 1)`	14.6 μs ± 0.863% (14.3 … 15.0 μs)	4.19 μs ± 3.71% (4.05 … 4.53 μs)	28.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 32, 1), base shape (1, 32, 1)`	33.0 μs ± 0.406% (32.7 … 33.1 μs)	4.03 μs ± 3.53% (3.81 … 4.29 μs)	11.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.13% (15.0 … 15.5 μs)	4.02 μs ± 3.32% (3.81 … 4.29 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (32, 4, 1), base shape (16, 2, 1)`	19.2 μs ± 0.801% (18.8 … 19.3 μs)	4.18 μs ± 3.7% (4.05 … 4.53 μs)	21.5
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	2.36 ms ± 2.75% (2.33 … 2.63 ms)	867.0 μs ± 0.843% (823.0 … 873.0 μs)	35.3
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	287.0 μs ± 29.3% (256.0 … 2550.0 μs)	109.0 μs ± 0.146% (109.0 … 110.0 μs)	42.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (8, 8, 1), base shape (4, 8, 1)`	15.3 μs ± 1.03% (15.0 … 15.5 μs)	4.04 μs ± 3.61% (3.81 … 4.53 μs)	25.4
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.46 μs ± 1.74% (7.15 … 7.87 μs)	3.62 μs ± 2.77% (3.34 … 4.05 μs)	46.7
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.41% (11.9 … 12.4 μs)	3.01 μs ± 4.67% (2.62 … 3.1 μs)	22.0
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	8.15 μs ± 1.44% (7.87 … 8.58 μs)	2.18 μs ± 7.85% (1.91 … 2.38 μs)	24.2
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.5 μs ± 1.4% (12.2 … 12.9 μs)	7.31 μs ± 1.98% (7.15 … 7.63 μs)	58.8
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.39% (12.2 … 12.6 μs)	3.9 μs ± 3.67% (3.58 … 4.29 μs)	29.4
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	15.3 μs ± 1.15% (15.0 … 15.7 μs)	6.79 μs ± 2.04% (6.44 … 6.91 μs)	42.9
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (8, 8, 1), base shape (4, 8, 1)`	15.4 μs ± 1.1% (15.3 … 15.7 μs)	4.17 μs ± 3.65% (4.05 … 4.53 μs)	26.6
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	287.0 μs ± 4.33% (256.0 … 293.0 μs)	110.0 μs ± 7.66% (109.0 … 302.0 μs)	42.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 16, 1), base shape (4, 8, 1)`	15.3 μs ± 0.961% (15.0 … 15.7 μs)	4.18 μs ± 3.55% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.18 μs ± 1.58% (8.82 … 9.54 μs)	2.91 μs ± 5.07% (2.62 … 3.1 μs)	29.7
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	9.22 μs ± 1.31% (8.82 … 9.54 μs)	2.23 μs ± 7.46% (1.91 … 2.38 μs)	21.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (8, 8, 1), base shape (4, 8, 1)`	15.2 μs ± 1.12% (15.0 … 15.5 μs)	4.28 μs ± 3.53% (4.05 … 4.77 μs)	27.0
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	15.8 μs ± 1.07% (15.5 … 16.0 μs)	3.96 μs ± 3.86% (3.58 … 4.29 μs)	23.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (16, 16, 1), base shape (4, 8, 1)`	15.3 μs ± 0.951% (15.0 … 15.7 μs)	4.18 μs ± 3.62% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.38% (12.2 … 12.6 μs)	2.74 μs ± 5.52% (2.38 … 2.86 μs)	19.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 8, 2), base shape (4, 8, 1)`	15.0 μs ± 1.1% (14.5 … 15.3 μs)	4.08 μs ± 2.66% (3.81 … 4.29 μs)	26.2
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (32, 4, 1), base shape (32, 1, 1)`	31.6 μs ± 0.459% (31.5 … 31.9 μs)	4.3 μs ± 3.4% (4.05 … 4.53 μs)	12.9
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.15 μs ± 1.7% (8.82 … 9.3 μs)	2.91 μs ± 5.34% (2.62 … 3.1 μs)	29.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 32, 1), base shape (2, 16, 1)`	21.9 μs ± 0.759% (21.7 … 22.2 μs)	4.18 μs ± 3.67% (4.05 … 4.53 μs)	18.7
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	15.7 μs ± 1.14% (15.5 … 16.0 μs)	3.97 μs ± 3.86% (3.81 … 4.29 μs)	24.6
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	1.55 ms ± 3.12% (1.52 … 1.67 ms)	293.0 μs ± 0.289% (290.0 … 296.0 μs)	19.2
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	46.5 ms ± 1.79% (46.3 … 57.9 ms)	40.9 ms ± 0.643% (40.8 … 45.6 ms)	88.2
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.1 μs ± 1.38% (11.9 … 12.4 μs)	5.1 μs ± 3.39% (4.77 … 5.72 μs)	40.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 32, 1), base shape (2, 16, 1)`	22.0 μs ± 0.646% (21.7 … 22.2 μs)	4.07 μs ± 2.88% (3.81 … 4.29 μs)	17.6
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.0 μs ± 1.4% (11.7 … 12.4 μs)	4.49 μs ± 3.72% (4.29 … 4.77 μs)	36.7
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	18.2 μs ± 0.772% (18.1 … 18.6 μs)	6.77 μs ± 2.12% (6.44 … 6.91 μs)	35.5
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.15% (15.0 … 15.5 μs)	4.08 μs ± 2.75% (3.81 … 4.53 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 8, 1), base shape (4, 8, 1)`	15.3 μs ± 1.11% (15.0 … 15.5 μs)	4.18 μs ± 3.72% (4.05 … 4.53 μs)	27.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 32, 1), base shape (1, 32, 1)`	33.0 μs ± 0.479% (32.7 … 33.1 μs)	4.29 μs ± 3.54% (4.05 … 4.53 μs)	12.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	12.1 μs ± 1.2% (11.9 … 12.4 μs)	4.3 μs ± 3.26% (4.05 … 4.77 μs)	34.0
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	145.0 μs ± 4.78% (139.0 … 331.0 μs)	30.9 μs ± 0.396% (30.5 … 31.2 μs)	21.9
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (16, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.13% (15.0 … 15.5 μs)	4.29 μs ± 3.53% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.43 μs ± 1.51% (7.15 … 7.87 μs)	3.58 μs ± 2.8% (3.1 … 4.05 μs)	43.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (16, 16, 1), base shape (8, 4, 1)`	14.5 μs ± 1.07% (14.3 … 14.8 μs)	4.29 μs ± 3.48% (4.05 … 4.53 μs)	28.3
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	12.6 μs ± 1.34% (12.4 … 12.9 μs)	7.17 μs ± 1.24% (6.91 … 7.63 μs)	55.8

Check number of stages for pipelined kernel

7e9645b

thomasfaingnaert force-pushed the tf/check-pipelined-iterations branch from da6d101 to 7e9645b Compare November 14, 2023 21:54

thomasfaingnaert merged commit 912fa05 into master Nov 14, 2023

thomasfaingnaert deleted the tf/check-pipelined-iterations branch November 14, 2023 22:29

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Check number of stages for pipelined kernel #173

Check number of stages for pipelined kernel #173

thomasfaingnaert commented Nov 14, 2023

thomasfaingnaert commented Nov 14, 2023

maleadt commented Nov 14, 2023

maleadt commented Nov 14, 2023

Check number of stages for pipelined kernel #173

Check number of stages for pipelined kernel #173

Conversation

thomasfaingnaert commented Nov 14, 2023

thomasfaingnaert commented Nov 14, 2023

maleadt commented Nov 14, 2023

maleadt commented Nov 14, 2023

Comparison with baseline