Do not hardcode vectorisation width in layouts #176

thomasfaingnaert · 2023-11-15T13:07:47Z

No description provided.

maleadt · 2023-11-15T16:08:37Z

Benchmark results for commit 7d1b0d7 (comparing to 8b52f30):

test	master	PR	Δmin
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	230.0 μs ± 0.764% (224.0 … 234.0 μs)	221.0 μs ± 4.33% (206.0 … 235.0 μs)	-8.0% ✅
`FPU GEMM Int32*Int32=Int32 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	7.38 μs ± 1.59% (7.15 … 7.87 μs)	8.36 μs ± 2.03% (8.11 … 8.82 μs)	+13.3% ❌
`FPU GEMM Float32*Float32=Float64 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	157.0 μs ± 0.666% (154.0 … 159.0 μs)	173.0 μs ± 6.91% (163.0 … 359.0 μs)	+6.4% ❌
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	225.0 μs ± 0.724% (221.0 … 228.0 μs)	217.0 μs ± 3.82% (205.0 … 229.0 μs)	-7.4% ✅
`FPU GEMM Int16*Int16=Int16 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	8.82 μs ± 1.98% (8.58 … 9.06 μs)	9.86 μs ± 1.59% (9.54 … 10.0 μs)	+11.1% ❌
`WMMA Complex GEMM Float16*Float16=Float32 (128×128) · (128×128) (TN) OP (16, 16, 16)`	8.53 μs ± 1.91% (8.34 … 8.82 μs)	9.64 μs ± 1.65% (9.3 … 9.78 μs)	+11.4% ❌
`FPU GEMM Float32*Float32=Float64 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	156.0 μs ± 0.496% (154.0 … 159.0 μs)	179.0 μs ± 4.86% (177.0 … 341.0 μs)	+15.2% ❌
`Tropical GEMM Float32*Float32=Float32 (256×256) · (256×256) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	120.0 μs ± 0.136% (120.0 … 121.0 μs)	122.0 μs ± 5.08% (110.0 … 127.0 μs)	-8.2% ✅
`WMMA diagonal GEMM diag(Float16)*Float16=Float32 (128×128) · (128×128) (NN) OP (16, 16, 16)`	9.93 μs ± 1.34% (9.54 … 10.3 μs)	11.3 μs ± 1.08% (11.0 … 11.7 μs)	+15.0% ❌
`Tropical GEMM Float32*Float32=Float32 (128×256) · (256×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	127.0 μs ± 0.142% (127.0 … 128.0 μs)	126.0 μs ± 7.8% (112.0 … 299.0 μs)	-11.9% ✅
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	216.0 μs ± 3.78% (205.0 … 229.0 μs)	225.0 μs ± 0.921% (221.0 … 231.0 μs)	+7.7% ❌
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	6.91 μs ± 0.858% (6.44 … 7.15 μs)	7.81 μs ± 2.11% (7.63 … 8.11 μs)	+18.5% ❌
`FPU GEMM Int16*Int16=Int16 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	9.56 μs ± 1.7% (9.3 … 9.78 μs)	10.9 μs ± 1.36% (10.7 … 11.2 μs)	+15.4% ❌
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	9.21 μs ± 1.47% (8.82 … 9.54 μs)	10.4 μs ± 1.2% (10.0 … 10.7 μs)	+13.5% ❌
`FPU GEMM Int32*Int32=Int32 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	9.42 μs ± 1.57% (9.06 … 9.78 μs)	10.7 μs ± 1.29% (10.5 … 11.0 μs)	+15.8% ❌
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	8.2 μs ± 1.54% (7.87 … 8.58 μs)	9.29 μs ± 1.74% (9.06 … 9.54 μs)	+15.2% ❌
`WMMA Complex GEMM Float16*Float16=Float32 (128×128) · (128×128) (NT) OP (16, 16, 16)`	8.44 μs ± 1.76% (8.11 … 8.82 μs)	9.5 μs ± 1.44% (9.06 … 9.78 μs)	+11.8% ❌
`Tropical GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	56.8 μs ± 0.284% (56.5 … 57.2 μs)	65.5 μs ± 16.9% (64.4 … 243.0 μs)	+13.9% ❌
`Tropical GEMM Float32*Float32=Float32 (256×256) · (256×256) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	110.0 μs ± 0.149% (109.0 … 110.0 μs)	126.0 μs ± 7.56% (125.0 … 335.0 μs)	+13.9% ❌
`WMMA Complex GEMM Float16*Float16=Float32 (128×128) · (128×128) (TT) OP (16, 16, 16)`	8.35 μs ± 1.99% (8.11 … 8.82 μs)	9.47 μs ± 1.7% (9.06 … 9.78 μs)	+11.8% ❌
`FPU GEMM Int16*Int16=Int16 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	8.53 μs ± 1.98% (8.34 … 8.82 μs)	9.66 μs ± 1.54% (9.3 … 9.78 μs)	+11.4% ❌

Comparison with baseline

test	GemmKernels	Baseline	%
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	15.0 μs ± 1.13% (14.8 … 15.5 μs)	7.22 μs ± 1.76% (6.91 … 7.63 μs)	46.8
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 32, 1), base shape (1, 32, 1)`	16.1 μs ± 0.965% (15.7 … 16.2 μs)	4.19 μs ± 3.69% (4.05 … 4.53 μs)	25.8
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	221.0 μs ± 4.33% (206.0 … 235.0 μs)	191.0 μs ± 1.99% (180.0 … 196.0 μs)	87.4
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.93 μs ± 1.7% (7.63 … 8.34 μs)	2.08 μs ± 6.89% (1.91 … 2.38 μs)	25.0
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	225.0 μs ± 0.921% (221.0 … 231.0 μs)	184.0 μs ± 2.81% (171.0 … 193.0 μs)	77.5
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (16, 16, 1), base shape (8, 4, 1)`	14.5 μs ± 1.06% (14.3 … 14.8 μs)	4.03 μs ± 3.27% (3.81 … 4.29 μs)	26.7
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	1.86 ms ± 3.85% (1.81 … 2.21 ms)	1.01 ms ± 2.16% (0.938 … 1.26 ms)	51.9
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (32, 4, 1), base shape (32, 1, 1)`	13.1 μs ± 0.92% (12.6 … 13.4 μs)	4.03 μs ± 3.53% (3.81 … 4.29 μs)	30.2
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (32, 4, 1), base shape (16, 2, 1)`	19.1 μs ± 0.905% (18.8 … 19.3 μs)	4.08 μs ± 2.58% (3.81 … 4.29 μs)	20.3
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	1.85 ms ± 7.18% (1.78 … 4.31 ms)	291.0 μs ± 2.64% (289.0 … 462.0 μs)	16.3
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	46.1 ms ± 0.644% (46.0 … 52.4 ms)	40.8 ms ± 0.00684% (40.8 … 40.8 ms)	88.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (32, 4, 1), base shape (16, 2, 1)`	19.1 μs ± 0.896% (18.8 … 19.3 μs)	4.29 μs ± 3.57% (4.05 … 4.53 μs)	21.5
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	289.0 μs ± 2.75% (255.0 … 293.0 μs)	109.0 μs ± 0.16% (109.0 … 109.0 μs)	42.7
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.42 μs ± 1.94% (7.15 … 7.87 μs)	3.82 μs ± 3.0% (3.58 … 4.29 μs)	50.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	15.3 μs ± 1.1% (15.0 … 15.7 μs)	4.08 μs ± 2.81% (3.81 … 4.53 μs)	25.4
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.73 μs ± 1.89% (8.34 … 9.06 μs)	5.17 μs ± 3.05% (4.77 … 5.48 μs)	57.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 8, 1), base shape (4, 8, 1)`	15.2 μs ± 1.09% (15.0 … 15.5 μs)	4.29 μs ± 3.45% (4.05 … 4.53 μs)	27.0
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	1.89 ms ± 3.52% (1.84 … 2.08 ms)	1.1 ms ± 2.98% (1.03 … 1.37 ms)	56.0
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	272.0 μs ± 6.38% (256.0 … 292.0 μs)	109.0 μs ± 0.154% (109.0 … 109.0 μs)	42.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 8, 1), base shape (4, 8, 1)`	15.2 μs ± 1.11% (15.0 … 15.5 μs)	4.03 μs ± 3.34% (3.81 … 4.29 μs)	25.4
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	360.0 μs ± 4.85% (344.0 … 390.0 μs)	292.0 μs ± 0.304% (290.0 … 294.0 μs)	84.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (16, 16, 1), base shape (4, 8, 1)`	15.3 μs ± 0.893% (15.0 … 15.7 μs)	4.08 μs ± 2.65% (3.81 … 4.53 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	1.46 ms ± 2.83% (1.43 … 1.68 ms)	1.1 ms ± 2.87% (1.04 … 1.38 ms)	72.5
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.13 μs ± 1.84% (7.87 … 8.34 μs)	2.22 μs ± 7.47% (1.91 … 2.62 μs)	24.2
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	1.85 ms ± 2.66% (1.81 … 2.02 ms)	292.0 μs ± 0.205% (290.0 … 294.0 μs)	16.0
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	130.0 μs ± 0.418% (128.0 … 131.0 μs)	28.7 μs ± 0.453% (28.4 … 29.1 μs)	22.2
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.06 μs ± 2.08% (7.87 … 8.34 μs)	2.18 μs ± 7.86% (1.91 … 2.62 μs)	24.2
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	46.1 ms ± 0.976% (46.0 … 52.4 ms)	40.8 ms ± 0.0061% (40.8 … 40.8 ms)	88.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (32, 4, 1), base shape (32, 1, 1)`	12.6 μs ± 1.33% (12.4 … 12.9 μs)	4.19 μs ± 3.68% (4.05 … 4.53 μs)	32.7
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	380.0 μs ± 4.86% (350.0 … 397.0 μs)	291.0 μs ± 0.243% (290.0 … 293.0 μs)	82.7
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	13.0 μs ± 1.03% (12.6 … 13.1 μs)	3.8 μs ± 3.21% (3.58 … 4.29 μs)	28.3
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.43 μs ± 1.91% (8.11 … 8.82 μs)	3.69 μs ± 3.8% (3.58 … 4.05 μs)	44.1
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	362.0 μs ± 4.89% (343.0 … 390.0 μs)	292.0 μs ± 0.246% (290.0 … 293.0 μs)	84.6
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	2.3 ms ± 2.97% (2.26 … 2.56 ms)	291.0 μs ± 0.277% (289.0 … 296.0 μs)	12.8
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	7.81 μs ± 2.11% (7.63 … 8.11 μs)	2.33 μs ± 5.85% (2.15 … 2.62 μs)	28.1
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.04 μs ± 1.9% (8.82 … 9.3 μs)	2.89 μs ± 5.01% (2.62 … 3.1 μs)	29.7
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.3 μs ± 1.16% (12.2 … 12.6 μs)	2.91 μs ± 5.19% (2.62 … 3.1 μs)	21.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 8, 2), base shape (4, 8, 1)`	16.0 μs ± 1.06% (15.7 … 16.5 μs)	4.17 μs ± 3.67% (4.05 … 4.53 μs)	25.8
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	16.4 μs ± 0.981% (16.0 … 16.7 μs)	4.18 μs ± 3.69% (4.05 … 4.53 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (32, 4, 1), base shape (32, 1, 1)`	31.6 μs ± 0.466% (31.5 … 31.9 μs)	4.08 μs ± 2.88% (3.81 … 4.29 μs)	12.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	13.6 μs ± 0.918% (13.1 … 13.8 μs)	4.03 μs ± 3.41% (3.81 … 4.29 μs)	29.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 32, 1), base shape (1, 32, 1)`	15.7 μs ± 1.05% (15.5 … 16.0 μs)	4.09 μs ± 2.74% (3.81 … 4.29 μs)	24.6
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	18.1 μs ± 0.848% (17.9 … 18.4 μs)	3.9 μs ± 3.57% (3.58 … 4.29 μs)	20.0
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	217.0 μs ± 3.82% (205.0 … 229.0 μs)	188.0 μs ± 1.86% (178.0 … 195.0 μs)	87.0
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	220.0 μs ± 4.42% (205.0 … 237.0 μs)	184.0 μs ± 2.86% (175.0 … 190.0 μs)	85.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 32, 1), base shape (2, 16, 1)`	21.9 μs ± 0.733% (21.7 … 22.2 μs)	4.3 μs ± 3.31% (4.05 … 4.53 μs)	18.7
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.44% (11.9 … 12.4 μs)	3.1 μs ± 3.65% (2.86 … 3.34 μs)	24.0
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	146.0 μs ± 4.38% (129.0 … 149.0 μs)	28.6 μs ± 0.506% (28.4 … 29.1 μs)	21.9
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (16, 16, 1), base shape (8, 4, 1)`	14.5 μs ± 1.08% (14.3 … 14.8 μs)	4.08 μs ± 2.79% (3.81 … 4.29 μs)	26.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 8, 2), base shape (4, 8, 1)`	12.4 μs ± 1.42% (12.2 … 12.9 μs)	4.03 μs ± 3.64% (3.81 … 4.29 μs)	31.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (16, 16, 1), base shape (4, 8, 1)`	15.4 μs ± 1.1% (15.3 … 15.7 μs)	4.03 μs ± 3.53% (3.81 … 4.29 μs)	25.0
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.0 μs ± 1.35% (11.7 … 12.4 μs)	5.18 μs ± 3.09% (5.01 … 5.48 μs)	42.9
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.49% (11.9 … 12.6 μs)	7.25 μs ± 1.86% (6.91 … 7.63 μs)	58.0
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.65 μs ± 2.11% (8.34 … 9.06 μs)	4.95 μs ± 3.48% (4.77 … 5.25 μs)	57.1
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	145.0 μs ± 2.55% (140.0 … 149.0 μs)	31.0 μs ± 0.319% (30.5 … 31.2 μs)	21.8
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.39% (12.2 … 12.6 μs)	3.8 μs ± 3.22% (3.58 … 4.29 μs)	29.4
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.26% (11.9 … 12.4 μs)	3.95 μs ± 3.98% (3.58 … 4.29 μs)	30.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 32, 1), base shape (2, 16, 1)`	21.9 μs ± 0.772% (21.7 … 22.2 μs)	4.03 μs ± 3.38% (3.81 … 4.29 μs)	17.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (32, 4, 1), base shape (16, 2, 1)`	19.1 μs ± 0.865% (18.8 … 19.3 μs)	4.03 μs ± 3.58% (3.81 … 4.29 μs)	20.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 8, 2), base shape (4, 8, 1)`	11.8 μs ± 1.39% (11.7 … 12.2 μs)	4.29 μs ± 3.54% (4.05 … 4.53 μs)	34.7
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.42% (11.9 … 12.4 μs)	5.19 μs ± 3.19% (4.77 … 5.48 μs)	40.0
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.7 μs ± 2.05% (8.34 … 9.06 μs)	5.14 μs ± 2.8% (4.77 … 5.48 μs)	57.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.11% (15.0 … 15.5 μs)	4.3 μs ± 3.46% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.3 μs ± 1.21% (11.9 … 12.4 μs)	3.96 μs ± 3.97% (3.81 … 4.29 μs)	32.0
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	46.4 ms ± 0.757% (46.4 … 52.8 ms)	40.8 ms ± 0.00524% (40.8 … 40.8 ms)	88.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (8, 8, 1), base shape (4, 8, 1)`	15.4 μs ± 0.803% (15.0 … 15.7 μs)	4.09 μs ± 2.69% (3.81 … 4.29 μs)	25.4
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.78 μs ± 2.08% (8.34 … 9.06 μs)	4.93 μs ± 3.29% (4.77 … 5.25 μs)	57.1
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.43% (12.2 … 12.9 μs)	7.42 μs ± 1.52% (7.15 … 7.87 μs)	58.8
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	375.0 μs ± 4.96% (350.0 … 396.0 μs)	293.0 μs ± 0.235% (290.0 … 295.0 μs)	83.0
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.3 μs ± 1.4% (11.9 … 12.6 μs)	7.28 μs ± 1.97% (7.15 … 7.63 μs)	60.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 8, 1), base shape (4, 8, 1)`	15.2 μs ± 1.15% (15.0 … 15.7 μs)	4.08 μs ± 2.58% (3.81 … 4.53 μs)	25.4
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	10.4 μs ± 1.2% (10.0 … 10.7 μs)	2.3 μs ± 5.34% (1.91 … 2.62 μs)	19.0
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.29 μs ± 1.71% (9.06 … 9.54 μs)	2.94 μs ± 5.26% (2.62 … 3.1 μs)	28.9
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.03 μs ± 2.07% (7.87 … 8.34 μs)	2.31 μs ± 5.3% (1.91 … 2.62 μs)	24.2
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (16, 16, 1), base shape (8, 4, 1)`	14.6 μs ± 0.932% (14.3 … 15.0 μs)	4.19 μs ± 3.86% (4.05 … 4.53 μs)	28.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 32, 1), base shape (1, 32, 1)`	33.0 μs ± 0.428% (32.7 … 33.4 μs)	4.03 μs ± 3.51% (3.81 … 4.29 μs)	11.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.15% (15.0 … 15.5 μs)	4.03 μs ± 3.47% (3.81 … 4.29 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (32, 4, 1), base shape (16, 2, 1)`	19.2 μs ± 0.775% (18.8 … 19.3 μs)	4.18 μs ± 3.69% (4.05 … 4.53 μs)	21.5
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	2.37 ms ± 6.92% (2.32 … 6.08 ms)	864.0 μs ± 2.04% (819.0 … 1080.0 μs)	35.3
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	277.0 μs ± 6.38% (256.0 … 295.0 μs)	109.0 μs ± 0.148% (109.0 … 109.0 μs)	42.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (8, 8, 1), base shape (4, 8, 1)`	15.3 μs ± 1.01% (15.0 … 15.5 μs)	4.03 μs ± 3.49% (3.81 … 4.29 μs)	25.4
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.47 μs ± 1.78% (7.15 … 7.87 μs)	3.63 μs ± 3.08% (3.58 … 4.05 μs)	50.0
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.42% (11.9 … 12.4 μs)	2.99 μs ± 4.86% (2.62 … 3.1 μs)	22.0
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	9.29 μs ± 1.74% (9.06 … 9.54 μs)	2.46 μs ± 6.63% (2.15 … 2.62 μs)	23.7
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.5 μs ± 1.37% (12.2 … 12.9 μs)	7.29 μs ± 1.98% (7.15 … 7.63 μs)	58.8
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.4% (12.2 … 12.6 μs)	3.88 μs ± 3.51% (3.58 … 4.29 μs)	29.4
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	15.3 μs ± 1.11% (15.0 … 15.5 μs)	6.77 μs ± 2.01% (6.44 … 6.91 μs)	42.9
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (8, 8, 1), base shape (4, 8, 1)`	15.4 μs ± 1.08% (15.3 … 15.7 μs)	4.18 μs ± 3.61% (4.05 … 4.53 μs)	26.6
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	281.0 μs ± 5.86% (256.0 … 294.0 μs)	109.0 μs ± 0.159% (109.0 … 109.0 μs)	42.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 16, 1), base shape (4, 8, 1)`	15.3 μs ± 0.958% (15.0 … 15.7 μs)	4.19 μs ± 3.69% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.19 μs ± 1.54% (8.82 … 9.54 μs)	2.88 μs ± 4.94% (2.62 … 3.1 μs)	29.7
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	9.22 μs ± 1.35% (8.82 … 9.54 μs)	2.22 μs ± 7.35% (1.91 … 2.38 μs)	21.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (8, 8, 1), base shape (4, 8, 1)`	15.2 μs ± 1.13% (15.0 … 15.5 μs)	4.29 μs ± 3.56% (4.05 … 4.53 μs)	27.0
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	15.8 μs ± 1.04% (15.5 … 16.0 μs)	3.97 μs ± 3.94% (3.58 … 4.29 μs)	23.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (16, 16, 1), base shape (4, 8, 1)`	15.3 μs ± 0.928% (15.0 … 15.5 μs)	4.19 μs ± 3.73% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.36% (12.2 … 12.6 μs)	2.76 μs ± 5.13% (2.38 … 3.1 μs)	19.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 8, 2), base shape (4, 8, 1)`	15.0 μs ± 1.09% (14.5 … 15.5 μs)	4.09 μs ± 2.77% (3.81 … 4.29 μs)	26.2
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (32, 4, 1), base shape (32, 1, 1)`	31.9 μs ± 21.7% (31.5 … 189.0 μs)	4.3 μs ± 3.4% (4.05 … 4.53 μs)	12.9
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.17 μs ± 1.68% (8.82 … 9.3 μs)	2.9 μs ± 5.1% (2.62 … 3.1 μs)	29.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 32, 1), base shape (2, 16, 1)`	23.2 μs ± 175.0% (21.7 … 1310.0 μs)	4.19 μs ± 3.71% (4.05 … 4.53 μs)	18.7
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	15.7 μs ± 1.12% (15.5 … 16.0 μs)	3.96 μs ± 3.86% (3.81 … 4.29 μs)	24.6
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	1.55 ms ± 3.33% (1.51 … 1.87 ms)	293.0 μs ± 3.99% (290.0 … 466.0 μs)	19.3
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	46.3 ms ± 0.872% (46.3 … 52.7 ms)	40.8 ms ± 0.00606% (40.8 … 40.8 ms)	88.2
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.1 μs ± 1.37% (11.9 … 12.4 μs)	5.11 μs ± 3.44% (4.77 … 5.72 μs)	40.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 32, 1), base shape (2, 16, 1)`	22.0 μs ± 0.628% (21.7 … 22.2 μs)	4.08 μs ± 2.74% (3.81 … 4.29 μs)	17.6
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.0 μs ± 1.36% (11.7 … 12.4 μs)	4.49 μs ± 3.66% (4.29 … 4.77 μs)	36.7
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	18.2 μs ± 0.797% (17.9 … 18.6 μs)	6.78 μs ± 2.03% (6.2 … 6.91 μs)	34.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.12% (15.0 … 15.5 μs)	4.08 μs ± 2.84% (3.81 … 4.53 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 8, 1), base shape (4, 8, 1)`	15.3 μs ± 1.11% (15.0 … 15.5 μs)	4.18 μs ± 3.69% (4.05 … 4.53 μs)	27.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 32, 1), base shape (1, 32, 1)`	33.0 μs ± 0.456% (32.7 … 33.4 μs)	4.29 μs ± 3.55% (4.05 … 4.77 μs)	12.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	12.1 μs ± 1.14% (11.9 … 12.4 μs)	4.3 μs ± 3.39% (4.05 … 4.53 μs)	34.0
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	130.0 μs ± 0.278% (129.0 … 131.0 μs)	28.7 μs ± 0.462% (28.4 … 29.1 μs)	22.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (16, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.12% (15.0 … 15.5 μs)	4.29 μs ± 3.55% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.44 μs ± 1.55% (7.15 … 7.87 μs)	3.6 μs ± 2.84% (3.1 … 4.05 μs)	43.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (16, 16, 1), base shape (8, 4, 1)`	14.5 μs ± 1.05% (14.3 … 14.8 μs)	4.3 μs ± 3.45% (4.05 … 4.53 μs)	28.3
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	12.6 μs ± 1.34% (12.4 … 12.9 μs)	7.17 μs ± 1.16% (6.91 … 7.63 μs)	55.8

codecov · 2023-11-15T16:15:59Z

Codecov Report

Attention: 6 lines in your changes are missing coverage. Please review.

Comparison is base (8b52f30) 34.16% compared to head (7d1b0d7) 34.23%.

Files	Patch %	Lines
src/layout.jl	25.00%	6 Missing ⚠️

Additional details and impacted files

@@            Coverage Diff             @@
##           master     #176      +/-   ##
==========================================
+ Coverage   34.16%   34.23%   +0.07%     
==========================================
  Files          11       11              
  Lines         925      923       -2     
==========================================
  Hits          316      316              
+ Misses        609      607       -2

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

thomasfaingnaert marked this pull request as draft November 15, 2023 13:26

thomasfaingnaert force-pushed the tf/generalise-layout branch from 52af9ff to e912335 Compare November 15, 2023 15:02

Do not hardcode vectorisation width in layouts

7d1b0d7

thomasfaingnaert force-pushed the tf/generalise-layout branch from e912335 to 7d1b0d7 Compare November 15, 2023 15:24

thomasfaingnaert marked this pull request as ready for review November 15, 2023 16:08

thomasfaingnaert merged commit 6a8e8cb into master Nov 15, 2023

thomasfaingnaert deleted the tf/generalise-layout branch November 15, 2023 16:17

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Do not hardcode vectorisation width in layouts #176

Do not hardcode vectorisation width in layouts #176

thomasfaingnaert commented Nov 15, 2023

maleadt commented Nov 15, 2023

codecov bot commented Nov 15, 2023

Do not hardcode vectorisation width in layouts #176

Do not hardcode vectorisation width in layouts #176

Conversation

thomasfaingnaert commented Nov 15, 2023

maleadt commented Nov 15, 2023

Comparison with baseline

codecov bot commented Nov 15, 2023

Codecov Report