Fix typo in parallelise function name #178

thomasfaingnaert · 2023-11-20T12:51:26Z

Fixes #177

maleadt · 2023-11-20T13:32:13Z

Benchmark results for commit d29a133 (comparing to 6a8e8cb):

test	master	PR	Δmin
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	226.0 μs ± 3.66% (207.0 … 235.0 μs)	230.0 μs ± 0.736% (225.0 … 235.0 μs)	+8.5% ❌
`WMMA GEMM+bias Float16*Float16+Float32=Float32 (128×128) · (128×128) (TN) OP (16, 16, 16)`	10.1 μs ± 1.36% (9.78 … 10.5 μs)	8.92 μs ± 1.8% (8.58 … 9.3 μs)	-12.2% ✅
`WMMA GEMM+bias Float16*Float16+Float32=Float32 (128×128) · (128×128) (NT) OP (16, 16, 16)`	10.2 μs ± 1.35% (9.78 … 10.7 μs)	9.08 μs ± 1.88% (8.82 … 9.54 μs)	-9.8% ✅
`Tropical GEMM Float32*Float32=Float32 (128×256) · (256×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	125.0 μs ± 4.55% (112.0 … 128.0 μs)	127.0 μs ± 0.146% (127.0 … 128.0 μs)	+13.5% ❌
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 8, 1), base shape (4, 8, 1)`	13.5 μs ± 1.07% (13.1 … 13.8 μs)	15.3 μs ± 1.09% (15.0 … 15.5 μs)	+14.5% ❌
`Tropical GEMM Float32*Float32=Float32 (256×256) · (256×256) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	110.0 μs ± 0.152% (110.0 … 111.0 μs)	125.0 μs ± 0.117% (125.0 … 126.0 μs)	+13.7% ❌
`FPU GEMM Float32*Float32=Float64 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	177.0 μs ± 4.17% (157.0 … 181.0 μs)	180.0 μs ± 0.244% (178.0 … 181.0 μs)	+13.5% ❌

Comparison with baseline

test	GemmKernels	Baseline	%
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	15.0 μs ± 1.13% (14.8 … 15.3 μs)	7.18 μs ± 1.62% (6.91 … 7.63 μs)	46.8
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 32, 1), base shape (1, 32, 1)`	16.1 μs ± 0.996% (15.7 … 16.5 μs)	4.18 μs ± 3.81% (4.05 … 4.53 μs)	25.8
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	230.0 μs ± 0.736% (225.0 … 235.0 μs)	190.0 μs ± 2.64% (180.0 … 195.0 μs)	80.1
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.95 μs ± 1.78% (7.63 … 8.34 μs)	2.35 μs ± 6.49% (2.15 … 2.62 μs)	28.1
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	224.0 μs ± 1.71% (204.0 … 229.0 μs)	185.0 μs ± 2.69% (172.0 … 193.0 μs)	84.5
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (16, 16, 1), base shape (8, 4, 1)`	14.5 μs ± 1.04% (14.3 … 14.8 μs)	4.04 μs ± 3.52% (3.81 … 4.29 μs)	26.7
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	1.84 ms ± 2.86% (1.8 … 2.02 ms)	996.0 μs ± 1.71% (936.0 … 1030.0 μs)	51.9
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (32, 4, 1), base shape (32, 1, 1)`	13.1 μs ± 0.942% (12.6 … 13.4 μs)	4.03 μs ± 3.49% (3.81 … 4.29 μs)	30.2
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (32, 4, 1), base shape (16, 2, 1)`	19.1 μs ± 0.896% (18.8 … 19.3 μs)	4.08 μs ± 2.72% (3.81 … 4.29 μs)	20.3
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	1.84 ms ± 2.63% (1.8 … 2.01 ms)	292.0 μs ± 0.333% (290.0 … 293.0 μs)	16.1
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	46.1 ms ± 0.801% (46.0 … 52.4 ms)	41.0 ms ± 0.00254% (41.0 … 41.0 ms)	89.2
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (32, 4, 1), base shape (16, 2, 1)`	19.1 μs ± 0.897% (18.8 … 19.3 μs)	4.29 μs ± 3.58% (4.05 … 4.53 μs)	21.5
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	269.0 μs ± 6.23% (255.0 … 293.0 μs)	109.0 μs ± 0.162% (109.0 … 109.0 μs)	42.7
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.42 μs ± 1.97% (7.15 … 7.87 μs)	3.82 μs ± 2.71% (3.58 … 4.29 μs)	50.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	15.3 μs ± 1.13% (14.8 … 15.7 μs)	4.08 μs ± 2.78% (3.81 … 4.53 μs)	25.8
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.71 μs ± 1.9% (8.34 … 9.06 μs)	5.14 μs ± 2.9% (4.77 … 5.48 μs)	57.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 8, 1), base shape (4, 8, 1)`	15.2 μs ± 1.09% (15.0 … 15.5 μs)	4.3 μs ± 3.42% (4.05 … 4.53 μs)	27.0
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	1.88 ms ± 3.25% (1.84 … 2.05 ms)	1.1 ms ± 1.78% (1.02 … 1.15 ms)	55.5
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	272.0 μs ± 6.36% (256.0 … 292.0 μs)	109.0 μs ± 0.155% (109.0 … 109.0 μs)	42.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 8, 1), base shape (4, 8, 1)`	15.2 μs ± 1.07% (15.0 … 15.5 μs)	4.03 μs ± 3.57% (3.81 … 4.29 μs)	25.4
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	359.0 μs ± 4.76% (344.0 … 389.0 μs)	292.0 μs ± 0.314% (290.0 … 294.0 μs)	84.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (16, 16, 1), base shape (4, 8, 1)`	15.3 μs ± 0.903% (15.0 … 15.7 μs)	4.08 μs ± 2.57% (3.81 … 4.29 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	1.45 ms ± 1.6% (1.43 … 1.53 ms)	1.11 ms ± 1.81% (1.04 … 1.14 ms)	72.8
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.1 μs ± 2.02% (7.87 … 8.34 μs)	2.24 μs ± 7.08% (1.91 … 2.62 μs)	24.2
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	1.84 ms ± 2.46% (1.81 … 2.02 ms)	292.0 μs ± 0.319% (290.0 … 294.0 μs)	16.0
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	130.0 μs ± 0.408% (129.0 … 131.0 μs)	28.7 μs ± 0.459% (28.4 … 29.1 μs)	22.0
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.02 μs ± 2.03% (7.87 … 8.34 μs)	2.48 μs ± 6.6% (2.15 … 2.62 μs)	27.3
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	46.2 ms ± 0.757% (46.0 … 52.4 ms)	41.0 ms ± 0.00298% (41.0 … 41.0 ms)	89.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (32, 4, 1), base shape (32, 1, 1)`	12.6 μs ± 1.3% (12.4 … 12.9 μs)	4.19 μs ± 3.72% (4.05 … 4.53 μs)	32.7
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	369.0 μs ± 5.15% (350.0 … 397.0 μs)	291.0 μs ± 0.164% (289.0 … 293.0 μs)	82.6
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	13.0 μs ± 1.12% (12.6 … 13.1 μs)	3.79 μs ± 3.16% (3.58 … 4.29 μs)	28.3
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.43 μs ± 1.91% (8.11 … 8.82 μs)	3.71 μs ± 3.8% (3.58 … 4.05 μs)	44.1
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	365.0 μs ± 5.04% (343.0 … 389.0 μs)	292.0 μs ± 0.187% (290.0 … 294.0 μs)	84.6
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	2.31 ms ± 3.51% (2.26 … 2.57 ms)	291.0 μs ± 0.325% (289.0 … 293.0 μs)	12.8
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	6.88 μs ± 1.25% (6.44 … 6.91 μs)	2.35 μs ± 6.39% (2.15 … 2.62 μs)	33.3
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.05 μs ± 1.86% (8.82 … 9.3 μs)	2.88 μs ± 5.08% (2.62 … 3.1 μs)	29.7
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.3 μs ± 1.15% (12.2 … 12.6 μs)	2.9 μs ± 5.15% (2.62 … 3.1 μs)	21.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 8, 2), base shape (4, 8, 1)`	16.0 μs ± 1.05% (15.7 … 16.5 μs)	4.18 μs ± 3.64% (4.05 … 4.53 μs)	25.8
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	16.4 μs ± 0.963% (16.0 … 16.7 μs)	4.19 μs ± 3.82% (4.05 … 4.53 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (32, 4, 1), base shape (32, 1, 1)`	31.6 μs ± 0.473% (31.5 … 31.9 μs)	4.08 μs ± 2.83% (3.81 … 4.29 μs)	12.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	13.6 μs ± 0.914% (13.1 … 13.8 μs)	4.04 μs ± 3.51% (3.81 … 4.53 μs)	29.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 32, 1), base shape (1, 32, 1)`	15.7 μs ± 1.06% (15.5 … 16.0 μs)	4.09 μs ± 2.6% (3.81 … 4.29 μs)	24.6
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	18.1 μs ± 0.879% (17.9 … 18.4 μs)	3.89 μs ± 3.67% (3.58 … 4.29 μs)	20.0
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	224.0 μs ± 2.38% (205.0 … 229.0 μs)	188.0 μs ± 2.07% (178.0 … 197.0 μs)	86.6
`WMMA GEMM Float16*Float16+Float16=Float16 (2048×2048) · (2048×2048) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	221.0 μs ± 3.83% (208.0 … 237.0 μs)	185.0 μs ± 2.82% (175.0 … 191.0 μs)	83.9
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 32, 1), base shape (2, 16, 1)`	21.9 μs ± 0.761% (21.7 … 22.2 μs)	4.3 μs ± 3.37% (4.05 … 4.53 μs)	18.7
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.1 μs ± 1.39% (11.9 … 12.4 μs)	3.08 μs ± 3.12% (2.62 … 3.34 μs)	22.0
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	140.0 μs ± 6.43% (129.0 … 149.0 μs)	29.5 μs ± 0.492% (29.1 … 29.8 μs)	22.5
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (16, 16, 1), base shape (8, 4, 1)`	14.5 μs ± 1.1% (14.3 … 14.8 μs)	4.08 μs ± 2.89% (3.81 … 4.29 μs)	26.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 8, 2), base shape (4, 8, 1)`	12.4 μs ± 1.41% (12.2 … 12.6 μs)	4.03 μs ± 3.59% (3.81 … 4.29 μs)	31.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (16, 16, 1), base shape (4, 8, 1)`	15.4 μs ± 1.07% (15.3 … 15.7 μs)	4.03 μs ± 3.48% (3.81 … 4.29 μs)	25.0
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.0 μs ± 1.34% (11.7 … 12.4 μs)	5.21 μs ± 3.26% (5.01 … 5.72 μs)	42.9
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.48% (11.9 … 12.6 μs)	7.25 μs ± 2.0% (6.91 … 7.63 μs)	58.0
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.68 μs ± 2.17% (8.34 … 9.06 μs)	4.96 μs ± 3.45% (4.77 … 5.25 μs)	57.1
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	148.0 μs ± 0.162% (147.0 … 149.0 μs)	32.6 μs ± 0.519% (32.4 … 32.9 μs)	22.0
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.37% (12.2 … 12.6 μs)	3.8 μs ± 3.34% (3.58 … 4.29 μs)	29.4
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.32% (11.9 … 12.4 μs)	3.93 μs ± 3.91% (3.58 … 4.29 μs)	30.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 32, 1), base shape (2, 16, 1)`	21.9 μs ± 0.747% (21.7 … 22.2 μs)	4.04 μs ± 3.54% (3.81 … 4.29 μs)	17.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (32, 4, 1), base shape (16, 2, 1)`	19.1 μs ± 0.872% (18.8 … 19.3 μs)	4.03 μs ± 3.43% (3.81 … 4.29 μs)	20.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 8, 2), base shape (4, 8, 1)`	11.8 μs ± 1.42% (11.7 … 12.2 μs)	4.28 μs ± 3.58% (4.05 … 4.77 μs)	34.7
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.43% (11.9 … 12.4 μs)	5.17 μs ± 2.97% (4.77 … 5.48 μs)	40.0
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.72 μs ± 2.01% (8.34 … 9.06 μs)	5.14 μs ± 2.84% (4.77 … 5.48 μs)	57.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.07% (15.0 … 15.5 μs)	4.3 μs ± 3.43% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.27% (11.9 … 12.4 μs)	3.94 μs ± 3.71% (3.81 … 4.29 μs)	32.0
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	46.4 ms ± 0.882% (46.4 … 52.8 ms)	41.0 ms ± 0.00232% (41.0 … 41.0 ms)	88.5
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (8, 8, 1), base shape (4, 8, 1)`	15.4 μs ± 0.853% (15.0 … 15.7 μs)	4.08 μs ± 2.71% (3.81 … 4.29 μs)	25.4
`WMMA GEMM Float16*Float16+Float16=Float16 (512×256) · (256×512) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.78 μs ± 2.11% (8.34 … 9.06 μs)	4.92 μs ± 3.3% (4.77 … 5.25 μs)	57.1
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.44% (12.2 … 12.9 μs)	7.41 μs ± 1.61% (7.15 … 7.87 μs)	58.8
`WMMA GEMM Float16*Float16+Float32=Float32 (2048×2048) · (2048×2048) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	373.0 μs ± 5.01% (350.0 … 397.0 μs)	293.0 μs ± 0.293% (291.0 … 295.0 μs)	83.2
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.3 μs ± 1.38% (11.9 … 12.6 μs)	7.31 μs ± 2.03% (7.15 … 7.63 μs)	60.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 8, 1), base shape (4, 8, 1)`	15.3 μs ± 1.09% (15.0 … 15.5 μs)	4.08 μs ± 2.68% (3.81 … 4.53 μs)	25.4
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	9.19 μs ± 1.55% (8.82 … 9.54 μs)	2.04 μs ± 6.3% (1.67 … 2.38 μs)	18.9
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (NN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.31 μs ± 1.75% (9.06 … 9.54 μs)	2.93 μs ± 5.21% (2.62 … 3.1 μs)	28.9
`WMMA GEMM Float16*Float16+Float32=Float32 (128×128) · (128×128) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	8.03 μs ± 2.09% (7.87 … 8.34 μs)	2.31 μs ± 5.21% (2.15 … 2.62 μs)	27.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (16, 16, 1), base shape (8, 4, 1)`	14.6 μs ± 0.891% (14.3 … 14.8 μs)	4.18 μs ± 3.6% (4.05 … 4.53 μs)	28.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 32, 1), base shape (1, 32, 1)`	33.0 μs ± 0.412% (32.7 … 33.4 μs)	4.02 μs ± 3.46% (3.81 … 4.29 μs)	11.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (4, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.11% (15.0 … 15.5 μs)	4.04 μs ± 3.58% (3.81 … 4.29 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (32, 4, 1), base shape (16, 2, 1)`	19.2 μs ± 0.802% (18.8 … 19.6 μs)	4.18 μs ± 3.67% (4.05 … 4.53 μs)	21.5
`FPU GEMM Float32*Float32=Float32 (2048×2048) · (2048×2048) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	2.35 ms ± 2.62% (2.32 … 2.63 ms)	867.0 μs ± 0.867% (818.0 … 877.0 μs)	35.3
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	277.0 μs ± 6.35% (256.0 … 295.0 μs)	109.0 μs ± 0.154% (109.0 … 110.0 μs)	42.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TT) OP (8, 8, 1), base shape (4, 8, 1)`	15.3 μs ± 1.0% (15.0 … 15.5 μs)	4.03 μs ± 3.43% (3.81 … 4.29 μs)	25.4
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.47 μs ± 1.75% (7.15 … 7.87 μs)	3.64 μs ± 3.24% (3.58 … 4.05 μs)	50.0
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.2 μs ± 1.4% (11.9 … 12.4 μs)	3.0 μs ± 4.69% (2.62 … 3.34 μs)	22.0
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	8.17 μs ± 1.61% (7.87 … 8.34 μs)	2.17 μs ± 8.11% (1.91 … 2.38 μs)	24.2
`WMMA GEMM Float16*Float16+Float16=Float16 (512×512) · (512×512) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.44% (11.9 … 12.9 μs)	7.27 μs ± 1.97% (7.15 … 7.63 μs)	60.0
`WMMA GEMM Float16*Float16+Float32=Float32 (256×256) · (256×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.37% (12.2 … 12.6 μs)	3.91 μs ± 3.63% (3.58 … 4.29 μs)	29.4
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	15.3 μs ± 1.1% (15.0 … 15.5 μs)	6.8 μs ± 1.97% (6.44 … 6.91 μs)	42.9
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (8, 8, 1), base shape (4, 8, 1)`	15.4 μs ± 1.07% (15.3 … 15.7 μs)	4.19 μs ± 3.84% (4.05 … 4.53 μs)	26.6
`FPU GEMM Float64*Float64=Float64 (256×256) · (256×256) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	260.0 μs ± 1.43% (256.0 … 266.0 μs)	109.0 μs ± 0.156% (109.0 … 109.0 μs)	42.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 16, 1), base shape (4, 8, 1)`	15.3 μs ± 0.954% (15.0 … 15.7 μs)	4.19 μs ± 3.64% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (TT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.15 μs ± 1.76% (8.82 … 9.3 μs)	2.89 μs ± 4.9% (2.62 … 3.1 μs)	29.7
`FPU GEMM Float16*Float16=Float32 (128×128) · (128×128) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	9.22 μs ± 1.37% (8.82 … 9.54 μs)	2.21 μs ± 7.74% (1.91 … 2.38 μs)	21.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (8, 8, 1), base shape (4, 8, 1)`	15.2 μs ± 1.13% (15.0 … 15.5 μs)	4.28 μs ± 3.57% (4.05 … 4.77 μs)	27.0
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (TT) OP (8, 16, 2), base shape (4, 8, 1)`	15.8 μs ± 1.11% (15.5 … 16.0 μs)	3.94 μs ± 3.94% (3.58 … 4.29 μs)	23.1
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (16, 16, 1), base shape (4, 8, 1)`	15.3 μs ± 0.945% (15.0 … 15.7 μs)	4.18 μs ± 3.69% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float32=Float32 (128×256) · (256×128) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.4 μs ± 1.36% (12.2 … 12.6 μs)	2.77 μs ± 4.91% (2.38 … 3.1 μs)	19.6
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 8, 2), base shape (4, 8, 1)`	15.0 μs ± 1.12% (14.8 … 15.3 μs)	4.09 μs ± 2.63% (3.81 … 4.29 μs)	25.8
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (32, 4, 1), base shape (32, 1, 1)`	31.6 μs ± 0.46% (31.5 … 31.9 μs)	4.3 μs ± 3.33% (4.05 … 4.53 μs)	12.9
`WMMA GEMM Float16*Float16+Float32=Float32 (256×128) · (128×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	9.16 μs ± 1.66% (8.82 … 9.3 μs)	2.92 μs ± 5.35% (2.62 … 3.1 μs)	29.7
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 32, 1), base shape (2, 16, 1)`	21.9 μs ± 0.744% (21.7 … 22.2 μs)	4.19 μs ± 3.78% (4.05 … 4.53 μs)	18.7
`FPU GEMM Float16*Float16=Float32 (256×256) · (256×256) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	15.7 μs ± 1.13% (15.5 … 16.0 μs)	3.94 μs ± 3.84% (3.81 … 4.29 μs)	24.6
`FPU GEMM Float16*Float16=Float32 (2048×2048) · (2048×2048) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	1.54 ms ± 2.65% (1.52 … 1.67 ms)	292.0 μs ± 0.265% (290.0 … 293.0 μs)	19.1
`FPU GEMM Float64*Float64=Float64 (2048×2048) · (2048×2048) (NN) OP (8, 16, 2), base shape (4, 8, 1)`	46.3 ms ± 0.891% (46.3 … 52.7 ms)	40.8 ms ± 0.00535% (40.8 … 40.8 ms)	88.2
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.1 μs ± 1.38% (11.9 … 12.4 μs)	5.11 μs ± 3.28% (4.77 … 5.72 μs)	40.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 32, 1), base shape (2, 16, 1)`	22.0 μs ± 0.616% (21.7 … 22.2 μs)	4.07 μs ± 2.75% (3.81 … 4.29 μs)	17.6
`WMMA GEMM Float16*Float16+Float16=Float16 (256×512) · (512×256) (NT) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	12.0 μs ± 1.45% (11.7 … 12.4 μs)	4.49 μs ± 3.65% (4.29 … 4.77 μs)	36.7
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (NT) OP (8, 16, 2), base shape (4, 8, 1)`	18.2 μs ± 0.769% (17.9 … 18.6 μs)	6.74 μs ± 1.91% (6.44 … 6.91 μs)	36.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NN) OP (4, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.13% (15.0 … 15.5 μs)	4.08 μs ± 2.68% (3.81 … 4.53 μs)	25.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (NT) OP (4, 8, 1), base shape (4, 8, 1)`	15.3 μs ± 1.07% (15.0 … 15.5 μs)	4.18 μs ± 3.62% (4.05 … 4.53 μs)	27.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (4, 32, 1), base shape (1, 32, 1)`	33.0 μs ± 0.454% (32.7 … 33.4 μs)	4.29 μs ± 3.52% (4.05 … 4.53 μs)	12.4
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	12.1 μs ± 1.22% (11.7 … 12.4 μs)	4.29 μs ± 3.45% (4.05 … 4.53 μs)	34.7
`FPU GEMM Float64*Float64=Float64 (128×128) · (128×128) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	130.0 μs ± 0.277% (129.0 … 131.0 μs)	28.7 μs ± 0.474% (28.4 … 29.1 μs)	22.0
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (16, 16, 1), base shape (4, 8, 1)`	15.2 μs ± 1.11% (15.0 … 15.5 μs)	4.29 μs ± 3.5% (4.05 … 4.53 μs)	27.0
`WMMA GEMM Float16*Float16+Float16=Float16 (256×256) · (256×256) (TN) Block (128, 128, 64) Warps (4, 2) OP (16, 16, 16)`	7.42 μs ± 1.48% (7.15 … 7.87 μs)	3.6 μs ± 2.62% (3.1 … 4.05 μs)	43.3
`FPU GEMM Float32*Float32=Float32 (128×128) · (128×128) (TN) OP (16, 16, 1), base shape (8, 4, 1)`	14.5 μs ± 1.08% (14.3 … 14.8 μs)	4.3 μs ± 3.34% (4.05 … 4.53 μs)	28.3
`FPU GEMM Float32*Float32=Float32 (256×256) · (256×256) (TN) OP (8, 16, 2), base shape (4, 8, 1)`	12.6 μs ± 1.3% (12.4 … 12.9 μs)	7.15 μs ± 1.21% (6.91 … 7.39 μs)	55.8

codecov · 2023-11-20T13:44:50Z

Codecov Report

Attention: 33 lines in your changes are missing coverage. Please review.

Comparison is base (6a8e8cb) 34.23% compared to head (d29a133) 34.23%.

Files	Patch %	Lines
src/kernel.jl	0.00%	29 Missing ⚠️
src/epilogue.jl	0.00%	4 Missing ⚠️

Additional details and impacted files

@@           Coverage Diff           @@
##           master     #178   +/-   ##
=======================================
  Coverage   34.23%   34.23%           
=======================================
  Files          11       11           
  Lines         923      923           
=======================================
  Hits          316      316           
  Misses        607      607

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

Fix typo in parallelise function name

d29a133

Fixes #177

thomasfaingnaert mentioned this pull request Nov 20, 2023

A wrong function name parallellise #177

Closed

thomasfaingnaert merged commit 8207701 into master Nov 21, 2023
1 check passed

thomasfaingnaert deleted the tf/fix-parallelise-name branch November 21, 2023 13:27

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix typo in parallelise function name #178

Fix typo in parallelise function name #178

thomasfaingnaert commented Nov 20, 2023

maleadt commented Nov 20, 2023

codecov bot commented Nov 20, 2023

Fix typo in parallelise function name #178

Fix typo in parallelise function name #178

Conversation

thomasfaingnaert commented Nov 20, 2023

maleadt commented Nov 20, 2023

Comparison with baseline

codecov bot commented Nov 20, 2023

Codecov Report