Adds support for large number of segments to `DeviceSegmentedReduce` #3764

elstehle · 2025-02-10T20:57:28Z

Description

github-actions · 2025-02-10T22:29:51Z

🟨 CI finished in 1h 28m: Pass: 95%/90 | Total: 2d 13h | Avg: 40m 50s | Max: 1h 20m | Hits: 75%/125290

🟨 cub: Pass: 90%/44 | Total: 1d 16h | Avg: 54m 36s | Max: 1h 20m | Hits: 69%/48430

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  90%/42  | Total:  1d 14h | Avg: 54m 24s | Max:  1h 20m | Hits:  70%/45984 
  🟩 arm64              Pass: 100%/2   | Total:  1h 57m | Avg: 58m 41s | Max:  1h 00m | Hits:  63%/2446  
🔍 cudacxx_family: nvcc 🔍
  🟩 ClangCUDA          Pass: 100%/2   | Total:  2h 06m | Avg:  1h 03m | Max:  1h 04m | Hits:  68%/2116  
  🔍 nvcc               Pass:  90%/42  | Total:  1d 13h | Avg: 54m 11s | Max:  1h 20m | Hits:  69%/46314 
🚨 cxx_family: MSVC 🚨
  🟩 Clang              Pass: 100%/17  | Total: 15h 17m | Avg: 53m 56s | Max:  1h 04m | Hits:  68%/20469 
  🟩 GCC                Pass: 100%/21  | Total: 17h 30m | Avg: 50m 01s | Max:  1h 10m | Hits:  71%/25697 
  🔥 MSVC               Pass:   0%/4   | Total:  4h 50m | Avg:  1h 12m | Max:  1h 20m
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 14m | Hits:  62%/2264  
🔍 gpu: rtx2080 🔍
  🟩 h100               Pass: 100%/2   | Total: 53m 02s | Avg: 26m 31s | Max: 28m 29s | Hits:  81%/2446  
  🔍 rtx2080            Pass:  88%/34  | Total:  1d 10h | Avg:  1h 01m | Max:  1h 20m | Hits:  63%/36200 
  🟩 rtxa6000           Pass: 100%/8   | Total:  4h 13m | Avg: 31m 41s | Max:  1h 03m | Hits:  90%/9784  
🔍 jobs: Build 🔍
  🔍 Build              Pass:  89%/37  | Total:  1d 13h | Avg:  1h 00m | Max:  1h 20m | Hits:  63%/39869 
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 23m 24s | Avg: 23m 24s | Max: 23m 24s | Hits:  99%/1223  
  🟩 GraphCapture       Pass: 100%/1   | Total: 18m 32s | Avg: 18m 32s | Max: 18m 32s | Hits:  99%/1223  
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 12m | Avg: 24m 03s | Max: 24m 33s | Hits:  99%/3669  
  🟩 TestGPU            Pass: 100%/2   | Total: 43m 18s | Avg: 21m 39s | Max: 24m 02s | Hits:  99%/2446  
🟨 ctk
  🟨 12.0               Pass:  80%/5   | Total:  4h 54m | Avg: 58m 53s | Max:  1h 01m | Hits:  63%/4900  
  🟩 12.5               Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 14m | Hits:  62%/2264  
  🟨 12.8               Pass:  91%/37  | Total:  1d 08h | Avg: 53m 03s | Max:  1h 20m | Hits:  70%/41266 
🟨 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  2h 06m | Avg:  1h 03m | Max:  1h 04m | Hits:  68%/2116  
  🟨 nvcc12.0           Pass:  80%/5   | Total:  4h 54m | Avg: 58m 53s | Max:  1h 01m | Hits:  63%/4900  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 14m | Hits:  62%/2264  
  🟨 nvcc12.8           Pass:  91%/35  | Total:  1d 06h | Avg: 52m 29s | Max:  1h 20m | Hits:  71%/39150 
🟨 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  3h 53m | Avg: 58m 28s | Max:  1h 01m | Hits:  63%/4900  
  🟩 Clang15            Pass: 100%/2   | Total:  1h 59m | Avg: 59m 40s | Max:  1h 02m | Hits:  63%/2446  
  🟩 Clang16            Pass: 100%/2   | Total:  1h 51m | Avg: 55m 39s | Max: 55m 57s | Hits:  63%/2446  
  🟩 Clang17            Pass: 100%/2   | Total:  1h 51m | Avg: 55m 50s | Max: 55m 56s | Hits:  63%/2446  
  🟩 Clang18            Pass: 100%/7   | Total:  5h 40m | Avg: 48m 41s | Max:  1h 04m | Hits:  75%/8231  
  🟩 GCC7               Pass: 100%/2   | Total:  1h 58m | Avg: 59m 23s | Max:  1h 01m | Hits:  62%/2450  
  🟩 GCC8               Pass: 100%/1   | Total: 56m 05s | Avg: 56m 05s | Max: 56m 05s | Hits:  62%/1225  
  🟩 GCC9               Pass: 100%/2   | Total:  1h 54m | Avg: 57m 16s | Max: 57m 26s | Hits:  62%/2450  
  🟩 GCC10              Pass: 100%/2   | Total:  1h 56m | Avg: 58m 02s | Max: 59m 36s | Hits:  62%/2450  
  🟩 GCC11              Pass: 100%/2   | Total:  2h 04m | Avg:  1h 02m | Max:  1h 03m | Hits:  62%/2446  
  🟩 GCC12              Pass: 100%/2   | Total:  2h 00m | Avg:  1h 00m | Max:  1h 03m | Hits:  62%/2446  
  🟩 GCC13              Pass: 100%/10  | Total:  6h 39m | Avg: 39m 56s | Max:  1h 10m | Hits:  81%/12230 
  🟥 MSVC14.29          Pass:   0%/2   | Total:  2h 11m | Avg:  1h 05m | Max:  1h 10m
  🟥 MSVC14.42          Pass:   0%/2   | Total:  2h 38m | Avg:  1h 19m | Max:  1h 20m
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 14m | Hits:  62%/2264  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 53m 02s | Avg: 26m 31s | Max: 28m 29s | Hits:  81%/2446  
  🟩 90;90a;100         Pass: 100%/1   | Total:  1h 10m | Avg:  1h 10m | Max:  1h 10m | Hits:  62%/1223  
🟨 std
  🟨 17                 Pass:  85%/20  | Total: 20h 16m | Avg:  1h 00m | Max:  1h 20m | Hits:  63%/20551 
  🟨 20                 Pass:  95%/24  | Total: 19h 45m | Avg: 49m 24s | Max:  1h 18m | Hits:  74%/27879

🟩 thrust: Pass: 100%/43 | Total: 20h 33m | Avg: 28m 41s | Max: 51m 33s | Hits: 78%/76572

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 34m 47s | Avg: 17m 23s | Max: 23m 39s | Hits:  89%/3564  
🟩 cpu
  🟩 amd64              Pass: 100%/41  | Total: 19h 42m | Avg: 28m 50s | Max: 51m 33s | Hits:  78%/73009 
  🟩 arm64              Pass: 100%/2   | Total: 50m 47s | Avg: 25m 23s | Max: 26m 37s | Hits:  79%/3563  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  2h 37m | Avg: 31m 34s | Max: 47m 06s | Hits:  74%/8901  
  🟩 12.5               Pass: 100%/2   | Total:  1h 35m | Avg: 47m 35s | Max: 47m 36s | Hits:  73%/3562  
  🟩 12.8               Pass: 100%/36  | Total: 16h 20m | Avg: 27m 14s | Max: 51m 33s | Hits:  79%/64109 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 46m 00s | Avg: 23m 00s | Max: 23m 06s | Hits:  79%/3562  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  2h 37m | Avg: 31m 34s | Max: 47m 06s | Hits:  74%/8901  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 35m | Avg: 47m 35s | Max: 47m 36s | Hits:  73%/3562  
  🟩 nvcc12.8           Pass: 100%/34  | Total: 15h 34m | Avg: 27m 29s | Max: 51m 33s | Hits:  79%/60547 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 46m 00s | Avg: 23m 00s | Max: 23m 06s | Hits:  79%/3562  
  🟩 nvcc               Pass: 100%/41  | Total: 19h 47m | Avg: 28m 57s | Max: 51m 33s | Hits:  78%/73010 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  1h 47m | Avg: 26m 52s | Max: 27m 46s | Hits:  79%/7124  
  🟩 Clang15            Pass: 100%/2   | Total: 55m 07s | Avg: 27m 33s | Max: 28m 51s | Hits:  79%/3562  
  🟩 Clang16            Pass: 100%/2   | Total: 55m 04s | Avg: 27m 32s | Max: 27m 48s | Hits:  79%/3562  
  🟩 Clang17            Pass: 100%/2   | Total: 57m 08s | Avg: 28m 34s | Max: 29m 02s | Hits:  79%/3562  
  🟩 Clang18            Pass: 100%/7   | Total:  2h 21m | Avg: 20m 17s | Max: 27m 20s | Hits:  85%/12467 
  🟩 GCC7               Pass: 100%/2   | Total: 58m 23s | Avg: 29m 11s | Max: 30m 23s | Hits:  79%/3564  
  🟩 GCC8               Pass: 100%/1   | Total: 28m 57s | Avg: 28m 57s | Max: 28m 57s | Hits:  79%/1782  
  🟩 GCC9               Pass: 100%/2   | Total: 57m 11s | Avg: 28m 35s | Max: 28m 37s | Hits:  79%/3564  
  🟩 GCC10              Pass: 100%/2   | Total: 57m 01s | Avg: 28m 30s | Max: 29m 48s | Hits:  79%/3564  
  🟩 GCC11              Pass: 100%/2   | Total: 55m 35s | Avg: 27m 47s | Max: 28m 44s | Hits:  79%/3564  
  🟩 GCC12              Pass: 100%/2   | Total:  1h 01m | Avg: 30m 59s | Max: 31m 26s | Hits:  79%/3564  
  🟩 GCC13              Pass: 100%/8   | Total:  2h 54m | Avg: 21m 51s | Max: 33m 48s | Hits:  86%/14256 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 38m | Avg: 49m 19s | Max: 51m 33s | Hits:  55%/3550  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  2h 08m | Avg: 42m 58s | Max: 49m 55s | Hits:  60%/5325  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 35m | Avg: 47m 35s | Max: 47m 36s | Hits:  73%/3562  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  6h 56m | Avg: 24m 30s | Max: 29m 02s | Hits:  81%/30277 
  🟩 GCC                Pass: 100%/19  | Total:  8h 14m | Avg: 26m 00s | Max: 33m 48s | Hits:  82%/33858 
  🟩 MSVC               Pass: 100%/5   | Total:  3h 47m | Avg: 45m 30s | Max: 51m 33s | Hits:  58%/8875  
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 35m | Avg: 47m 35s | Max: 47m 36s | Hits:  73%/3562  
🟩 gpu
  🟩 rtx2080            Pass: 100%/33  | Total: 17h 00m | Avg: 30m 55s | Max: 51m 33s | Hits:  76%/58769 
  🟩 rtx4090            Pass: 100%/10  | Total:  3h 32m | Avg: 21m 16s | Max: 49m 55s | Hits:  86%/17803 
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total: 19h 15m | Avg: 31m 13s | Max: 51m 33s | Hits:  76%/65889 
  🟩 TestCPU            Pass: 100%/3   | Total: 45m 28s | Avg: 15m 09s | Max: 30m 06s | Hits:  90%/5338  
  🟩 TestGPU            Pass: 100%/3   | Total: 32m 38s | Avg: 10m 52s | Max: 11m 17s | Hits:  99%/5345  
🟩 sm
  🟩 90;90a;100         Pass: 100%/1   | Total: 29m 27s | Avg: 29m 27s | Max: 29m 27s | Hits:  79%/1782  
🟩 std
  🟩 17                 Pass: 100%/20  | Total: 10h 44m | Avg: 32m 12s | Max: 51m 33s | Hits:  75%/35611 
  🟩 20                 Pass: 100%/21  | Total:  9h 14m | Avg: 26m 24s | Max: 49m 55s | Hits:  81%/37397

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 10m 47s | Avg: 5m 23s | Max: 8m 18s | Hits: 98%/288

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 10m 47s | Avg:  5m 23s | Max:  8m 18s | Hits:  98%/288   
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total: 10m 47s | Avg:  5m 23s | Max:  8m 18s | Hits:  98%/288   
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total: 10m 47s | Avg:  5m 23s | Max:  8m 18s | Hits:  98%/288   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 10m 47s | Avg:  5m 23s | Max:  8m 18s | Hits:  98%/288   
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 10m 47s | Avg:  5m 23s | Max:  8m 18s | Hits:  98%/288   
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 10m 47s | Avg:  5m 23s | Max:  8m 18s | Hits:  98%/288   
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total: 10m 47s | Avg:  5m 23s | Max:  8m 18s | Hits:  98%/288   
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 29s | Avg:  2m 29s | Max:  2m 29s | Hits:  97%/144   
  🟩 Test               Pass: 100%/1   | Total:  8m 18s | Avg:  8m 18s | Max:  8m 18s | Hits:  98%/144

🟩 python: Pass: 100%/1 | Total: 29m 35s | Avg: 29m 35s | Max: 29m 35s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 29m 35s | Avg: 29m 35s | Max: 29m 35s
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total: 29m 35s | Avg: 29m 35s | Max: 29m 35s
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total: 29m 35s | Avg: 29m 35s | Max: 29m 35s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 29m 35s | Avg: 29m 35s | Max: 29m 35s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 29m 35s | Avg: 29m 35s | Max: 29m 35s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 29m 35s | Avg: 29m 35s | Max: 29m 35s
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total: 29m 35s | Avg: 29m 35s | Max: 29m 35s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 29m 35s | Avg: 29m 35s | Max: 29m 35s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 90)

#	Runner
65	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`
1	`linux-amd64-gpu-h100-latest-1`

cub/cub/device/dispatch/dispatch_common.cuh

cub/cub/device/dispatch/dispatch_reduce.cuh

github-actions · 2025-02-11T15:13:37Z

🟨 CI finished in 1h 38m: Pass: 96%/90 | Total: 2d 12h | Avg: 40m 16s | Max: 1h 16m | Hits: 75%/125436

🟨 cub: Pass: 95%/44 | Total: 1d 15h | Avg: 53m 21s | Max: 1h 16m | Hits: 69%/50351

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  95%/42  | Total:  1d 13h | Avg: 53m 05s | Max:  1h 16m | Hits:  69%/47905 
  🟩 arm64              Pass: 100%/2   | Total:  1h 57m | Avg: 58m 55s | Max: 59m 35s | Hits:  68%/2446  
🔍 ctk: 12.8 🔍
  🟩 12.0               Pass: 100%/5   | Total:  4h 53m | Avg: 58m 44s | Max:  1h 01m | Hits:  58%/5948  
  🟩 12.5               Pass: 100%/2   | Total:  2h 11m | Avg:  1h 05m | Max:  1h 05m | Hits:  68%/2264  
  🔍 12.8               Pass:  94%/37  | Total:  1d 08h | Avg: 51m 58s | Max:  1h 16m | Hits:  71%/42139 
🔍 cudacxx: nvcc12.8 🔍
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  2h 00m | Avg:  1h 00m | Max:  1h 01m | Hits:  74%/2116  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  4h 53m | Avg: 58m 44s | Max:  1h 01m | Hits:  58%/5948  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 11m | Avg:  1h 05m | Max:  1h 05m | Hits:  68%/2264  
  🔍 nvcc12.8           Pass:  94%/35  | Total:  1d 06h | Avg: 51m 29s | Max:  1h 16m | Hits:  71%/40023 
🔍 cudacxx_family: nvcc 🔍
  🟩 ClangCUDA          Pass: 100%/2   | Total:  2h 00m | Avg:  1h 00m | Max:  1h 01m | Hits:  74%/2116  
  🔍 nvcc               Pass:  95%/42  | Total:  1d 13h | Avg: 53m 01s | Max:  1h 16m | Hits:  69%/48235 
🔍 std: 20 🔍
  🟩 17                 Pass: 100%/20  | Total: 19h 56m | Avg: 59m 50s | Max:  1h 13m | Hits:  61%/23695 
  🔍 20                 Pass:  91%/24  | Total: 19h 10m | Avg: 47m 57s | Max:  1h 16m | Hits:  77%/26656 
🟨 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  3h 46m | Avg: 56m 36s | Max: 59m 33s | Hits:  68%/4900  
  🟩 Clang15            Pass: 100%/2   | Total:  1h 52m | Avg: 56m 23s | Max: 57m 52s | Hits:  68%/2446  
  🟩 Clang16            Pass: 100%/2   | Total:  1h 48m | Avg: 54m 04s | Max: 54m 43s | Hits:  68%/2446  
  🟩 Clang17            Pass: 100%/2   | Total:  1h 59m | Avg: 59m 42s | Max:  1h 00m | Hits:  68%/2446  
  🟨 Clang18            Pass:  85%/7   | Total:  5h 30m | Avg: 47m 11s | Max:  1h 01m | Hits:  75%/7008  
  🟩 GCC7               Pass: 100%/2   | Total:  1h 58m | Avg: 59m 07s | Max: 59m 29s | Hits:  68%/2450  
  🟩 GCC8               Pass: 100%/1   | Total:  1h 02m | Avg:  1h 02m | Max:  1h 02m | Hits:  68%/1225  
  🟩 GCC9               Pass: 100%/2   | Total:  1h 55m | Avg: 57m 35s | Max: 58m 45s | Hits:  68%/2450  
  🟩 GCC10              Pass: 100%/2   | Total:  2h 00m | Avg:  1h 00m | Max:  1h 01m | Hits:  68%/2450  
  🟩 GCC11              Pass: 100%/2   | Total:  1h 57m | Avg: 58m 41s | Max:  1h 02m | Hits:  68%/2446  
  🟩 GCC12              Pass: 100%/2   | Total:  1h 57m | Avg: 58m 44s | Max:  1h 00m | Hits:  68%/2446  
  🟩 GCC13              Pass: 100%/10  | Total:  6h 31m | Avg: 39m 08s | Max:  1h 16m | Hits:  83%/12230 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  2h 14m | Avg:  1h 07m | Max:  1h 13m | Hits:  14%/2096  
  🟨 MSVC14.42          Pass:  50%/2   | Total:  2h 22m | Avg:  1h 11m | Max:  1h 14m | Hits:  14%/1048  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 11m | Avg:  1h 05m | Max:  1h 05m | Hits:  68%/2264  
🟨 cxx_family
  🟨 Clang              Pass:  94%/17  | Total: 14h 57m | Avg: 52m 46s | Max:  1h 01m | Hits:  71%/19246 
  🟩 GCC                Pass: 100%/21  | Total: 17h 22m | Avg: 49m 38s | Max:  1h 16m | Hits:  75%/25697 
  🟨 MSVC               Pass:  75%/4   | Total:  4h 36m | Avg:  1h 09m | Max:  1h 14m | Hits:  14%/3144  
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 11m | Avg:  1h 05m | Max:  1h 05m | Hits:  68%/2264  
🟨 gpu
  🟩 h100               Pass: 100%/2   | Total: 51m 39s | Avg: 25m 49s | Max: 27m 00s | Hits:  83%/2446  
  🟨 rtx2080            Pass:  97%/34  | Total:  1d 10h | Avg:  1h 00m | Max:  1h 16m | Hits:  64%/39344 
  🟨 rtxa6000           Pass:  87%/8   | Total:  3h 54m | Avg: 29m 16s | Max:  1h 01m | Hits:  90%/8561  
🟨 jobs
  🟨 Build              Pass:  97%/37  | Total:  1d 12h | Avg: 59m 47s | Max:  1h 16m | Hits:  64%/43013 
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 20m 47s | Avg: 20m 47s | Max: 20m 47s | Hits:  99%/1223  
  🟩 GraphCapture       Pass: 100%/1   | Total: 17m 08s | Avg: 17m 08s | Max: 17m 08s | Hits:  99%/1223  
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 13m | Avg: 24m 24s | Max: 24m 52s | Hits:  99%/3669  
  🟨 TestGPU            Pass:  50%/2   | Total: 24m 11s | Avg: 12m 05s | Max: 21m 16s | Hits:  99%/1223  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 51m 39s | Avg: 25m 49s | Max: 27m 00s | Hits:  83%/2446  
  🟩 90;90a;100         Pass: 100%/1   | Total:  1h 16m | Avg:  1h 16m | Max:  1h 16m | Hits:  68%/1223

🟨 thrust: Pass: 97%/43 | Total: 20h 31m | Avg: 28m 38s | Max: 56m 13s | Hits: 79%/74797

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  97%/41  | Total: 19h 39m | Avg: 28m 46s | Max: 56m 13s | Hits:  79%/71234 
  🟩 arm64              Pass: 100%/2   | Total: 52m 07s | Avg: 26m 03s | Max: 26m 06s | Hits:  79%/3563  
🔍 ctk: 12.8 🔍
  🟩 12.0               Pass: 100%/5   | Total:  2h 39m | Avg: 31m 50s | Max: 47m 50s | Hits:  74%/8901  
  🟩 12.5               Pass: 100%/2   | Total:  1h 35m | Avg: 47m 38s | Max: 50m 45s | Hits:  74%/3562  
  🔍 12.8               Pass:  97%/36  | Total: 16h 17m | Avg: 27m 08s | Max: 56m 13s | Hits:  80%/62334 
🔍 cudacxx: nvcc12.8 🔍
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 43m 53s | Avg: 21m 56s | Max: 22m 33s | Hits:  79%/3562  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  2h 39m | Avg: 31m 50s | Max: 47m 50s | Hits:  74%/8901  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 35m | Avg: 47m 38s | Max: 50m 45s | Hits:  74%/3562  
  🔍 nvcc12.8           Pass:  97%/34  | Total: 15h 33m | Avg: 27m 27s | Max: 56m 13s | Hits:  80%/58772 
🔍 cudacxx_family: nvcc 🔍
  🟩 ClangCUDA          Pass: 100%/2   | Total: 43m 53s | Avg: 21m 56s | Max: 22m 33s | Hits:  79%/3562  
  🔍 nvcc               Pass:  97%/41  | Total: 19h 47m | Avg: 28m 58s | Max: 56m 13s | Hits:  79%/71235 
🔍 cxx: MSVC14.42 🔍
  🟩 Clang14            Pass: 100%/4   | Total:  1h 50m | Avg: 27m 40s | Max: 28m 46s | Hits:  79%/7124  
  🟩 Clang15            Pass: 100%/2   | Total: 56m 21s | Avg: 28m 10s | Max: 29m 30s | Hits:  79%/3562  
  🟩 Clang16            Pass: 100%/2   | Total: 57m 54s | Avg: 28m 57s | Max: 29m 49s | Hits:  79%/3562  
  🟩 Clang17            Pass: 100%/2   | Total: 53m 50s | Avg: 26m 55s | Max: 28m 36s | Hits:  79%/3562  
  🟩 Clang18            Pass: 100%/7   | Total:  2h 20m | Avg: 20m 08s | Max: 28m 06s | Hits:  85%/12467 
  🟩 GCC7               Pass: 100%/2   | Total: 55m 51s | Avg: 27m 55s | Max: 28m 31s | Hits:  79%/3564  
  🟩 GCC8               Pass: 100%/1   | Total: 25m 29s | Avg: 25m 29s | Max: 25m 29s | Hits:  79%/1782  
  🟩 GCC9               Pass: 100%/2   | Total: 57m 18s | Avg: 28m 39s | Max: 29m 05s | Hits:  79%/3564  
  🟩 GCC10              Pass: 100%/2   | Total: 56m 16s | Avg: 28m 08s | Max: 29m 43s | Hits:  79%/3564  
  🟩 GCC11              Pass: 100%/2   | Total: 55m 38s | Avg: 27m 49s | Max: 28m 44s | Hits:  79%/3564  
  🟩 GCC12              Pass: 100%/2   | Total: 57m 15s | Avg: 28m 37s | Max: 29m 32s | Hits:  79%/3564  
  🟩 GCC13              Pass: 100%/8   | Total:  2h 49m | Avg: 21m 08s | Max: 36m 07s | Hits:  85%/14256 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 38m | Avg: 49m 26s | Max: 51m 02s | Hits:  55%/3550  
  🔍 MSVC14.42          Pass:  66%/3   | Total:  2h 21m | Avg: 47m 01s | Max: 56m 13s | Hits:  55%/3550  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 35m | Avg: 47m 38s | Max: 50m 45s | Hits:  74%/3562  
🔍 cxx_family: MSVC 🔍
  🟩 Clang              Pass: 100%/17  | Total:  6h 59m | Avg: 24m 41s | Max: 29m 49s | Hits:  82%/30277 
  🟩 GCC                Pass: 100%/19  | Total:  7h 56m | Avg: 25m 05s | Max: 36m 07s | Hits:  82%/33858 
  🔍 MSVC               Pass:  80%/5   | Total:  3h 59m | Avg: 47m 59s | Max: 56m 13s | Hits:  55%/7100  
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 35m | Avg: 47m 38s | Max: 50m 45s | Hits:  74%/3562  
🔍 gpu: rtx4090 🔍
  🟩 rtx2080            Pass: 100%/33  | Total: 16h 50m | Avg: 30m 37s | Max: 51m 02s | Hits:  76%/58769 
  🔍 rtx4090            Pass:  90%/10  | Total:  3h 41m | Avg: 22m 06s | Max: 56m 13s | Hits:  88%/16028 
🔍 jobs: TestCPU 🔍
  🟩 Build              Pass: 100%/37  | Total: 19h 05m | Avg: 30m 56s | Max: 56m 13s | Hits:  76%/65889 
  🔍 TestCPU            Pass:  66%/3   | Total: 54m 07s | Avg: 18m 02s | Max: 38m 14s | Hits:  99%/3563  
  🟩 TestGPU            Pass: 100%/3   | Total: 32m 39s | Avg: 10m 53s | Max: 11m 19s | Hits:  99%/5345  
🔍 std: 20 🔍
  🟩 17                 Pass: 100%/20  | Total: 10h 22m | Avg: 31m 07s | Max: 51m 02s | Hits:  75%/35611 
  🔍 20                 Pass:  95%/21  | Total:  9h 36m | Avg: 27m 27s | Max: 56m 13s | Hits:  81%/35622 
🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 32m 48s | Avg: 16m 24s | Max: 21m 37s | Hits:  89%/3564  
🟩 sm
  🟩 90;90a;100         Pass: 100%/1   | Total: 36m 07s | Avg: 36m 07s | Max: 36m 07s | Hits:  66%/1782

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 10m 52s | Avg: 5m 26s | Max: 8m 18s | Hits: 98%/288

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 10m 52s | Avg:  5m 26s | Max:  8m 18s | Hits:  98%/288   
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total: 10m 52s | Avg:  5m 26s | Max:  8m 18s | Hits:  98%/288   
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total: 10m 52s | Avg:  5m 26s | Max:  8m 18s | Hits:  98%/288   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 10m 52s | Avg:  5m 26s | Max:  8m 18s | Hits:  98%/288   
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 10m 52s | Avg:  5m 26s | Max:  8m 18s | Hits:  98%/288   
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 10m 52s | Avg:  5m 26s | Max:  8m 18s | Hits:  98%/288   
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total: 10m 52s | Avg:  5m 26s | Max:  8m 18s | Hits:  98%/288   
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 34s | Avg:  2m 34s | Max:  2m 34s | Hits:  97%/144   
  🟩 Test               Pass: 100%/1   | Total:  8m 18s | Avg:  8m 18s | Max:  8m 18s | Hits:  98%/144

🟩 python: Pass: 100%/1 | Total: 34m 04s | Avg: 34m 04s | Max: 34m 04s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 34m 04s | Avg: 34m 04s | Max: 34m 04s
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total: 34m 04s | Avg: 34m 04s | Max: 34m 04s
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total: 34m 04s | Avg: 34m 04s | Max: 34m 04s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 34m 04s | Avg: 34m 04s | Max: 34m 04s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 34m 04s | Avg: 34m 04s | Max: 34m 04s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 34m 04s | Avg: 34m 04s | Max: 34m 04s
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total: 34m 04s | Avg: 34m 04s | Max: 34m 04s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 34m 04s | Avg: 34m 04s | Max: 34m 04s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 90)

#	Runner
65	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`
1	`linux-amd64-gpu-h100-latest-1`

github-actions · 2025-02-12T19:05:34Z

🟨 CI finished in 1h 05m: Pass: 97%/90 | Total: 14h 28m | Avg: 9m 38s | Max: 34m 34s | Hits: 94%/127036

🟨 cub: Pass: 95%/44 | Total: 7h 30m | Avg: 10m 13s | Max: 30m 57s | Hits: 92%/50176

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  95%/42  | Total:  7h 18m | Avg: 10m 26s | Max: 30m 57s | Hits:  92%/47730 
  🟩 arm64              Pass: 100%/2   | Total: 11m 25s | Avg:  5m 42s | Max:  6m 09s | Hits:  99%/2446  
🔍 ctk: 12.8 🔍
  🟩 12.0               Pass: 100%/5   | Total: 52m 21s | Avg: 10m 28s | Max: 28m 51s | Hits:  84%/5948  
  🟩 12.5               Pass: 100%/2   | Total: 21m 11s | Avg: 10m 35s | Max: 11m 07s | Hits:  98%/2264  
  🔍 12.8               Pass:  94%/37  | Total:  6h 16m | Avg: 10m 10s | Max: 30m 57s | Hits:  93%/41964 
🔍 cudacxx: nvcc12.8 🔍
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  9m 52s | Avg:  4m 56s | Max:  5m 00s | Hits:  99%/2116  
  🟩 nvcc12.0           Pass: 100%/5   | Total: 52m 21s | Avg: 10m 28s | Max: 28m 51s | Hits:  84%/5948  
  🟩 nvcc12.5           Pass: 100%/2   | Total: 21m 11s | Avg: 10m 35s | Max: 11m 07s | Hits:  98%/2264  
  🔍 nvcc12.8           Pass:  94%/35  | Total:  6h 06m | Avg: 10m 28s | Max: 30m 57s | Hits:  93%/39848 
🔍 cudacxx_family: nvcc 🔍
  🟩 ClangCUDA          Pass: 100%/2   | Total:  9m 52s | Avg:  4m 56s | Max:  5m 00s | Hits:  99%/2116  
  🔍 nvcc               Pass:  95%/42  | Total:  7h 20m | Avg: 10m 28s | Max: 30m 57s | Hits:  92%/48060 
🔍 gpu: rtxa6000 🔍
  🟩 h100               Pass: 100%/2   | Total: 30m 50s | Avg: 15m 25s | Max: 25m 34s | Hits:  99%/2446  
  🟩 rtx2080            Pass: 100%/34  | Total:  5h 14m | Avg:  9m 15s | Max: 30m 57s | Hits:  90%/40392 
  🔍 rtxa6000           Pass:  75%/8   | Total:  1h 44m | Avg: 13m 03s | Max: 23m 53s | Hits:  99%/7338  
🚨 jobs: TestGPU 🚨
  🟩 Build              Pass: 100%/37  | Total:  5h 33m | Avg:  9m 01s | Max: 30m 57s | Hits:  91%/44061 
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 20m 40s | Avg: 20m 40s | Max: 20m 40s | Hits:  99%/1223  
  🟩 GraphCapture       Pass: 100%/1   | Total: 16m 38s | Avg: 16m 38s | Max: 16m 38s | Hits:  99%/1223  
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 13m | Avg: 24m 23s | Max: 25m 34s | Hits:  99%/3669  
  🔥 TestGPU            Pass:   0%/2   | Total:  5m 47s | Avg:  2m 53s | Max:  2m 55s
🔍 std: 20 🔍
  🟩 17                 Pass: 100%/20  | Total:  3h 18m | Avg:  9m 55s | Max: 30m 57s | Hits:  88%/23695 
  🔍 20                 Pass:  91%/24  | Total:  4h 11m | Avg: 10m 29s | Max: 30m 52s | Hits:  96%/26481 
🟨 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 23m 35s | Avg:  5m 53s | Max:  6m 15s | Hits:  99%/4900  
  🟩 Clang15            Pass: 100%/2   | Total: 12m 48s | Avg:  6m 24s | Max:  6m 34s | Hits:  99%/2446  
  🟩 Clang16            Pass: 100%/2   | Total: 12m 26s | Avg:  6m 13s | Max:  6m 21s | Hits:  99%/2446  
  🟩 Clang17            Pass: 100%/2   | Total: 12m 21s | Avg:  6m 10s | Max:  6m 16s | Hits:  99%/2446  
  🟨 Clang18            Pass:  85%/7   | Total: 54m 52s | Avg:  7m 50s | Max: 23m 53s | Hits:  99%/7008  
  🟩 GCC7               Pass: 100%/2   | Total: 12m 15s | Avg:  6m 07s | Max:  6m 09s | Hits:  99%/2450  
  🟩 GCC8               Pass: 100%/1   | Total:  6m 10s | Avg:  6m 10s | Max:  6m 10s | Hits:  99%/1225  
  🟩 GCC9               Pass: 100%/2   | Total: 12m 19s | Avg:  6m 09s | Max:  6m 18s | Hits:  99%/2450  
  🟩 GCC10              Pass: 100%/2   | Total: 12m 57s | Avg:  6m 28s | Max:  6m 43s | Hits:  99%/2450  
  🟩 GCC11              Pass: 100%/2   | Total: 13m 17s | Avg:  6m 38s | Max:  6m 47s | Hits:  99%/2446  
  🟩 GCC12              Pass: 100%/2   | Total: 13m 28s | Avg:  6m 44s | Max:  6m 44s | Hits:  99%/2446  
  🟨 GCC13              Pass:  90%/10  | Total:  2h 01m | Avg: 12m 11s | Max: 25m 34s | Hits:  99%/11007 
  🟩 MSVC14.29          Pass: 100%/2   | Total: 59m 48s | Avg: 29m 54s | Max: 30m 57s | Hits:  16%/2096  
  🟩 MSVC14.42          Pass: 100%/2   | Total:  1h 00m | Avg: 30m 18s | Max: 30m 52s | Hits:  16%/2096  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 21m 11s | Avg: 10m 35s | Max: 11m 07s | Hits:  98%/2264  
🟨 cxx_family
  🟨 Clang              Pass:  94%/17  | Total:  1h 56m | Avg:  6m 49s | Max: 23m 53s | Hits:  99%/19246 
  🟨 GCC                Pass:  95%/21  | Total:  3h 12m | Avg:  9m 09s | Max: 25m 34s | Hits:  99%/24474 
  🟩 MSVC               Pass: 100%/4   | Total:  2h 00m | Avg: 30m 06s | Max: 30m 57s | Hits:  16%/4192  
  🟩 NVHPC              Pass: 100%/2   | Total: 21m 11s | Avg: 10m 35s | Max: 11m 07s | Hits:  98%/2264  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 30m 50s | Avg: 15m 25s | Max: 25m 34s | Hits:  99%/2446  
  🟩 90;90a;100         Pass: 100%/1   | Total:  6m 55s | Avg:  6m 55s | Max:  6m 55s | Hits:  99%/1223

🟩 thrust: Pass: 100%/43 | Total: 6h 15m | Avg: 8m 44s | Max: 34m 34s | Hits: 96%/76572

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 17m 30s | Avg:  8m 45s | Max: 11m 08s | Hits:  99%/3564  
🟩 cpu
  🟩 amd64              Pass: 100%/41  | Total:  6h 05m | Avg:  8m 55s | Max: 34m 34s | Hits:  96%/73009 
  🟩 arm64              Pass: 100%/2   | Total:  9m 33s | Avg:  4m 46s | Max:  5m 06s | Hits:  99%/3563  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total: 41m 57s | Avg:  8m 23s | Max: 21m 44s | Hits:  94%/8901  
  🟩 12.5               Pass: 100%/2   | Total: 27m 24s | Avg: 13m 42s | Max: 14m 37s | Hits:  99%/3562  
  🟩 12.8               Pass: 100%/36  | Total:  5h 06m | Avg:  8m 30s | Max: 34m 34s | Hits:  96%/64109 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 10m 18s | Avg:  5m 09s | Max:  5m 19s | Hits: 100%/3562  
  🟩 nvcc12.0           Pass: 100%/5   | Total: 41m 57s | Avg:  8m 23s | Max: 21m 44s | Hits:  94%/8901  
  🟩 nvcc12.5           Pass: 100%/2   | Total: 27m 24s | Avg: 13m 42s | Max: 14m 37s | Hits:  99%/3562  
  🟩 nvcc12.8           Pass: 100%/34  | Total:  4h 55m | Avg:  8m 42s | Max: 34m 34s | Hits:  96%/60547 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 10m 18s | Avg:  5m 09s | Max:  5m 19s | Hits: 100%/3562  
  🟩 nvcc               Pass: 100%/41  | Total:  6h 05m | Avg:  8m 54s | Max: 34m 34s | Hits:  96%/73010 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 20m 25s | Avg:  5m 06s | Max:  5m 37s | Hits: 100%/7124  
  🟩 Clang15            Pass: 100%/2   | Total: 11m 30s | Avg:  5m 45s | Max:  5m 55s | Hits: 100%/3562  
  🟩 Clang16            Pass: 100%/2   | Total: 11m 14s | Avg:  5m 37s | Max:  5m 41s | Hits: 100%/3562  
  🟩 Clang17            Pass: 100%/2   | Total: 10m 38s | Avg:  5m 19s | Max:  5m 36s | Hits: 100%/3562  
  🟩 Clang18            Pass: 100%/7   | Total: 43m 29s | Avg:  6m 12s | Max: 10m 11s | Hits: 100%/12467 
  🟩 GCC7               Pass: 100%/2   | Total: 10m 42s | Avg:  5m 21s | Max:  5m 22s | Hits:  99%/3564  
  🟩 GCC8               Pass: 100%/1   | Total:  5m 38s | Avg:  5m 38s | Max:  5m 38s | Hits:  99%/1782  
  🟩 GCC9               Pass: 100%/2   | Total: 11m 06s | Avg:  5m 33s | Max:  5m 46s | Hits:  99%/3564  
  🟩 GCC10              Pass: 100%/2   | Total: 10m 44s | Avg:  5m 22s | Max:  5m 29s | Hits:  99%/3564  
  🟩 GCC11              Pass: 100%/2   | Total: 11m 36s | Avg:  5m 48s | Max:  5m 55s | Hits:  99%/3564  
  🟩 GCC12              Pass: 100%/2   | Total: 12m 14s | Avg:  6m 07s | Max:  6m 09s | Hits:  99%/3564  
  🟩 GCC13              Pass: 100%/8   | Total:  1h 00m | Avg:  7m 35s | Max: 11m 16s | Hits:  99%/14256 
  🟩 MSVC14.29          Pass: 100%/2   | Total: 44m 17s | Avg: 22m 08s | Max: 22m 33s | Hits:  70%/3550  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  1h 23m | Avg: 27m 58s | Max: 34m 34s | Hits:  70%/5325  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 27m 24s | Avg: 13m 42s | Max: 14m 37s | Hits:  99%/3562  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  1h 37m | Avg:  5m 43s | Max: 10m 11s | Hits: 100%/30277 
  🟩 GCC                Pass: 100%/19  | Total:  2h 02m | Avg:  6m 27s | Max: 11m 16s | Hits:  99%/33858 
  🟩 MSVC               Pass: 100%/5   | Total:  2h 08m | Avg: 25m 38s | Max: 34m 34s | Hits:  70%/8875  
  🟩 NVHPC              Pass: 100%/2   | Total: 27m 24s | Avg: 13m 42s | Max: 14m 37s | Hits:  99%/3562  
🟩 gpu
  🟩 rtx2080            Pass: 100%/33  | Total:  4h 09m | Avg:  7m 33s | Max: 24m 05s | Hits:  97%/58769 
  🟩 rtx4090            Pass: 100%/10  | Total:  2h 06m | Avg: 12m 38s | Max: 34m 34s | Hits:  94%/17803 
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total:  4h 52m | Avg:  7m 54s | Max: 25m 15s | Hits:  96%/65889 
  🟩 TestCPU            Pass: 100%/3   | Total: 50m 37s | Avg: 16m 52s | Max: 34m 34s | Hits:  90%/5338  
  🟩 TestGPU            Pass: 100%/3   | Total: 32m 35s | Avg: 10m 51s | Max: 11m 16s | Hits:  99%/5345  
🟩 sm
  🟩 90;90a;100         Pass: 100%/1   | Total:  6m 16s | Avg:  6m 16s | Max:  6m 16s | Hits:  99%/1782  
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  2h 51m | Avg:  8m 34s | Max: 24m 05s | Hits:  95%/35611 
  🟩 20                 Pass: 100%/21  | Total:  3h 06m | Avg:  8m 53s | Max: 34m 34s | Hits:  97%/37397

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 14m 51s | Avg: 7m 25s | Max: 12m 25s | Hits: 98%/288

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 14m 51s | Avg:  7m 25s | Max: 12m 25s | Hits:  98%/288   
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total: 14m 51s | Avg:  7m 25s | Max: 12m 25s | Hits:  98%/288   
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total: 14m 51s | Avg:  7m 25s | Max: 12m 25s | Hits:  98%/288   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 14m 51s | Avg:  7m 25s | Max: 12m 25s | Hits:  98%/288   
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 14m 51s | Avg:  7m 25s | Max: 12m 25s | Hits:  98%/288   
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 14m 51s | Avg:  7m 25s | Max: 12m 25s | Hits:  98%/288   
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total: 14m 51s | Avg:  7m 25s | Max: 12m 25s | Hits:  98%/288   
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 26s | Avg:  2m 26s | Max:  2m 26s | Hits:  98%/144   
  🟩 Test               Pass: 100%/1   | Total: 12m 25s | Avg: 12m 25s | Max: 12m 25s | Hits:  98%/144

🟩 python: Pass: 100%/1 | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 90)

#	Runner
65	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`
1	`linux-amd64-gpu-h100-latest-1`

github-actions · 2025-02-12T19:31:08Z

🟩 CI finished in 1h 30m: Pass: 100%/90 | Total: 15h 03m | Avg: 10m 02s | Max: 34m 34s | Hits: 95%/129482

🟩 cub: Pass: 100%/44 | Total: 8h 05m | Avg: 11m 02s | Max: 30m 57s | Hits: 92%/52622

🟩 cpu
  🟩 amd64              Pass: 100%/42  | Total:  7h 54m | Avg: 11m 17s | Max: 30m 57s | Hits:  92%/50176 
  🟩 arm64              Pass: 100%/2   | Total: 11m 25s | Avg:  5m 42s | Max:  6m 09s | Hits:  99%/2446  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total: 52m 21s | Avg: 10m 28s | Max: 28m 51s | Hits:  84%/5948  
  🟩 12.5               Pass: 100%/2   | Total: 21m 11s | Avg: 10m 35s | Max: 11m 07s | Hits:  98%/2264  
  🟩 12.8               Pass: 100%/37  | Total:  6h 52m | Avg: 11m 08s | Max: 30m 57s | Hits:  93%/44410 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  9m 52s | Avg:  4m 56s | Max:  5m 00s | Hits:  99%/2116  
  🟩 nvcc12.0           Pass: 100%/5   | Total: 52m 21s | Avg: 10m 28s | Max: 28m 51s | Hits:  84%/5948  
  🟩 nvcc12.5           Pass: 100%/2   | Total: 21m 11s | Avg: 10m 35s | Max: 11m 07s | Hits:  98%/2264  
  🟩 nvcc12.8           Pass: 100%/35  | Total:  6h 42m | Avg: 11m 29s | Max: 30m 57s | Hits:  93%/42294 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total:  9m 52s | Avg:  4m 56s | Max:  5m 00s | Hits:  99%/2116  
  🟩 nvcc               Pass: 100%/42  | Total:  7h 55m | Avg: 11m 19s | Max: 30m 57s | Hits:  92%/50506 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 23m 35s | Avg:  5m 53s | Max:  6m 15s | Hits:  99%/4900  
  🟩 Clang15            Pass: 100%/2   | Total: 12m 48s | Avg:  6m 24s | Max:  6m 34s | Hits:  99%/2446  
  🟩 Clang16            Pass: 100%/2   | Total: 12m 26s | Avg:  6m 13s | Max:  6m 21s | Hits:  99%/2446  
  🟩 Clang17            Pass: 100%/2   | Total: 12m 21s | Avg:  6m 10s | Max:  6m 16s | Hits:  99%/2446  
  🟩 Clang18            Pass: 100%/7   | Total:  1h 12m | Avg: 10m 24s | Max: 23m 53s | Hits:  99%/8231  
  🟩 GCC7               Pass: 100%/2   | Total: 12m 15s | Avg:  6m 07s | Max:  6m 09s | Hits:  99%/2450  
  🟩 GCC8               Pass: 100%/1   | Total:  6m 10s | Avg:  6m 10s | Max:  6m 10s | Hits:  99%/1225  
  🟩 GCC9               Pass: 100%/2   | Total: 12m 19s | Avg:  6m 09s | Max:  6m 18s | Hits:  99%/2450  
  🟩 GCC10              Pass: 100%/2   | Total: 12m 57s | Avg:  6m 28s | Max:  6m 43s | Hits:  99%/2450  
  🟩 GCC11              Pass: 100%/2   | Total: 13m 17s | Avg:  6m 38s | Max:  6m 47s | Hits:  99%/2446  
  🟩 GCC12              Pass: 100%/2   | Total: 13m 28s | Avg:  6m 44s | Max:  6m 44s | Hits:  99%/2446  
  🟩 GCC13              Pass: 100%/10  | Total:  2h 19m | Avg: 13m 57s | Max: 25m 34s | Hits:  99%/12230 
  🟩 MSVC14.29          Pass: 100%/2   | Total: 59m 48s | Avg: 29m 54s | Max: 30m 57s | Hits:  16%/2096  
  🟩 MSVC14.42          Pass: 100%/2   | Total:  1h 00m | Avg: 30m 18s | Max: 30m 52s | Hits:  16%/2096  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 21m 11s | Avg: 10m 35s | Max: 11m 07s | Hits:  98%/2264  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  2h 14m | Avg:  7m 52s | Max: 23m 53s | Hits:  99%/20469 
  🟩 GCC                Pass: 100%/21  | Total:  3h 29m | Avg:  9m 59s | Max: 25m 34s | Hits:  99%/25697 
  🟩 MSVC               Pass: 100%/4   | Total:  2h 00m | Avg: 30m 06s | Max: 30m 57s | Hits:  16%/4192  
  🟩 NVHPC              Pass: 100%/2   | Total: 21m 11s | Avg: 10m 35s | Max: 11m 07s | Hits:  98%/2264  
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 30m 50s | Avg: 15m 25s | Max: 25m 34s | Hits:  99%/2446  
  🟩 rtx2080            Pass: 100%/34  | Total:  5h 14m | Avg:  9m 15s | Max: 30m 57s | Hits:  90%/40392 
  🟩 rtxa6000           Pass: 100%/8   | Total:  2h 20m | Avg: 17m 30s | Max: 23m 53s | Hits:  99%/9784  
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total:  5h 33m | Avg:  9m 01s | Max: 30m 57s | Hits:  91%/44061 
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 20m 40s | Avg: 20m 40s | Max: 20m 40s | Hits:  99%/1223  
  🟩 GraphCapture       Pass: 100%/1   | Total: 16m 38s | Avg: 16m 38s | Max: 16m 38s | Hits:  99%/1223  
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 13m | Avg: 24m 23s | Max: 25m 34s | Hits:  99%/3669  
  🟩 TestGPU            Pass: 100%/2   | Total: 41m 17s | Avg: 20m 38s | Max: 20m 53s | Hits:  99%/2446  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 30m 50s | Avg: 15m 25s | Max: 25m 34s | Hits:  99%/2446  
  🟩 90;90a;100         Pass: 100%/1   | Total:  6m 55s | Avg:  6m 55s | Max:  6m 55s | Hits:  99%/1223  
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  3h 18m | Avg:  9m 55s | Max: 30m 57s | Hits:  88%/23695 
  🟩 20                 Pass: 100%/24  | Total:  4h 47m | Avg: 11m 57s | Max: 30m 52s | Hits:  96%/28927

🟩 thrust: Pass: 100%/43 | Total: 6h 15m | Avg: 8m 44s | Max: 34m 34s | Hits: 96%/76572

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 17m 30s | Avg:  8m 45s | Max: 11m 08s | Hits:  99%/3564  
🟩 cpu
  🟩 amd64              Pass: 100%/41  | Total:  6h 05m | Avg:  8m 55s | Max: 34m 34s | Hits:  96%/73009 
  🟩 arm64              Pass: 100%/2   | Total:  9m 33s | Avg:  4m 46s | Max:  5m 06s | Hits:  99%/3563  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total: 41m 57s | Avg:  8m 23s | Max: 21m 44s | Hits:  94%/8901  
  🟩 12.5               Pass: 100%/2   | Total: 27m 24s | Avg: 13m 42s | Max: 14m 37s | Hits:  99%/3562  
  🟩 12.8               Pass: 100%/36  | Total:  5h 06m | Avg:  8m 30s | Max: 34m 34s | Hits:  96%/64109 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 10m 18s | Avg:  5m 09s | Max:  5m 19s | Hits: 100%/3562  
  🟩 nvcc12.0           Pass: 100%/5   | Total: 41m 57s | Avg:  8m 23s | Max: 21m 44s | Hits:  94%/8901  
  🟩 nvcc12.5           Pass: 100%/2   | Total: 27m 24s | Avg: 13m 42s | Max: 14m 37s | Hits:  99%/3562  
  🟩 nvcc12.8           Pass: 100%/34  | Total:  4h 55m | Avg:  8m 42s | Max: 34m 34s | Hits:  96%/60547 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 10m 18s | Avg:  5m 09s | Max:  5m 19s | Hits: 100%/3562  
  🟩 nvcc               Pass: 100%/41  | Total:  6h 05m | Avg:  8m 54s | Max: 34m 34s | Hits:  96%/73010 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 20m 25s | Avg:  5m 06s | Max:  5m 37s | Hits: 100%/7124  
  🟩 Clang15            Pass: 100%/2   | Total: 11m 30s | Avg:  5m 45s | Max:  5m 55s | Hits: 100%/3562  
  🟩 Clang16            Pass: 100%/2   | Total: 11m 14s | Avg:  5m 37s | Max:  5m 41s | Hits: 100%/3562  
  🟩 Clang17            Pass: 100%/2   | Total: 10m 38s | Avg:  5m 19s | Max:  5m 36s | Hits: 100%/3562  
  🟩 Clang18            Pass: 100%/7   | Total: 43m 29s | Avg:  6m 12s | Max: 10m 11s | Hits: 100%/12467 
  🟩 GCC7               Pass: 100%/2   | Total: 10m 42s | Avg:  5m 21s | Max:  5m 22s | Hits:  99%/3564  
  🟩 GCC8               Pass: 100%/1   | Total:  5m 38s | Avg:  5m 38s | Max:  5m 38s | Hits:  99%/1782  
  🟩 GCC9               Pass: 100%/2   | Total: 11m 06s | Avg:  5m 33s | Max:  5m 46s | Hits:  99%/3564  
  🟩 GCC10              Pass: 100%/2   | Total: 10m 44s | Avg:  5m 22s | Max:  5m 29s | Hits:  99%/3564  
  🟩 GCC11              Pass: 100%/2   | Total: 11m 36s | Avg:  5m 48s | Max:  5m 55s | Hits:  99%/3564  
  🟩 GCC12              Pass: 100%/2   | Total: 12m 14s | Avg:  6m 07s | Max:  6m 09s | Hits:  99%/3564  
  🟩 GCC13              Pass: 100%/8   | Total:  1h 00m | Avg:  7m 35s | Max: 11m 16s | Hits:  99%/14256 
  🟩 MSVC14.29          Pass: 100%/2   | Total: 44m 17s | Avg: 22m 08s | Max: 22m 33s | Hits:  70%/3550  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  1h 23m | Avg: 27m 58s | Max: 34m 34s | Hits:  70%/5325  
  🟩 NVHPC24.7          Pass: 100%/2   | Total: 27m 24s | Avg: 13m 42s | Max: 14m 37s | Hits:  99%/3562  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  1h 37m | Avg:  5m 43s | Max: 10m 11s | Hits: 100%/30277 
  🟩 GCC                Pass: 100%/19  | Total:  2h 02m | Avg:  6m 27s | Max: 11m 16s | Hits:  99%/33858 
  🟩 MSVC               Pass: 100%/5   | Total:  2h 08m | Avg: 25m 38s | Max: 34m 34s | Hits:  70%/8875  
  🟩 NVHPC              Pass: 100%/2   | Total: 27m 24s | Avg: 13m 42s | Max: 14m 37s | Hits:  99%/3562  
🟩 gpu
  🟩 rtx2080            Pass: 100%/33  | Total:  4h 09m | Avg:  7m 33s | Max: 24m 05s | Hits:  97%/58769 
  🟩 rtx4090            Pass: 100%/10  | Total:  2h 06m | Avg: 12m 38s | Max: 34m 34s | Hits:  94%/17803 
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total:  4h 52m | Avg:  7m 54s | Max: 25m 15s | Hits:  96%/65889 
  🟩 TestCPU            Pass: 100%/3   | Total: 50m 37s | Avg: 16m 52s | Max: 34m 34s | Hits:  90%/5338  
  🟩 TestGPU            Pass: 100%/3   | Total: 32m 35s | Avg: 10m 51s | Max: 11m 16s | Hits:  99%/5345  
🟩 sm
  🟩 90;90a;100         Pass: 100%/1   | Total:  6m 16s | Avg:  6m 16s | Max:  6m 16s | Hits:  99%/1782  
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  2h 51m | Avg:  8m 34s | Max: 24m 05s | Hits:  95%/35611 
  🟩 20                 Pass: 100%/21  | Total:  3h 06m | Avg:  8m 53s | Max: 34m 34s | Hits:  97%/37397

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 14m 51s | Avg: 7m 25s | Max: 12m 25s | Hits: 98%/288

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 14m 51s | Avg:  7m 25s | Max: 12m 25s | Hits:  98%/288   
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total: 14m 51s | Avg:  7m 25s | Max: 12m 25s | Hits:  98%/288   
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total: 14m 51s | Avg:  7m 25s | Max: 12m 25s | Hits:  98%/288   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 14m 51s | Avg:  7m 25s | Max: 12m 25s | Hits:  98%/288   
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 14m 51s | Avg:  7m 25s | Max: 12m 25s | Hits:  98%/288   
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 14m 51s | Avg:  7m 25s | Max: 12m 25s | Hits:  98%/288   
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total: 14m 51s | Avg:  7m 25s | Max: 12m 25s | Hits:  98%/288   
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 26s | Avg:  2m 26s | Max:  2m 26s | Hits:  98%/144   
  🟩 Test               Pass: 100%/1   | Total: 12m 25s | Avg: 12m 25s | Max: 12m 25s | Hits:  98%/144

🟩 python: Pass: 100%/1 | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 90)

#	Runner
65	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`
1	`linux-amd64-gpu-h100-latest-1`

cub/test/catch2_test_device_segmented_reduce_large_offsets.cu

…egmented-reduce

github-actions · 2025-02-19T14:48:16Z

🟨 CI finished in 1h 30m: Pass: 96%/93 | Total: 2d 13h | Avg: 39m 28s | Max: 1h 15m | Hits: 74%/130146

🟨 cub: Pass: 93%/45 | Total: 1d 15h | Avg: 52m 48s | Max: 1h 15m | Hits: 66%/49714

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  93%/43  | Total:  1d 13h | Avg: 52m 33s | Max:  1h 15m | Hits:  66%/47290 
  🟩 arm64              Pass: 100%/2   | Total:  1h 56m | Avg: 58m 27s | Max: 59m 41s | Hits:  67%/2424  
🔍 ctk: 12.8 🔍
  🟩 12.0               Pass: 100%/5   | Total:  4h 52m | Avg: 58m 28s | Max:  1h 03m | Hits:  57%/5893  
  🟩 12.5               Pass: 100%/2   | Total:  2h 12m | Avg:  1h 06m | Max:  1h 09m | Hits:  67%/2242  
  🔍 12.8               Pass:  92%/38  | Total:  1d 08h | Avg: 51m 21s | Max:  1h 15m | Hits:  68%/41579 
🔍 cudacxx: nvcc12.8 🔍
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  1h 55m | Avg: 57m 43s | Max: 58m 42s | Hits:  73%/2094  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  4h 52m | Avg: 58m 28s | Max:  1h 03m | Hits:  57%/5893  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 12m | Avg:  1h 06m | Max:  1h 09m | Hits:  67%/2242  
  🔍 nvcc12.8           Pass:  91%/36  | Total:  1d 06h | Avg: 51m 00s | Max:  1h 15m | Hits:  67%/39485 
🔍 cudacxx_family: nvcc 🔍
  🟩 ClangCUDA          Pass: 100%/2   | Total:  1h 55m | Avg: 57m 43s | Max: 58m 42s | Hits:  73%/2094  
  🔍 nvcc               Pass:  93%/43  | Total:  1d 13h | Avg: 52m 35s | Max:  1h 15m | Hits:  66%/47620 
🚨 jobs: TestGPU 🚨
  🟩 Build              Pass: 100%/37  | Total:  1d 12h | Avg: 59m 19s | Max:  1h 15m | Hits:  62%/43654 
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 24m 07s | Avg: 24m 07s | Max: 24m 07s | Hits:  99%/1212  
  🟩 GraphCapture       Pass: 100%/1   | Total: 19m 41s | Avg: 19m 41s | Max: 19m 41s | Hits:  99%/1212  
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 13m | Avg: 24m 35s | Max: 24m 51s | Hits:  99%/3636  
  🔥 TestGPU            Pass:   0%/3   | Total:  1h 03m | Avg: 21m 14s | Max: 21m 40s
🔍 sm: 90 🔍
  🔍 90                 Pass:  66%/3   | Total:  1h 12m | Avg: 24m 01s | Max: 25m 55s | Hits:  83%/2424  
  🟩 90;90a;100         Pass: 100%/1   | Total:  1h 15m | Avg:  1h 15m | Max:  1h 15m | Hits:  66%/1212  
🔍 std: 20 🔍
  🟩 17                 Pass: 100%/20  | Total: 19h 58m | Avg: 59m 55s | Max:  1h 14m | Hits:  60%/23475 
  🔍 20                 Pass:  88%/25  | Total: 19h 38m | Avg: 47m 07s | Max:  1h 15m | Hits:  72%/26239 
🟨 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  3h 49m | Avg: 57m 16s | Max: 59m 20s | Hits:  67%/4856  
  🟩 Clang15            Pass: 100%/2   | Total:  1h 56m | Avg: 58m 25s | Max: 59m 40s | Hits:  67%/2424  
  🟩 Clang16            Pass: 100%/2   | Total:  1h 54m | Avg: 57m 21s | Max: 58m 17s | Hits:  67%/2424  
  🟩 Clang17            Pass: 100%/2   | Total:  1h 56m | Avg: 58m 06s | Max: 59m 54s | Hits:  67%/2424  
  🟨 Clang18            Pass:  85%/7   | Total:  5h 32m | Avg: 47m 34s | Max:  1h 00m | Hits:  74%/6942  
  🟩 GCC7               Pass: 100%/2   | Total:  1h 55m | Avg: 57m 44s | Max: 58m 27s | Hits:  66%/2428  
  🟩 GCC8               Pass: 100%/1   | Total: 54m 26s | Avg: 54m 26s | Max: 54m 26s | Hits:  67%/1214  
  🟩 GCC9               Pass: 100%/2   | Total:  1h 57m | Avg: 58m 33s | Max:  1h 00m | Hits:  67%/2428  
  🟩 GCC10              Pass: 100%/2   | Total:  1h 58m | Avg: 59m 10s | Max: 59m 51s | Hits:  67%/2428  
  🟩 GCC11              Pass: 100%/2   | Total:  1h 58m | Avg: 59m 00s | Max:  1h 00m | Hits:  66%/2424  
  🟩 GCC12              Pass: 100%/2   | Total:  1h 57m | Avg: 58m 48s | Max:  1h 02m | Hits:  66%/2424  
  🟨 GCC13              Pass:  81%/11  | Total:  6h 50m | Avg: 37m 19s | Max:  1h 15m | Hits:  81%/10908 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  2h 14m | Avg:  1h 07m | Max:  1h 11m | Hits:  13%/2074  
  🟩 MSVC14.42          Pass: 100%/2   | Total:  2h 28m | Avg:  1h 14m | Max:  1h 14m | Hits:  13%/2074  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 12m | Avg:  1h 06m | Max:  1h 09m | Hits:  67%/2242  
🟨 cxx_family
  🟨 Clang              Pass:  94%/17  | Total: 15h 09m | Avg: 53m 31s | Max:  1h 00m | Hits:  70%/19070 
  🟨 GCC                Pass:  90%/22  | Total: 17h 31m | Avg: 47m 47s | Max:  1h 15m | Hits:  73%/24254 
  🟩 MSVC               Pass: 100%/4   | Total:  4h 42m | Avg:  1h 10m | Max:  1h 14m | Hits:  13%/4148  
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 12m | Avg:  1h 06m | Max:  1h 09m | Hits:  67%/2242  
🟨 gpu
  🟨 h100               Pass:  66%/3   | Total:  1h 12m | Avg: 24m 01s | Max: 25m 55s | Hits:  83%/2424  
  🟩 rtx2080            Pass: 100%/34  | Total:  1d 10h | Avg:  1h 00m | Max:  1h 15m | Hits:  61%/40018 
  🟨 rtxa6000           Pass:  75%/8   | Total:  4h 08m | Avg: 31m 00s | Max: 59m 02s | Hits:  88%/7272

🟩 thrust: Pass: 100%/45 | Total: 20h 49m | Avg: 27m 46s | Max: 52m 59s | Hits: 79%/80136

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 32m 34s | Avg: 16m 17s | Max: 21m 43s | Hits:  89%/3564  
🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total: 19h 59m | Avg: 27m 53s | Max: 52m 59s | Hits:  79%/76573 
  🟩 arm64              Pass: 100%/2   | Total: 50m 06s | Avg: 25m 03s | Max: 26m 19s | Hits:  79%/3563  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  2h 38m | Avg: 31m 45s | Max: 46m 11s | Hits:  74%/8901  
  🟩 12.5               Pass: 100%/2   | Total:  1h 29m | Avg: 44m 36s | Max: 46m 08s | Hits:  74%/3562  
  🟩 12.8               Pass: 100%/38  | Total: 16h 41m | Avg: 26m 21s | Max: 52m 59s | Hits:  80%/67673 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 45m 21s | Avg: 22m 40s | Max: 23m 03s | Hits:  79%/3562  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  2h 38m | Avg: 31m 45s | Max: 46m 11s | Hits:  74%/8901  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 29m | Avg: 44m 36s | Max: 46m 08s | Hits:  74%/3562  
  🟩 nvcc12.8           Pass: 100%/36  | Total: 15h 56m | Avg: 26m 33s | Max: 52m 59s | Hits:  80%/64111 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 45m 21s | Avg: 22m 40s | Max: 23m 03s | Hits:  79%/3562  
  🟩 nvcc               Pass: 100%/43  | Total: 20h 04m | Avg: 28m 00s | Max: 52m 59s | Hits:  79%/76574 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  1h 48m | Avg: 27m 14s | Max: 28m 20s | Hits:  79%/7124  
  🟩 Clang15            Pass: 100%/2   | Total: 57m 42s | Avg: 28m 51s | Max: 30m 30s | Hits:  79%/3562  
  🟩 Clang16            Pass: 100%/2   | Total: 55m 36s | Avg: 27m 48s | Max: 29m 37s | Hits:  79%/3562  
  🟩 Clang17            Pass: 100%/2   | Total: 57m 33s | Avg: 28m 46s | Max: 29m 18s | Hits:  79%/3562  
  🟩 Clang18            Pass: 100%/7   | Total:  2h 23m | Avg: 20m 31s | Max: 29m 15s | Hits:  85%/12467 
  🟩 GCC7               Pass: 100%/2   | Total: 57m 29s | Avg: 28m 44s | Max: 30m 03s | Hits:  79%/3564  
  🟩 GCC8               Pass: 100%/1   | Total: 27m 49s | Avg: 27m 49s | Max: 27m 49s | Hits:  79%/1782  
  🟩 GCC9               Pass: 100%/2   | Total: 55m 12s | Avg: 27m 36s | Max: 29m 00s | Hits:  79%/3564  
  🟩 GCC10              Pass: 100%/2   | Total: 53m 37s | Avg: 26m 48s | Max: 27m 26s | Hits:  79%/3564  
  🟩 GCC11              Pass: 100%/2   | Total: 57m 49s | Avg: 28m 54s | Max: 31m 01s | Hits:  79%/3564  
  🟩 GCC12              Pass: 100%/2   | Total: 58m 55s | Avg: 29m 27s | Max: 31m 21s | Hits:  79%/3564  
  🟩 GCC13              Pass: 100%/10  | Total:  3h 15m | Avg: 19m 34s | Max: 30m 43s | Hits:  87%/17820 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 33m | Avg: 46m 32s | Max: 46m 54s | Hits:  55%/3550  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  2h 17m | Avg: 45m 44s | Max: 52m 59s | Hits:  60%/5325  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 29m | Avg: 44m 36s | Max: 46m 08s | Hits:  74%/3562  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  7h 03m | Avg: 24m 54s | Max: 30m 30s | Hits:  82%/30277 
  🟩 GCC                Pass: 100%/21  | Total:  8h 26m | Avg: 24m 07s | Max: 31m 21s | Hits:  83%/37422 
  🟩 MSVC               Pass: 100%/5   | Total:  3h 50m | Avg: 46m 03s | Max: 52m 59s | Hits:  58%/8875  
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 29m | Avg: 44m 36s | Max: 46m 08s | Hits:  74%/3562  
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 26m 53s | Avg: 13m 26s | Max: 15m 36s | Hits:  89%/3564  
  🟩 rtx2080            Pass: 100%/33  | Total: 16h 48m | Avg: 30m 33s | Max: 52m 59s | Hits:  77%/58769 
  🟩 rtx4090            Pass: 100%/10  | Total:  3h 34m | Avg: 21m 24s | Max: 50m 58s | Hits:  86%/17803 
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total: 19h 16m | Avg: 30m 26s | Max: 52m 59s | Hits:  76%/67671 
  🟩 TestCPU            Pass: 100%/3   | Total: 48m 56s | Avg: 16m 18s | Max: 33m 15s | Hits:  90%/5338  
  🟩 TestGPU            Pass: 100%/4   | Total: 44m 03s | Avg: 11m 00s | Max: 11m 25s | Hits:  99%/7127  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 26m 53s | Avg: 13m 26s | Max: 15m 36s | Hits:  89%/3564  
  🟩 90;90a;100         Pass: 100%/1   | Total: 30m 43s | Avg: 30m 43s | Max: 30m 43s | Hits:  79%/1782  
🟩 std
  🟩 17                 Pass: 100%/20  | Total: 10h 29m | Avg: 31m 27s | Max: 52m 59s | Hits:  75%/35611 
  🟩 20                 Pass: 100%/23  | Total:  9h 47m | Avg: 25m 33s | Max: 50m 58s | Hits:  82%/40961

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 13m 29s | Avg: 6m 44s | Max: 10m 55s | Hits: 98%/296

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 13m 29s | Avg:  6m 44s | Max: 10m 55s | Hits:  98%/296   
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total: 13m 29s | Avg:  6m 44s | Max: 10m 55s | Hits:  98%/296   
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total: 13m 29s | Avg:  6m 44s | Max: 10m 55s | Hits:  98%/296   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 13m 29s | Avg:  6m 44s | Max: 10m 55s | Hits:  98%/296   
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 13m 29s | Avg:  6m 44s | Max: 10m 55s | Hits:  98%/296   
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 13m 29s | Avg:  6m 44s | Max: 10m 55s | Hits:  98%/296   
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total: 13m 29s | Avg:  6m 44s | Max: 10m 55s | Hits:  98%/296   
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 34s | Avg:  2m 34s | Max:  2m 34s | Hits:  97%/148   
  🟩 Test               Pass: 100%/1   | Total: 10m 55s | Avg: 10m 55s | Max: 10m 55s | Hits:  98%/148

🟩 python: Pass: 100%/1 | Total: 31m 08s | Avg: 31m 08s | Max: 31m 08s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 31m 08s | Avg: 31m 08s | Max: 31m 08s
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total: 31m 08s | Avg: 31m 08s | Max: 31m 08s
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total: 31m 08s | Avg: 31m 08s | Max: 31m 08s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 31m 08s | Avg: 31m 08s | Max: 31m 08s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 31m 08s | Avg: 31m 08s | Max: 31m 08s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 31m 08s | Avg: 31m 08s | Max: 31m 08s
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total: 31m 08s | Avg: 31m 08s | Max: 31m 08s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 31m 08s | Avg: 31m 08s | Max: 31m 08s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 93)

#	Runner
66	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-h100-latest-1`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`

github-actions · 2025-02-19T16:26:08Z

🟨 CI finished in 1h 23m: Pass: 96%/93 | Total: 23h 11m | Avg: 14m 57s | Max: 1h 20m | Hits: 93%/130146

🟨 cub: Pass: 93%/45 | Total: 13h 29m | Avg: 17m 59s | Max: 1h 20m | Hits: 91%/49714

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  93%/43  | Total: 13h 18m | Avg: 18m 33s | Max:  1h 20m | Hits:  90%/47290 
  🟩 arm64              Pass: 100%/2   | Total: 11m 31s | Avg:  5m 45s | Max:  5m 58s | Hits:  99%/2424  
🔍 ctk: 12.8 🔍
  🟩 12.0               Pass: 100%/5   | Total:  1h 32m | Avg: 18m 25s | Max:  1h 07m | Hits:  84%/5893  
  🟩 12.5               Pass: 100%/2   | Total:  2h 21m | Avg:  1h 10m | Max:  1h 13m | Hits:  62%/2242  
  🔍 12.8               Pass:  92%/38  | Total:  9h 36m | Avg: 15m 09s | Max:  1h 20m | Hits:  93%/41579 
🔍 cudacxx: nvcc12.8 🔍
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  9m 55s | Avg:  4m 57s | Max:  5m 07s | Hits: 100%/2094  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  1h 32m | Avg: 18m 25s | Max:  1h 07m | Hits:  84%/5893  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 21m | Avg:  1h 10m | Max:  1h 13m | Hits:  62%/2242  
  🔍 nvcc12.8           Pass:  91%/36  | Total:  9h 26m | Avg: 15m 43s | Max:  1h 20m | Hits:  93%/39485 
🔍 cudacxx_family: nvcc 🔍
  🟩 ClangCUDA          Pass: 100%/2   | Total:  9m 55s | Avg:  4m 57s | Max:  5m 07s | Hits: 100%/2094  
  🔍 nvcc               Pass:  93%/43  | Total: 13h 19m | Avg: 18m 35s | Max:  1h 20m | Hits:  90%/47620 
🚨 jobs: TestGPU 🚨
  🟩 Build              Pass: 100%/37  | Total: 10h 32m | Avg: 17m 05s | Max:  1h 20m | Hits:  89%/43654 
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 21m 01s | Avg: 21m 01s | Max: 21m 01s | Hits:  99%/1212  
  🟩 GraphCapture       Pass: 100%/1   | Total: 16m 50s | Avg: 16m 50s | Max: 16m 50s | Hits:  99%/1212  
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 13m | Avg: 24m 35s | Max: 25m 34s | Hits:  99%/3636  
  🔥 TestGPU            Pass:   0%/3   | Total:  1h 05m | Avg: 21m 51s | Max: 22m 50s
🔍 sm: 90 🔍
  🔍 90                 Pass:  66%/3   | Total: 53m 46s | Avg: 17m 55s | Max: 25m 34s | Hits:  99%/2424  
  🟩 90;90a;100         Pass: 100%/1   | Total:  7m 16s | Avg:  7m 16s | Max:  7m 16s | Hits:  99%/1212  
🔍 std: 20 🔍
  🟩 17                 Pass: 100%/20  | Total:  6h 30m | Avg: 19m 30s | Max:  1h 19m | Hits:  86%/23475 
  🔍 20                 Pass:  88%/25  | Total:  6h 59m | Avg: 16m 46s | Max:  1h 20m | Hits:  94%/26239 
🟨 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 23m 49s | Avg:  5m 57s | Max:  6m 12s | Hits:  99%/4856  
  🟩 Clang15            Pass: 100%/2   | Total: 12m 21s | Avg:  6m 10s | Max:  6m 12s | Hits:  99%/2424  
  🟩 Clang16            Pass: 100%/2   | Total: 12m 41s | Avg:  6m 20s | Max:  6m 22s | Hits:  99%/2424  
  🟩 Clang17            Pass: 100%/2   | Total: 12m 41s | Avg:  6m 20s | Max:  6m 22s | Hits:  99%/2424  
  🟨 Clang18            Pass:  85%/7   | Total:  1h 13m | Avg: 10m 33s | Max: 24m 44s | Hits:  99%/6942  
  🟩 GCC7               Pass: 100%/2   | Total: 12m 24s | Avg:  6m 12s | Max:  6m 20s | Hits:  99%/2428  
  🟩 GCC8               Pass: 100%/1   | Total:  6m 24s | Avg:  6m 24s | Max:  6m 24s | Hits:  99%/1214  
  🟩 GCC9               Pass: 100%/2   | Total: 12m 51s | Avg:  6m 25s | Max:  6m 26s | Hits:  99%/2428  
  🟩 GCC10              Pass: 100%/2   | Total: 13m 30s | Avg:  6m 45s | Max:  6m 53s | Hits:  99%/2428  
  🟩 GCC11              Pass: 100%/2   | Total: 13m 35s | Avg:  6m 47s | Max:  6m 56s | Hits:  99%/2424  
  🟩 GCC12              Pass: 100%/2   | Total: 13m 12s | Avg:  6m 36s | Max:  6m 56s | Hits:  99%/2424  
  🟨 GCC13              Pass:  81%/11  | Total:  2h 43m | Avg: 14m 52s | Max: 25m 34s | Hits:  99%/10908 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  2h 17m | Avg:  1h 08m | Max:  1h 09m | Hits:  16%/2074  
  🟩 MSVC14.42          Pass: 100%/2   | Total:  2h 40m | Avg:  1h 20m | Max:  1h 20m | Hits:  16%/2074  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 21m | Avg:  1h 10m | Max:  1h 13m | Hits:  62%/2242  
🟨 cxx_family
  🟨 Clang              Pass:  94%/17  | Total:  2h 15m | Avg:  7m 57s | Max: 24m 44s | Hits:  99%/19070 
  🟨 GCC                Pass:  90%/22  | Total:  3h 55m | Avg: 10m 42s | Max: 25m 34s | Hits:  99%/24254 
  🟩 MSVC               Pass: 100%/4   | Total:  4h 57m | Avg:  1h 14m | Max:  1h 20m | Hits:  16%/4148  
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 21m | Avg:  1h 10m | Max:  1h 13m | Hits:  62%/2242  
🟨 gpu
  🟨 h100               Pass:  66%/3   | Total: 53m 46s | Avg: 17m 55s | Max: 25m 34s | Hits:  99%/2424  
  🟩 rtx2080            Pass: 100%/34  | Total: 10h 13m | Avg: 18m 02s | Max:  1h 20m | Hits:  88%/40018 
  🟨 rtxa6000           Pass:  75%/8   | Total:  2h 22m | Avg: 17m 48s | Max: 24m 44s | Hits:  99%/7272

🟩 thrust: Pass: 100%/45 | Total: 8h 53m | Avg: 11m 51s | Max: 47m 53s | Hits: 95%/80136

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 17m 19s | Avg:  8m 39s | Max: 10m 59s | Hits:  99%/3564  
🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total:  8h 43m | Avg: 12m 10s | Max: 47m 53s | Hits:  95%/76573 
  🟩 arm64              Pass: 100%/2   | Total: 10m 01s | Avg:  5m 00s | Max:  5m 23s | Hits:  99%/3563  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total: 59m 57s | Avg: 11m 59s | Max: 39m 53s | Hits:  94%/8901  
  🟩 12.5               Pass: 100%/2   | Total:  1h 31m | Avg: 45m 34s | Max: 47m 48s | Hits:  73%/3562  
  🟩 12.8               Pass: 100%/38  | Total:  6h 22m | Avg: 10m 04s | Max: 47m 53s | Hits:  96%/67673 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 10m 46s | Avg:  5m 23s | Max:  5m 27s | Hits: 100%/3562  
  🟩 nvcc12.0           Pass: 100%/5   | Total: 59m 57s | Avg: 11m 59s | Max: 39m 53s | Hits:  94%/8901  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 31m | Avg: 45m 34s | Max: 47m 48s | Hits:  73%/3562  
  🟩 nvcc12.8           Pass: 100%/36  | Total:  6h 11m | Avg: 10m 19s | Max: 47m 53s | Hits:  96%/64111 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 10m 46s | Avg:  5m 23s | Max:  5m 27s | Hits: 100%/3562  
  🟩 nvcc               Pass: 100%/43  | Total:  8h 42m | Avg: 12m 09s | Max: 47m 53s | Hits:  95%/76574 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total: 20m 20s | Avg:  5m 05s | Max:  5m 32s | Hits: 100%/7124  
  🟩 Clang15            Pass: 100%/2   | Total: 11m 34s | Avg:  5m 47s | Max:  5m 50s | Hits: 100%/3562  
  🟩 Clang16            Pass: 100%/2   | Total: 11m 21s | Avg:  5m 40s | Max:  5m 53s | Hits: 100%/3562  
  🟩 Clang17            Pass: 100%/2   | Total: 11m 03s | Avg:  5m 31s | Max:  5m 48s | Hits: 100%/3562  
  🟩 Clang18            Pass: 100%/7   | Total: 44m 02s | Avg:  6m 17s | Max: 10m 11s | Hits: 100%/12467 
  🟩 GCC7               Pass: 100%/2   | Total: 11m 21s | Avg:  5m 40s | Max:  6m 02s | Hits:  99%/3564  
  🟩 GCC8               Pass: 100%/1   | Total:  5m 30s | Avg:  5m 30s | Max:  5m 30s | Hits:  99%/1782  
  🟩 GCC9               Pass: 100%/2   | Total: 11m 23s | Avg:  5m 41s | Max:  6m 10s | Hits:  99%/3564  
  🟩 GCC10              Pass: 100%/2   | Total: 11m 06s | Avg:  5m 33s | Max:  5m 57s | Hits:  99%/3564  
  🟩 GCC11              Pass: 100%/2   | Total: 11m 38s | Avg:  5m 49s | Max:  5m 52s | Hits:  99%/3564  
  🟩 GCC12              Pass: 100%/2   | Total: 12m 28s | Avg:  6m 14s | Max:  6m 22s | Hits:  99%/3564  
  🟩 GCC13              Pass: 100%/10  | Total:  1h 16m | Avg:  7m 37s | Max: 11m 17s | Hits:  99%/17820 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 21m | Avg: 40m 54s | Max: 41m 55s | Hits:  70%/3550  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  2h 02m | Avg: 40m 52s | Max: 47m 53s | Hits:  70%/5325  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 31m | Avg: 45m 34s | Max: 47m 48s | Hits:  73%/3562  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  1h 38m | Avg:  5m 47s | Max: 10m 11s | Hits: 100%/30277 
  🟩 GCC                Pass: 100%/21  | Total:  2h 19m | Avg:  6m 39s | Max: 11m 17s | Hits:  99%/37422 
  🟩 MSVC               Pass: 100%/5   | Total:  3h 24m | Avg: 40m 52s | Max: 47m 53s | Hits:  70%/8875  
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 31m | Avg: 45m 34s | Max: 47m 48s | Hits:  73%/3562  
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 15m 56s | Avg:  7m 58s | Max: 10m 40s | Hits:  99%/3564  
  🟩 rtx2080            Pass: 100%/33  | Total:  6h 11m | Avg: 11m 16s | Max: 47m 48s | Hits:  95%/58769 
  🟩 rtx4090            Pass: 100%/10  | Total:  2h 25m | Avg: 14m 34s | Max: 47m 53s | Hits:  94%/17803 
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total:  7h 23m | Avg: 11m 40s | Max: 47m 53s | Hits:  95%/67671 
  🟩 TestCPU            Pass: 100%/3   | Total: 47m 07s | Avg: 15m 42s | Max: 32m 05s | Hits:  90%/5338  
  🟩 TestGPU            Pass: 100%/4   | Total: 43m 07s | Avg: 10m 46s | Max: 11m 17s | Hits:  99%/7127  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 15m 56s | Avg:  7m 58s | Max: 10m 40s | Hits:  99%/3564  
  🟩 90;90a;100         Pass: 100%/1   | Total:  6m 04s | Avg:  6m 04s | Max:  6m 04s | Hits:  99%/1782  
🟩 std
  🟩 17                 Pass: 100%/20  | Total:  4h 21m | Avg: 13m 05s | Max: 47m 48s | Hits:  94%/35611 
  🟩 20                 Pass: 100%/23  | Total:  4h 14m | Avg: 11m 03s | Max: 47m 53s | Hits:  96%/40961

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 12m 51s | Avg: 6m 25s | Max: 10m 34s | Hits: 98%/296

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 12m 51s | Avg:  6m 25s | Max: 10m 34s | Hits:  98%/296   
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total: 12m 51s | Avg:  6m 25s | Max: 10m 34s | Hits:  98%/296   
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total: 12m 51s | Avg:  6m 25s | Max: 10m 34s | Hits:  98%/296   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 12m 51s | Avg:  6m 25s | Max: 10m 34s | Hits:  98%/296   
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 12m 51s | Avg:  6m 25s | Max: 10m 34s | Hits:  98%/296   
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 12m 51s | Avg:  6m 25s | Max: 10m 34s | Hits:  98%/296   
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total: 12m 51s | Avg:  6m 25s | Max: 10m 34s | Hits:  98%/296   
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 17s | Avg:  2m 17s | Max:  2m 17s | Hits:  98%/148   
  🟩 Test               Pass: 100%/1   | Total: 10m 34s | Avg: 10m 34s | Max: 10m 34s | Hits:  98%/148

🟩 python: Pass: 100%/1 | Total: 35m 10s | Avg: 35m 10s | Max: 35m 10s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 35m 10s | Avg: 35m 10s | Max: 35m 10s
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total: 35m 10s | Avg: 35m 10s | Max: 35m 10s
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total: 35m 10s | Avg: 35m 10s | Max: 35m 10s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 35m 10s | Avg: 35m 10s | Max: 35m 10s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 35m 10s | Avg: 35m 10s | Max: 35m 10s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 35m 10s | Avg: 35m 10s | Max: 35m 10s
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total: 35m 10s | Avg: 35m 10s | Max: 35m 10s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 35m 10s | Avg: 35m 10s | Max: 35m 10s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 93)

#	Runner
66	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-h100-latest-1`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`

…egmented-reduce

github-actions · 2025-02-23T09:52:33Z

🟨 CI finished in 1h 28m: Pass: 48%/93 | Total: 1d 19h | Avg: 28m 21s | Max: 1h 16m | Hits: 78%/80136

🟥 cub: Pass: 0%/45 | Total: 23h 08m | Avg: 30m 51s | Max: 1h 16m

🟥 cpu
  🟥 amd64              Pass:   0%/43  | Total: 21h 46m | Avg: 30m 22s | Max:  1h 16m
  🟥 arm64              Pass:   0%/2   | Total:  1h 22m | Avg: 41m 15s | Max: 41m 22s
🟥 ctk
  🟥 12.0               Pass:   0%/5   | Total:  3h 12m | Avg: 38m 27s | Max:  1h 02m
  🟥 12.5               Pass:   0%/2   | Total:  1h 07m | Avg: 33m 49s | Max: 34m 27s
  🟥 12.8               Pass:   0%/38  | Total: 18h 48m | Avg: 29m 42s | Max:  1h 16m
🟥 cudacxx
  🟥 ClangCUDA18        Pass:   0%/2   | Total:  1h 54m | Avg: 57m 23s | Max: 57m 40s
  🟥 nvcc12.0           Pass:   0%/5   | Total:  3h 12m | Avg: 38m 27s | Max:  1h 02m
  🟥 nvcc12.5           Pass:   0%/2   | Total:  1h 07m | Avg: 33m 49s | Max: 34m 27s
  🟥 nvcc12.8           Pass:   0%/36  | Total: 16h 53m | Avg: 28m 09s | Max:  1h 16m
🟥 cudacxx_family
  🟥 ClangCUDA          Pass:   0%/2   | Total:  1h 54m | Avg: 57m 23s | Max: 57m 40s
  🟥 nvcc               Pass:   0%/43  | Total: 21h 13m | Avg: 29m 37s | Max:  1h 16m
🟥 cxx
  🟥 Clang14            Pass:   0%/4   | Total:  2h 09m | Avg: 32m 26s | Max: 33m 08s
  🟥 Clang15            Pass:   0%/2   | Total:  1h 02m | Avg: 31m 04s | Max: 31m 40s
  🟥 Clang16            Pass:   0%/2   | Total:  1h 05m | Avg: 32m 36s | Max: 33m 03s
  🟥 Clang17            Pass:   0%/2   | Total:  1h 02m | Avg: 31m 09s | Max: 31m 13s
  🟥 Clang18            Pass:   0%/7   | Total:  3h 36m | Avg: 30m 57s | Max: 57m 40s
  🟥 GCC7               Pass:   0%/2   | Total:  1h 03m | Avg: 31m 39s | Max: 32m 00s
  🟥 GCC8               Pass:   0%/1   | Total: 30m 06s | Avg: 30m 06s | Max: 30m 06s
  🟥 GCC9               Pass:   0%/2   | Total:  1h 05m | Avg: 32m 48s | Max: 33m 04s
  🟥 GCC10              Pass:   0%/2   | Total:  1h 02m | Avg: 31m 04s | Max: 31m 10s
  🟥 GCC11              Pass:   0%/2   | Total:  1h 01m | Avg: 30m 40s | Max: 30m 43s
  🟥 GCC12              Pass:   0%/2   | Total:  1h 01m | Avg: 30m 41s | Max: 30m 54s
  🟥 GCC13              Pass:   0%/11  | Total:  2h 38m | Avg: 14m 23s | Max: 43m 01s
  🟥 MSVC14.29          Pass:   0%/2   | Total:  2h 16m | Avg:  1h 08m | Max:  1h 13m
  🟥 MSVC14.42          Pass:   0%/2   | Total:  2h 26m | Avg:  1h 13m | Max:  1h 16m
  🟥 NVHPC24.7          Pass:   0%/2   | Total:  1h 07m | Avg: 33m 49s | Max: 34m 27s
🟥 cxx_family
  🟥 Clang              Pass:   0%/17  | Total:  8h 56m | Avg: 31m 32s | Max: 57m 40s
  🟥 GCC                Pass:   0%/22  | Total:  8h 22m | Avg: 22m 49s | Max: 43m 01s
  🟥 MSVC               Pass:   0%/4   | Total:  4h 42m | Avg:  1h 10m | Max:  1h 16m
  🟥 NVHPC              Pass:   0%/2   | Total:  1h 07m | Avg: 33m 49s | Max: 34m 27s
🟥 gpu
  🟥 h100               Pass:   0%/3   | Total: 12m 18s | Avg:  4m 06s | Max: 12m 18s
  🟥 rtx2080            Pass:   0%/34  | Total: 21h 55m | Avg: 38m 40s | Max:  1h 16m
  🟥 rtxa6000           Pass:   0%/8   | Total:  1h 01m | Avg:  7m 38s | Max: 31m 03s
🟥 jobs
  🟥 Build              Pass:   0%/37  | Total: 23h 08m | Avg: 37m 31s | Max:  1h 16m
  🟥 DeviceLaunch       Pass:   0%/1  
  🟥 GraphCapture       Pass:   0%/1  
  🟥 HostLaunch         Pass:   0%/3  
  🟥 TestGPU            Pass:   0%/3  
🟥 sm
  🟥 90                 Pass:   0%/3   | Total: 12m 18s | Avg:  4m 06s | Max: 12m 18s
  🟥 90;90a;100         Pass:   0%/1   | Total: 43m 01s | Avg: 43m 01s | Max: 43m 01s
🟥 std
  🟥 17                 Pass:   0%/20  | Total: 12h 55m | Avg: 38m 46s | Max:  1h 16m
  🟥 20                 Pass:   0%/25  | Total: 10h 13m | Avg: 24m 31s | Max:  1h 10m

🟥 cccl_c_parallel: Pass: 0%/2 | Total: 2m 40s | Avg: 1m 20s | Max: 2m 40s

🟥 cpu
  🟥 amd64              Pass:   0%/2   | Total:  2m 40s | Avg:  1m 20s | Max:  2m 40s
🟥 ctk
  🟥 12.8               Pass:   0%/2   | Total:  2m 40s | Avg:  1m 20s | Max:  2m 40s
🟥 cudacxx
  🟥 nvcc12.8           Pass:   0%/2   | Total:  2m 40s | Avg:  1m 20s | Max:  2m 40s
🟥 cudacxx_family
  🟥 nvcc               Pass:   0%/2   | Total:  2m 40s | Avg:  1m 20s | Max:  2m 40s
🟥 cxx
  🟥 GCC13              Pass:   0%/2   | Total:  2m 40s | Avg:  1m 20s | Max:  2m 40s
🟥 cxx_family
  🟥 GCC                Pass:   0%/2   | Total:  2m 40s | Avg:  1m 20s | Max:  2m 40s
🟥 gpu
  🟥 rtx2080            Pass:   0%/2   | Total:  2m 40s | Avg:  1m 20s | Max:  2m 40s
🟥 jobs
  🟥 Build              Pass:   0%/1   | Total:  2m 40s | Avg:  2m 40s | Max:  2m 40s
  🟥 Test               Pass:   0%/1

🟥 python: Pass: 0%/1 | Total: 3m 41s | Avg: 3m 41s | Max: 3m 41s

🟥 cpu
  🟥 amd64              Pass:   0%/1   | Total:  3m 41s | Avg:  3m 41s | Max:  3m 41s
🟥 ctk
  🟥 12.8               Pass:   0%/1   | Total:  3m 41s | Avg:  3m 41s | Max:  3m 41s
🟥 cudacxx
  🟥 nvcc12.8           Pass:   0%/1   | Total:  3m 41s | Avg:  3m 41s | Max:  3m 41s
🟥 cudacxx_family
  🟥 nvcc               Pass:   0%/1   | Total:  3m 41s | Avg:  3m 41s | Max:  3m 41s
🟥 cxx
  🟥 GCC13              Pass:   0%/1   | Total:  3m 41s | Avg:  3m 41s | Max:  3m 41s
🟥 cxx_family
  🟥 GCC                Pass:   0%/1   | Total:  3m 41s | Avg:  3m 41s | Max:  3m 41s
🟥 gpu
  🟥 rtx2080            Pass:   0%/1   | Total:  3m 41s | Avg:  3m 41s | Max:  3m 41s
🟥 jobs
  🟥 Test               Pass:   0%/1   | Total:  3m 41s | Avg:  3m 41s | Max:  3m 41s

🟩 thrust: Pass: 100%/45 | Total: 20h 43m | Avg: 27m 37s | Max: 55m 12s | Hits: 78%/80136

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 33m 54s | Avg: 16m 57s | Max: 22m 43s | Hits:  89%/3564  
🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total: 19h 52m | Avg: 27m 44s | Max: 55m 12s | Hits:  78%/76573 
  🟩 arm64              Pass: 100%/2   | Total: 50m 19s | Avg: 25m 09s | Max: 26m 28s | Hits:  79%/3563  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  2h 35m | Avg: 31m 01s | Max: 46m 02s | Hits:  74%/8901  
  🟩 12.5               Pass: 100%/2   | Total:  1h 33m | Avg: 46m 53s | Max: 48m 41s | Hits:  73%/3562  
  🟩 12.8               Pass: 100%/38  | Total: 16h 34m | Avg: 26m 09s | Max: 55m 12s | Hits:  79%/67673 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 44m 35s | Avg: 22m 17s | Max: 23m 06s | Hits:  79%/3562  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  2h 35m | Avg: 31m 01s | Max: 46m 02s | Hits:  74%/8901  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 33m | Avg: 46m 53s | Max: 48m 41s | Hits:  73%/3562  
  🟩 nvcc12.8           Pass: 100%/36  | Total: 15h 49m | Avg: 26m 22s | Max: 55m 12s | Hits:  79%/64111 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 44m 35s | Avg: 22m 17s | Max: 23m 06s | Hits:  79%/3562  
  🟩 nvcc               Pass: 100%/43  | Total: 19h 58m | Avg: 27m 52s | Max: 55m 12s | Hits:  78%/76574 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  1h 44m | Avg: 26m 12s | Max: 26m 42s | Hits:  79%/7124  
  🟩 Clang15            Pass: 100%/2   | Total: 55m 51s | Avg: 27m 55s | Max: 28m 52s | Hits:  79%/3562  
  🟩 Clang16            Pass: 100%/2   | Total: 55m 50s | Avg: 27m 55s | Max: 28m 28s | Hits:  79%/3562  
  🟩 Clang17            Pass: 100%/2   | Total:  1h 01m | Avg: 30m 57s | Max: 35m 14s | Hits:  79%/3562  
  🟩 Clang18            Pass: 100%/7   | Total:  2h 22m | Avg: 20m 21s | Max: 28m 39s | Hits:  85%/12467 
  🟩 GCC7               Pass: 100%/2   | Total: 55m 01s | Avg: 27m 30s | Max: 28m 40s | Hits:  79%/3564  
  🟩 GCC8               Pass: 100%/1   | Total: 25m 52s | Avg: 25m 52s | Max: 25m 52s | Hits:  79%/1782  
  🟩 GCC9               Pass: 100%/2   | Total: 55m 18s | Avg: 27m 39s | Max: 28m 01s | Hits:  79%/3564  
  🟩 GCC10              Pass: 100%/2   | Total: 53m 49s | Avg: 26m 54s | Max: 26m 56s | Hits:  79%/3564  
  🟩 GCC11              Pass: 100%/2   | Total: 54m 21s | Avg: 27m 10s | Max: 27m 45s | Hits:  79%/3564  
  🟩 GCC12              Pass: 100%/2   | Total: 58m 26s | Avg: 29m 13s | Max: 30m 21s | Hits:  79%/3564  
  🟩 GCC13              Pass: 100%/10  | Total:  3h 20m | Avg: 20m 04s | Max: 31m 42s | Hits:  85%/17820 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 32m | Avg: 46m 12s | Max: 46m 22s | Hits:  55%/3550  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  2h 12m | Avg: 44m 10s | Max: 55m 12s | Hits:  60%/5325  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 33m | Avg: 46m 53s | Max: 48m 41s | Hits:  73%/3562  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  7h 00m | Avg: 24m 45s | Max: 35m 14s | Hits:  81%/30277 
  🟩 GCC                Pass: 100%/21  | Total:  8h 23m | Avg: 23m 58s | Max: 31m 42s | Hits:  82%/37422 
  🟩 MSVC               Pass: 100%/5   | Total:  3h 44m | Avg: 44m 59s | Max: 55m 12s | Hits:  58%/8875  
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 33m | Avg: 46m 53s | Max: 48m 41s | Hits:  73%/3562  
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 31m 54s | Avg: 15m 57s | Max: 17m 22s | Hits:  81%/3564  
  🟩 rtx2080            Pass: 100%/33  | Total: 16h 37m | Avg: 30m 14s | Max: 48m 41s | Hits:  76%/58769 
  🟩 rtx4090            Pass: 100%/10  | Total:  3h 33m | Avg: 21m 19s | Max: 55m 12s | Hits:  86%/17803 
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total: 19h 10m | Avg: 30m 17s | Max: 55m 12s | Hits:  76%/67671 
  🟩 TestCPU            Pass: 100%/3   | Total: 45m 02s | Avg: 15m 00s | Max: 29m 25s | Hits:  90%/5338  
  🟩 TestGPU            Pass: 100%/4   | Total: 47m 11s | Avg: 11m 47s | Max: 14m 32s | Hits:  96%/7127  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 31m 54s | Avg: 15m 57s | Max: 17m 22s | Hits:  81%/3564  
  🟩 90;90a;100         Pass: 100%/1   | Total: 31m 42s | Avg: 31m 42s | Max: 31m 42s | Hits:  76%/1782  
🟩 std
  🟩 17                 Pass: 100%/20  | Total: 10h 17m | Avg: 30m 52s | Max: 47m 55s | Hits:  75%/35611 
  🟩 20                 Pass: 100%/23  | Total:  9h 51m | Avg: 25m 43s | Max: 55m 12s | Hits:  81%/40961

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 93)

#	Runner
66	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-h100-latest-1`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`

github-actions · 2025-02-23T16:34:50Z

🟨 CI finished in 1h 25m: Pass: 96%/93 | Total: 2d 12h | Avg: 39m 13s | Max: 1h 19m | Hits: 73%/133750

🟥 cccl_c_parallel: Pass: 0%/2 | Total: 2m 25s | Avg: 1m 12s | Max: 2m 25s

🟥 cpu
  🟥 amd64              Pass:   0%/2   | Total:  2m 25s | Avg:  1m 12s | Max:  2m 25s
🟥 ctk
  🟥 12.8               Pass:   0%/2   | Total:  2m 25s | Avg:  1m 12s | Max:  2m 25s
🟥 cudacxx
  🟥 nvcc12.8           Pass:   0%/2   | Total:  2m 25s | Avg:  1m 12s | Max:  2m 25s
🟥 cudacxx_family
  🟥 nvcc               Pass:   0%/2   | Total:  2m 25s | Avg:  1m 12s | Max:  2m 25s
🟥 cxx
  🟥 GCC13              Pass:   0%/2   | Total:  2m 25s | Avg:  1m 12s | Max:  2m 25s
🟥 cxx_family
  🟥 GCC                Pass:   0%/2   | Total:  2m 25s | Avg:  1m 12s | Max:  2m 25s
🟥 gpu
  🟥 rtx2080            Pass:   0%/2   | Total:  2m 25s | Avg:  1m 12s | Max:  2m 25s
🟥 jobs
  🟥 Build              Pass:   0%/1   | Total:  2m 25s | Avg:  2m 25s | Max:  2m 25s
  🟥 Test               Pass:   0%/1

🟥 python: Pass: 0%/1 | Total: 3m 31s | Avg: 3m 31s | Max: 3m 31s

🟥 cpu
  🟥 amd64              Pass:   0%/1   | Total:  3m 31s | Avg:  3m 31s | Max:  3m 31s
🟥 ctk
  🟥 12.8               Pass:   0%/1   | Total:  3m 31s | Avg:  3m 31s | Max:  3m 31s
🟥 cudacxx
  🟥 nvcc12.8           Pass:   0%/1   | Total:  3m 31s | Avg:  3m 31s | Max:  3m 31s
🟥 cudacxx_family
  🟥 nvcc               Pass:   0%/1   | Total:  3m 31s | Avg:  3m 31s | Max:  3m 31s
🟥 cxx
  🟥 GCC13              Pass:   0%/1   | Total:  3m 31s | Avg:  3m 31s | Max:  3m 31s
🟥 cxx_family
  🟥 GCC                Pass:   0%/1   | Total:  3m 31s | Avg:  3m 31s | Max:  3m 31s
🟥 gpu
  🟥 rtx2080            Pass:   0%/1   | Total:  3m 31s | Avg:  3m 31s | Max:  3m 31s
🟥 jobs
  🟥 Test               Pass:   0%/1   | Total:  3m 31s | Avg:  3m 31s | Max:  3m 31s

🟩 cub: Pass: 100%/45 | Total: 1d 15h | Avg: 53m 15s | Max: 1h 19m | Hits: 65%/53614

🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total:  1d 13h | Avg: 52m 53s | Max:  1h 19m | Hits:  65%/51178 
  🟩 arm64              Pass: 100%/2   | Total:  2h 02m | Avg:  1h 01m | Max:  1h 01m | Hits:  62%/2436  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  4h 49m | Avg: 57m 55s | Max:  1h 03m | Hits:  53%/5922  
  🟩 12.5               Pass: 100%/2   | Total:  2h 23m | Avg:  1h 11m | Max:  1h 12m | Hits:  61%/2254  
  🟩 12.8               Pass: 100%/38  | Total:  1d 08h | Avg: 51m 40s | Max:  1h 19m | Hits:  66%/45438 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  2h 04m | Avg:  1h 02m | Max:  1h 03m | Hits:  67%/2104  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  4h 49m | Avg: 57m 55s | Max:  1h 03m | Hits:  53%/5922  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 23m | Avg:  1h 11m | Max:  1h 12m | Hits:  61%/2254  
  🟩 nvcc12.8           Pass: 100%/36  | Total:  1d 06h | Avg: 51m 05s | Max:  1h 19m | Hits:  66%/43334 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total:  2h 04m | Avg:  1h 02m | Max:  1h 03m | Hits:  67%/2104  
  🟩 nvcc               Pass: 100%/43  | Total:  1d 13h | Avg: 52m 50s | Max:  1h 19m | Hits:  65%/51510 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  3h 44m | Avg: 56m 06s | Max: 59m 59s | Hits:  62%/4880  
  🟩 Clang15            Pass: 100%/2   | Total:  1h 50m | Avg: 55m 10s | Max: 56m 27s | Hits:  62%/2436  
  🟩 Clang16            Pass: 100%/2   | Total:  2h 09m | Avg:  1h 04m | Max:  1h 12m | Hits:  62%/2436  
  🟩 Clang17            Pass: 100%/2   | Total:  1h 55m | Avg: 57m 52s | Max:  1h 00m | Hits:  62%/2436  
  🟩 Clang18            Pass: 100%/7   | Total:  5h 41m | Avg: 48m 50s | Max:  1h 03m | Hits:  74%/8194  
  🟩 GCC7               Pass: 100%/2   | Total:  1h 51m | Avg: 55m 39s | Max: 56m 23s | Hits:  62%/2440  
  🟩 GCC8               Pass: 100%/1   | Total: 57m 34s | Avg: 57m 34s | Max: 57m 34s | Hits:  62%/1220  
  🟩 GCC9               Pass: 100%/2   | Total:  1h 59m | Avg: 59m 34s | Max: 59m 53s | Hits:  62%/2440  
  🟩 GCC10              Pass: 100%/2   | Total:  1h 56m | Avg: 58m 12s | Max:  1h 01m | Hits:  62%/2440  
  🟩 GCC11              Pass: 100%/2   | Total:  1h 57m | Avg: 58m 50s | Max:  1h 02m | Hits:  62%/2436  
  🟩 GCC12              Pass: 100%/2   | Total:  1h 53m | Avg: 56m 39s | Max: 57m 23s | Hits:  62%/2436  
  🟩 GCC13              Pass: 100%/11  | Total:  6h 39m | Avg: 36m 21s | Max:  1h 01m | Hits:  81%/13398 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  2h 22m | Avg:  1h 11m | Max:  1h 19m | Hits:  13%/2084  
  🟩 MSVC14.42          Pass: 100%/2   | Total:  2h 34m | Avg:  1h 17m | Max:  1h 17m | Hits:  13%/2084  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 23m | Avg:  1h 11m | Max:  1h 12m | Hits:  61%/2254  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total: 15h 21m | Avg: 54m 12s | Max:  1h 12m | Hits:  67%/20382 
  🟩 GCC                Pass: 100%/22  | Total: 17h 15m | Avg: 47m 03s | Max:  1h 02m | Hits:  71%/26810 
  🟩 MSVC               Pass: 100%/4   | Total:  4h 56m | Avg:  1h 14m | Max:  1h 19m | Hits:  13%/4168  
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 23m | Avg:  1h 11m | Max:  1h 12m | Hits:  61%/2254  
🟩 gpu
  🟩 h100               Pass: 100%/3   | Total:  1h 13m | Avg: 24m 36s | Max: 26m 15s | Hits:  85%/3654  
  🟩 rtx2080            Pass: 100%/34  | Total:  1d 10h | Avg:  1h 01m | Max:  1h 19m | Hits:  57%/40216 
  🟩 rtxa6000           Pass: 100%/8   | Total:  4h 05m | Avg: 30m 42s | Max:  1h 00m | Hits:  90%/9744  
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total:  1d 12h | Avg: 59m 57s | Max:  1h 19m | Hits:  57%/43870 
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 23m 19s | Avg: 23m 19s | Max: 23m 19s | Hits:  99%/1218  
  🟩 GraphCapture       Pass: 100%/1   | Total: 18m 27s | Avg: 18m 27s | Max: 18m 27s | Hits:  99%/1218  
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 11m | Avg: 23m 47s | Max: 24m 44s | Hits:  99%/3654  
  🟩 TestGPU            Pass: 100%/3   | Total:  1h 04m | Avg: 21m 37s | Max: 22m 51s | Hits:  99%/3654  
🟩 sm
  🟩 90                 Pass: 100%/3   | Total:  1h 13m | Avg: 24m 36s | Max: 26m 15s | Hits:  85%/3654  
  🟩 90;90a;100         Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m | Hits:  57%/1218  
🟩 std
  🟩 17                 Pass: 100%/20  | Total: 20h 24m | Avg:  1h 01m | Max:  1h 19m | Hits:  55%/23591 
  🟩 20                 Pass: 100%/25  | Total: 19h 31m | Avg: 46m 51s | Max:  1h 16m | Hits:  72%/30023

🟩 thrust: Pass: 100%/45 | Total: 20h 45m | Avg: 27m 41s | Max: 50m 23s | Hits: 78%/80136

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 33m 13s | Avg: 16m 36s | Max: 22m 12s | Hits:  89%/3564  
🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total: 19h 54m | Avg: 27m 46s | Max: 50m 23s | Hits:  78%/76573 
  🟩 arm64              Pass: 100%/2   | Total: 51m 42s | Avg: 25m 51s | Max: 27m 32s | Hits:  79%/3563  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  2h 37m | Avg: 31m 28s | Max: 48m 18s | Hits:  74%/8901  
  🟩 12.5               Pass: 100%/2   | Total:  1h 32m | Avg: 46m 22s | Max: 49m 14s | Hits:  73%/3562  
  🟩 12.8               Pass: 100%/38  | Total: 16h 35m | Avg: 26m 12s | Max: 50m 23s | Hits:  79%/67673 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 45m 14s | Avg: 22m 37s | Max: 24m 22s | Hits:  79%/3562  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  2h 37m | Avg: 31m 28s | Max: 48m 18s | Hits:  74%/8901  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 32m | Avg: 46m 22s | Max: 49m 14s | Hits:  73%/3562  
  🟩 nvcc12.8           Pass: 100%/36  | Total: 15h 50m | Avg: 26m 24s | Max: 50m 23s | Hits:  79%/64111 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 45m 14s | Avg: 22m 37s | Max: 24m 22s | Hits:  79%/3562  
  🟩 nvcc               Pass: 100%/43  | Total: 20h 00m | Avg: 27m 55s | Max: 50m 23s | Hits:  78%/76574 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  1h 47m | Avg: 26m 48s | Max: 29m 17s | Hits:  79%/7124  
  🟩 Clang15            Pass: 100%/2   | Total: 54m 44s | Avg: 27m 22s | Max: 28m 58s | Hits:  79%/3562  
  🟩 Clang16            Pass: 100%/2   | Total: 56m 16s | Avg: 28m 08s | Max: 28m 10s | Hits:  79%/3562  
  🟩 Clang17            Pass: 100%/2   | Total: 56m 39s | Avg: 28m 19s | Max: 29m 08s | Hits:  79%/3562  
  🟩 Clang18            Pass: 100%/7   | Total:  2h 20m | Avg: 20m 04s | Max: 28m 48s | Hits:  85%/12467 
  🟩 GCC7               Pass: 100%/2   | Total: 56m 16s | Avg: 28m 08s | Max: 29m 25s | Hits:  79%/3564  
  🟩 GCC8               Pass: 100%/1   | Total: 28m 40s | Avg: 28m 40s | Max: 28m 40s | Hits:  79%/1782  
  🟩 GCC9               Pass: 100%/2   | Total: 58m 31s | Avg: 29m 15s | Max: 30m 32s | Hits:  79%/3564  
  🟩 GCC10              Pass: 100%/2   | Total: 57m 00s | Avg: 28m 30s | Max: 29m 52s | Hits:  79%/3564  
  🟩 GCC11              Pass: 100%/2   | Total: 53m 25s | Avg: 26m 42s | Max: 26m 59s | Hits:  79%/3564  
  🟩 GCC12              Pass: 100%/2   | Total: 55m 51s | Avg: 27m 55s | Max: 28m 19s | Hits:  79%/3564  
  🟩 GCC13              Pass: 100%/10  | Total:  3h 20m | Avg: 20m 02s | Max: 34m 05s | Hits:  84%/17820 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 38m | Avg: 49m 20s | Max: 50m 23s | Hits:  55%/3550  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  2h 09m | Avg: 43m 02s | Max: 49m 33s | Hits:  60%/5325  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 32m | Avg: 46m 22s | Max: 49m 14s | Hits:  73%/3562  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  6h 55m | Avg: 24m 25s | Max: 29m 17s | Hits:  81%/30277 
  🟩 GCC                Pass: 100%/21  | Total:  8h 30m | Avg: 24m 17s | Max: 34m 05s | Hits:  81%/37422 
  🟩 MSVC               Pass: 100%/5   | Total:  3h 47m | Avg: 45m 33s | Max: 50m 23s | Hits:  58%/8875  
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 32m | Avg: 46m 22s | Max: 49m 14s | Hits:  73%/3562  
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 28m 24s | Avg: 14m 12s | Max: 16m 49s | Hits:  89%/3564  
  🟩 rtx2080            Pass: 100%/33  | Total: 16h 49m | Avg: 30m 35s | Max: 50m 23s | Hits:  75%/58769 
  🟩 rtx4090            Pass: 100%/10  | Total:  3h 28m | Avg: 20m 48s | Max: 49m 33s | Hits:  86%/17803 
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total: 19h 15m | Avg: 30m 24s | Max: 50m 23s | Hits:  75%/67671 
  🟩 TestCPU            Pass: 100%/3   | Total: 46m 05s | Avg: 15m 21s | Max: 30m 37s | Hits:  90%/5338  
  🟩 TestGPU            Pass: 100%/4   | Total: 44m 20s | Avg: 11m 05s | Max: 11m 35s | Hits:  99%/7127  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 28m 24s | Avg: 14m 12s | Max: 16m 49s | Hits:  89%/3564  
  🟩 90;90a;100         Pass: 100%/1   | Total: 28m 40s | Avg: 28m 40s | Max: 28m 40s | Hits:  79%/1782  
🟩 std
  🟩 17                 Pass: 100%/20  | Total: 10h 33m | Avg: 31m 40s | Max: 50m 23s | Hits:  73%/35611 
  🟩 20                 Pass: 100%/23  | Total:  9h 39m | Avg: 25m 10s | Max: 49m 33s | Hits:  82%/40961

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 93)

#	Runner
66	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-h100-latest-1`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`

cub/cub/device/dispatch/dispatch_common.cuh

…egmented-reduce

github-actions · 2025-03-13T12:38:50Z

🟨 CI finished in 1h 37m: Pass: 96%/93 | Total: 2d 15h | Avg: 41m 15s | Max: 1h 20m | Hits: 75%/133699

🟥 cccl_c_parallel: Pass: 0%/2 | Total: 2m 30s | Avg: 1m 15s | Max: 2m 30s

🟥 cpu
  🟥 amd64              Pass:   0%/2   | Total:  2m 30s | Avg:  1m 15s | Max:  2m 30s
🟥 ctk
  🟥 12.8               Pass:   0%/2   | Total:  2m 30s | Avg:  1m 15s | Max:  2m 30s
🟥 cudacxx
  🟥 nvcc12.8           Pass:   0%/2   | Total:  2m 30s | Avg:  1m 15s | Max:  2m 30s
🟥 cudacxx_family
  🟥 nvcc               Pass:   0%/2   | Total:  2m 30s | Avg:  1m 15s | Max:  2m 30s
🟥 cxx
  🟥 GCC13              Pass:   0%/2   | Total:  2m 30s | Avg:  1m 15s | Max:  2m 30s
🟥 cxx_family
  🟥 GCC                Pass:   0%/2   | Total:  2m 30s | Avg:  1m 15s | Max:  2m 30s
🟥 gpu
  🟥 rtx2080            Pass:   0%/2   | Total:  2m 30s | Avg:  1m 15s | Max:  2m 30s
🟥 jobs
  🟥 Build              Pass:   0%/1   | Total:  2m 30s | Avg:  2m 30s | Max:  2m 30s
  🟥 Test               Pass:   0%/1

🟥 python: Pass: 0%/1 | Total: 3m 22s | Avg: 3m 22s | Max: 3m 22s

🟥 cpu
  🟥 amd64              Pass:   0%/1   | Total:  3m 22s | Avg:  3m 22s | Max:  3m 22s
🟥 ctk
  🟥 12.8               Pass:   0%/1   | Total:  3m 22s | Avg:  3m 22s | Max:  3m 22s
🟥 cudacxx
  🟥 nvcc12.8           Pass:   0%/1   | Total:  3m 22s | Avg:  3m 22s | Max:  3m 22s
🟥 cudacxx_family
  🟥 nvcc               Pass:   0%/1   | Total:  3m 22s | Avg:  3m 22s | Max:  3m 22s
🟥 cxx
  🟥 GCC13              Pass:   0%/1   | Total:  3m 22s | Avg:  3m 22s | Max:  3m 22s
🟥 cxx_family
  🟥 GCC                Pass:   0%/1   | Total:  3m 22s | Avg:  3m 22s | Max:  3m 22s
🟥 gpu
  🟥 rtx2080            Pass:   0%/1   | Total:  3m 22s | Avg:  3m 22s | Max:  3m 22s
🟥 jobs
  🟥 Test               Pass:   0%/1   | Total:  3m 22s | Avg:  3m 22s | Max:  3m 22s

🟩 cub: Pass: 100%/45 | Total: 1d 18h | Avg: 56m 06s | Max: 1h 20m | Hits: 69%/53743

🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total:  1d 15h | Avg: 55m 44s | Max:  1h 20m | Hits:  69%/51301 
  🟩 arm64              Pass: 100%/2   | Total:  2h 07m | Avg:  1h 03m | Max:  1h 03m | Hits:  67%/2442  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  5h 27m | Avg:  1h 05m | Max:  1h 10m | Hits:  57%/5936  
  🟩 12.5               Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 13m | Hits:  67%/2260  
  🟩 12.8               Pass: 100%/38  | Total:  1d 10h | Avg: 54m 02s | Max:  1h 20m | Hits:  70%/45547 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  2h 00m | Avg:  1h 00m | Max:  1h 00m | Hits:  73%/2108  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  5h 27m | Avg:  1h 05m | Max:  1h 10m | Hits:  57%/5936  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 13m | Hits:  67%/2260  
  🟩 nvcc12.8           Pass: 100%/36  | Total:  1d 08h | Avg: 53m 40s | Max:  1h 20m | Hits:  70%/43439 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total:  2h 00m | Avg:  1h 00m | Max:  1h 00m | Hits:  73%/2108  
  🟩 nvcc               Pass: 100%/43  | Total:  1d 16h | Avg: 55m 54s | Max:  1h 20m | Hits:  69%/51635 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  4h 03m | Avg:  1h 00m | Max:  1h 04m | Hits:  67%/4892  
  🟩 Clang15            Pass: 100%/2   | Total:  1h 57m | Avg: 58m 40s | Max: 58m 43s | Hits:  67%/2442  
  🟩 Clang16            Pass: 100%/2   | Total:  1h 58m | Avg: 59m 10s | Max: 59m 23s | Hits:  67%/2442  
  🟩 Clang17            Pass: 100%/2   | Total:  2h 01m | Avg:  1h 00m | Max:  1h 01m | Hits:  67%/2442  
  🟩 Clang18            Pass: 100%/7   | Total:  5h 54m | Avg: 50m 38s | Max:  1h 04m | Hits:  78%/8213  
  🟩 GCC7               Pass: 100%/2   | Total:  2h 10m | Avg:  1h 05m | Max:  1h 05m | Hits:  67%/2446  
  🟩 GCC8               Pass: 100%/1   | Total:  1h 00m | Avg:  1h 00m | Max:  1h 00m | Hits:  67%/1223  
  🟩 GCC9               Pass: 100%/2   | Total:  2h 11m | Avg:  1h 05m | Max:  1h 06m | Hits:  67%/2446  
  🟩 GCC10              Pass: 100%/2   | Total:  2h 06m | Avg:  1h 03m | Max:  1h 06m | Hits:  67%/2446  
  🟩 GCC11              Pass: 100%/2   | Total:  2h 05m | Avg:  1h 02m | Max:  1h 05m | Hits:  67%/2442  
  🟩 GCC12              Pass: 100%/2   | Total:  2h 07m | Avg:  1h 03m | Max:  1h 03m | Hits:  67%/2442  
  🟩 GCC13              Pass: 100%/11  | Total:  6h 59m | Avg: 38m 06s | Max:  1h 06m | Hits:  84%/13431 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  2h 29m | Avg:  1h 14m | Max:  1h 18m | Hits:  14%/2088  
  🟩 MSVC14.42          Pass: 100%/2   | Total:  2h 36m | Avg:  1h 18m | Max:  1h 20m | Hits:  14%/2088  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 13m | Hits:  67%/2260  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total: 15h 54m | Avg: 56m 08s | Max:  1h 04m | Hits:  71%/20431 
  🟩 GCC                Pass: 100%/22  | Total: 18h 40m | Avg: 50m 55s | Max:  1h 06m | Hits:  75%/26876 
  🟩 MSVC               Pass: 100%/4   | Total:  5h 05m | Avg:  1h 16m | Max:  1h 20m | Hits:  14%/4176  
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 24m | Avg:  1h 12m | Max:  1h 13m | Hits:  67%/2260  
🟩 gpu
  🟩 h100               Pass: 100%/3   | Total:  1h 16m | Avg: 25m 23s | Max: 29m 34s | Hits:  88%/3663  
  🟩 rtx2080            Pass: 100%/34  | Total:  1d 12h | Avg:  1h 04m | Max:  1h 20m | Hits:  62%/40312 
  🟩 rtxa6000           Pass: 100%/8   | Total:  4h 14m | Avg: 31m 46s | Max:  1h 00m | Hits:  91%/9768  
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total:  1d 15h | Avg:  1h 03m | Max:  1h 20m | Hits:  62%/43975 
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 22m 22s | Avg: 22m 22s | Max: 22m 22s | Hits:  99%/1221  
  🟩 GraphCapture       Pass: 100%/1   | Total: 17m 34s | Avg: 17m 34s | Max: 17m 34s | Hits:  99%/1221  
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 12m | Avg: 24m 17s | Max: 25m 18s | Hits:  99%/3663  
  🟩 TestGPU            Pass: 100%/3   | Total:  1h 08m | Avg: 22m 49s | Max: 23m 32s | Hits:  99%/3663  
🟩 sm
  🟩 90                 Pass: 100%/3   | Total:  1h 16m | Avg: 25m 23s | Max: 29m 34s | Hits:  88%/3663  
  🟩 90;90a;100         Pass: 100%/1   | Total:  1h 06m | Avg:  1h 06m | Max:  1h 06m | Hits:  67%/1221  
🟩 std
  🟩 17                 Pass: 100%/20  | Total: 21h 29m | Avg:  1h 04m | Max:  1h 18m | Hits:  60%/23647 
  🟩 20                 Pass: 100%/25  | Total: 20h 35m | Avg: 49m 24s | Max:  1h 20m | Hits:  76%/30096

🟩 thrust: Pass: 100%/45 | Total: 21h 46m | Avg: 29m 01s | Max: 58m 53s | Hits: 79%/79956

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 37m 40s | Avg: 18m 50s | Max: 26m 17s | Hits:  89%/3556  
🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total: 20h 53m | Avg: 29m 09s | Max: 58m 53s | Hits:  79%/76401 
  🟩 arm64              Pass: 100%/2   | Total: 52m 46s | Avg: 26m 23s | Max: 27m 33s | Hits:  79%/3555  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  2h 45m | Avg: 33m 05s | Max: 50m 35s | Hits:  74%/8881  
  🟩 12.5               Pass: 100%/2   | Total:  1h 35m | Avg: 47m 48s | Max: 51m 00s | Hits:  74%/3554  
  🟩 12.8               Pass: 100%/38  | Total: 17h 25m | Avg: 27m 30s | Max: 58m 53s | Hits:  80%/67521 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 47m 14s | Avg: 23m 37s | Max: 24m 33s | Hits:  79%/3554  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  2h 45m | Avg: 33m 05s | Max: 50m 35s | Hits:  74%/8881  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 35m | Avg: 47m 48s | Max: 51m 00s | Hits:  74%/3554  
  🟩 nvcc12.8           Pass: 100%/36  | Total: 16h 38m | Avg: 27m 43s | Max: 58m 53s | Hits:  80%/63967 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 47m 14s | Avg: 23m 37s | Max: 24m 33s | Hits:  79%/3554  
  🟩 nvcc               Pass: 100%/43  | Total: 20h 59m | Avg: 29m 16s | Max: 58m 53s | Hits:  79%/76402 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  1h 49m | Avg: 27m 20s | Max: 28m 10s | Hits:  79%/7108  
  🟩 Clang15            Pass: 100%/2   | Total: 57m 23s | Avg: 28m 41s | Max: 30m 45s | Hits:  79%/3554  
  🟩 Clang16            Pass: 100%/2   | Total: 55m 12s | Avg: 27m 36s | Max: 28m 23s | Hits:  79%/3554  
  🟩 Clang17            Pass: 100%/2   | Total: 56m 18s | Avg: 28m 09s | Max: 29m 18s | Hits:  79%/3554  
  🟩 Clang18            Pass: 100%/7   | Total:  2h 24m | Avg: 20m 40s | Max: 27m 40s | Hits:  85%/12439 
  🟩 GCC7               Pass: 100%/2   | Total: 59m 30s | Avg: 29m 45s | Max: 31m 11s | Hits:  79%/3556  
  🟩 GCC8               Pass: 100%/1   | Total: 30m 23s | Avg: 30m 23s | Max: 30m 23s | Hits:  79%/1778  
  🟩 GCC9               Pass: 100%/2   | Total:  1h 00m | Avg: 30m 01s | Max: 31m 03s | Hits:  79%/3556  
  🟩 GCC10              Pass: 100%/2   | Total:  1h 00m | Avg: 30m 04s | Max: 31m 02s | Hits:  79%/3556  
  🟩 GCC11              Pass: 100%/2   | Total:  1h 00m | Avg: 30m 14s | Max: 31m 04s | Hits:  79%/3556  
  🟩 GCC12              Pass: 100%/2   | Total: 58m 12s | Avg: 29m 06s | Max: 29m 53s | Hits:  79%/3556  
  🟩 GCC13              Pass: 100%/10  | Total:  3h 27m | Avg: 20m 42s | Max: 33m 44s | Hits:  87%/17780 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 48m | Avg: 54m 29s | Max: 58m 23s | Hits:  55%/3542  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  2h 23m | Avg: 47m 40s | Max: 58m 53s | Hits:  60%/5313  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 35m | Avg: 47m 48s | Max: 51m 00s | Hits:  74%/3554  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  7h 02m | Avg: 24m 52s | Max: 30m 45s | Hits:  82%/30209 
  🟩 GCC                Pass: 100%/21  | Total:  8h 55m | Avg: 25m 31s | Max: 33m 44s | Hits:  83%/37338 
  🟩 MSVC               Pass: 100%/5   | Total:  4h 11m | Avg: 50m 23s | Max: 58m 53s | Hits:  58%/8855  
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 35m | Avg: 47m 48s | Max: 51m 00s | Hits:  74%/3554  
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 27m 47s | Avg: 13m 53s | Max: 16m 25s | Hits:  89%/3556  
  🟩 rtx2080            Pass: 100%/33  | Total: 17h 33m | Avg: 31m 56s | Max: 58m 23s | Hits:  77%/58637 
  🟩 rtx4090            Pass: 100%/10  | Total:  3h 44m | Avg: 22m 28s | Max: 58m 53s | Hits:  86%/17763 
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total: 20h 14m | Avg: 31m 57s | Max: 58m 53s | Hits:  76%/67519 
  🟩 TestCPU            Pass: 100%/3   | Total: 47m 49s | Avg: 15m 56s | Max: 32m 19s | Hits:  90%/5326  
  🟩 TestGPU            Pass: 100%/4   | Total: 44m 29s | Avg: 11m 07s | Max: 11m 33s | Hits:  99%/7111  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 27m 47s | Avg: 13m 53s | Max: 16m 25s | Hits:  89%/3556  
  🟩 90;90a;100         Pass: 100%/1   | Total: 33m 44s | Avg: 33m 44s | Max: 33m 44s | Hits:  79%/1778  
🟩 std
  🟩 17                 Pass: 100%/20  | Total: 11h 15m | Avg: 33m 47s | Max: 58m 23s | Hits:  75%/35531 
  🟩 20                 Pass: 100%/23  | Total:  9h 52m | Avg: 25m 46s | Max: 58m 53s | Hits:  82%/40869

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 93)

#	Runner
66	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-h100-latest-1`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`

gevtushenko · 2025-03-14T17:17:25Z

A few notes on breaking c.parallel in this PR.

Current State

@elstehle added a streaming approach to support large number of segments. The approach consists in processing up to INT_MAX segments in one kernel, advancing offset pointers on the host side, then repeating these two steps until all segments are processed. This streaming approach comes with many benefits. It allows us to maintain performance of 32-bit offsets while processing large problem sizes. This approach is also not specific to segmented reduce. We already have a few algorithms incorporating it. Here's the list of algorithms exercising this approach. As of today, it includes reduce arg min/max, select, partition. Besides that, on CCCL level we are about to require iterators to be incrementable on the host as well.

Problem

c.parallel type-erases all iterators and passes them as indirect_arg_t:

struct indirect_arg_t {
  void* ptr;
  void* operator&() const {
    return ptr;
  }
};

Later, when we use driver API to launch a kernel, we take address of indirect argument &arg which returns underlying pointer. This underlying pointer can be a raw pointer to global memory, or a pointer to stack variable on the host that stores iterator state which kernel launch API then copies by value. The problem here is that this type is lacking operator+=. This breakes c.parallel on algorithms that rely on streaming and trying to advance iterators on the host.

Solution

To unblock this PR, I'd suggest to remove support of large problem sizes from c.parallel. We can SFINAE on presense of operator+= and rely on streaming when it's available and return an error if number of segment exceeds INT_MAX otherwise.

Supporting large number of segments in segmented reduction on c.parallel end is not trivial and should be addressed separately. Given that we'll reuse a solution to this problem in other algorithms, I think it's worth investing time into small research on c.parallel end. We'll likely need an indirect_iterator_t with operator+=. For raw pointers it should be easy to provide. We know the value type size, so we could advance void* on the host. For actual iterators, it's more involving. An easy solution would be to wrap user-provided iterator into a struct that stores offset in it:

struct offset_iterator_t {
  user_provided_iterator_state_t state;
  int64_t offset;

  operator+=(difference_type diff) {
    ADVANCE(state, diff);
  }
  
  operator*() {
    offset_iterator_t it = this + offset;
    return DEREF(it.state);
  }
};

Then, indirect iterator type would increment offset on the host and we won't have to invoke device code for advance compiled by numba.cuda. This requires extending user-provided state, which is a bit tricky, but we have a solution in make_for_kernel_state. That said, this approach can lead to performance overhead. Alternatively, what we can do is compiling advance in Python end using numba in addition to numba.cuda. This would give us a function pointer that we can invoke on the host end and mutate iterator state from C++. This approach removes any potential overhead from the device code but comes at a price of additional JIT compilation. @oleksandr-pavlyk could you please file an issue and research which approach is a better compromise here? @shwina and @NaderAlAwar for visibility.

github-actions · 2025-03-14T22:25:00Z

🟨 CI finished in 1h 35m: Pass: 58%/93 | Total: 2d 00h | Avg: 31m 17s | Max: 1h 20m | Hits: 76%/86560

🟨 cub: Pass: 13%/45 | Total: 1d 00h | Avg: 33m 03s | Max: 1h 20m | Hits: 31%/6284

🔍 cudacxx_family: nvcc 🔍
  🟩 ClangCUDA          Pass: 100%/2   | Total:  2h 01m | Avg:  1h 00m | Max:  1h 00m | Hits:  67%/2108  
  🔍 nvcc               Pass:   9%/43  | Total: 22h 46m | Avg: 31m 47s | Max:  1h 20m | Hits:  13%/4176  
🟨 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  2h 01m | Avg:  1h 00m | Max:  1h 00m | Hits:  67%/2108  
  🟨 nvcc12.0           Pass:  20%/5   | Total:  3h 31m | Avg: 42m 12s | Max:  1h 09m | Hits:  13%/1044  
  🟥 nvcc12.5           Pass:   0%/2   | Total:  1h 11m | Avg: 35m 48s | Max: 36m 54s
  🟨 nvcc12.8           Pass:   8%/36  | Total: 18h 04m | Avg: 30m 06s | Max:  1h 20m | Hits:  13%/3132  
🟨 cxx
  🟥 Clang14            Pass:   0%/4   | Total:  2h 15m | Avg: 33m 51s | Max: 36m 39s
  🟥 Clang15            Pass:   0%/2   | Total:  1h 09m | Avg: 34m 49s | Max: 35m 32s
  🟥 Clang16            Pass:   0%/2   | Total:  1h 05m | Avg: 32m 45s | Max: 33m 21s
  🟥 Clang17            Pass:   0%/2   | Total:  1h 09m | Avg: 34m 40s | Max: 36m 11s
  🟨 Clang18            Pass:  28%/7   | Total:  3h 49m | Avg: 32m 47s | Max:  1h 00m | Hits:  67%/2108  
  🟥 GCC7               Pass:   0%/2   | Total:  1h 08m | Avg: 34m 13s | Max: 34m 54s
  🟥 GCC8               Pass:   0%/1   | Total: 34m 02s | Avg: 34m 02s | Max: 34m 02s
  🟥 GCC9               Pass:   0%/2   | Total:  1h 08m | Avg: 34m 00s | Max: 35m 31s
  🟥 GCC10              Pass:   0%/2   | Total:  1h 08m | Avg: 34m 00s | Max: 34m 10s
  🟥 GCC11              Pass:   0%/2   | Total:  1h 08m | Avg: 34m 12s | Max: 35m 59s
  🟥 GCC12              Pass:   0%/2   | Total:  1h 09m | Avg: 34m 44s | Max: 36m 11s
  🟥 GCC13              Pass:   0%/11  | Total:  2h 45m | Avg: 15m 01s | Max: 43m 50s
  🟩 MSVC14.29          Pass: 100%/2   | Total:  2h 30m | Avg:  1h 15m | Max:  1h 20m | Hits:  13%/2088  
  🟩 MSVC14.42          Pass: 100%/2   | Total:  2h 34m | Avg:  1h 17m | Max:  1h 18m | Hits:  13%/2088  
  🟥 NVHPC24.7          Pass:   0%/2   | Total:  1h 11m | Avg: 35m 48s | Max: 36m 54s
🟨 cxx_family
  🟨 Clang              Pass:  11%/17  | Total:  9h 29m | Avg: 33m 29s | Max:  1h 00m | Hits:  67%/2108  
  🟥 GCC                Pass:   0%/22  | Total:  9h 01m | Avg: 24m 37s | Max: 43m 50s
  🟩 MSVC               Pass: 100%/4   | Total:  5h 05m | Avg:  1h 16m | Max:  1h 20m | Hits:  13%/4176  
  🟥 NVHPC              Pass:   0%/2   | Total:  1h 11m | Avg: 35m 48s | Max: 36m 54s
🟨 cpu
  🟨 amd64              Pass:  13%/43  | Total: 23h 21m | Avg: 32m 35s | Max:  1h 20m | Hits:  31%/6284  
  🟥 arm64              Pass:   0%/2   | Total:  1h 26m | Avg: 43m 08s | Max: 43m 50s
🟨 ctk
  🟨 12.0               Pass:  20%/5   | Total:  3h 31m | Avg: 42m 12s | Max:  1h 09m | Hits:  13%/1044  
  🟥 12.5               Pass:   0%/2   | Total:  1h 11m | Avg: 35m 48s | Max: 36m 54s
  🟨 12.8               Pass:  13%/38  | Total: 20h 05m | Avg: 31m 42s | Max:  1h 20m | Hits:  35%/5240  
🟨 gpu
  🟥 h100               Pass:   0%/3   | Total: 13m 12s | Avg:  4m 24s | Max: 13m 12s
  🟨 rtx2080            Pass:  17%/34  | Total: 23h 29m | Avg: 41m 27s | Max:  1h 20m | Hits:  31%/6284  
  🟥 rtxa6000           Pass:   0%/8   | Total:  1h 05m | Avg:  8m 07s | Max: 32m 34s
🟨 jobs
  🟨 Build              Pass:  16%/37  | Total:  1d 00h | Avg: 40m 12s | Max:  1h 20m | Hits:  31%/6284  
  🟥 DeviceLaunch       Pass:   0%/1  
  🟥 GraphCapture       Pass:   0%/1  
  🟥 HostLaunch         Pass:   0%/3  
  🟥 TestGPU            Pass:   0%/3  
🟥 sm
  🟥 90                 Pass:   0%/3   | Total: 13m 12s | Avg:  4m 24s | Max: 13m 12s
  🟥 90;90a;100         Pass:   0%/1   | Total: 42m 45s | Avg: 42m 45s | Max: 42m 45s
🟨 std
  🟨 17                 Pass:  20%/20  | Total: 14h 00m | Avg: 42m 02s | Max:  1h 20m | Hits:  27%/4186  
  🟨 20                 Pass:   8%/25  | Total: 10h 46m | Avg: 25m 52s | Max:  1h 18m | Hits:  40%/2098

🟩 thrust: Pass: 100%/45 | Total: 22h 25m | Avg: 29m 53s | Max: 57m 45s | Hits: 79%/79956

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 38m 51s | Avg: 19m 25s | Max: 27m 35s | Hits:  89%/3556  
🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total: 21h 31m | Avg: 30m 02s | Max: 57m 45s | Hits:  79%/76401 
  🟩 arm64              Pass: 100%/2   | Total: 53m 30s | Avg: 26m 45s | Max: 27m 49s | Hits:  79%/3555  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  2h 56m | Avg: 35m 21s | Max: 53m 57s | Hits:  74%/8881  
  🟩 12.5               Pass: 100%/2   | Total:  1h 36m | Avg: 48m 05s | Max: 48m 52s | Hits:  73%/3554  
  🟩 12.8               Pass: 100%/38  | Total: 17h 52m | Avg: 28m 12s | Max: 57m 45s | Hits:  80%/67521 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 48m 27s | Avg: 24m 13s | Max: 25m 03s | Hits:  79%/3554  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  2h 56m | Avg: 35m 21s | Max: 53m 57s | Hits:  74%/8881  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 36m | Avg: 48m 05s | Max: 48m 52s | Hits:  73%/3554  
  🟩 nvcc12.8           Pass: 100%/36  | Total: 17h 03m | Avg: 28m 26s | Max: 57m 45s | Hits:  80%/63967 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 48m 27s | Avg: 24m 13s | Max: 25m 03s | Hits:  79%/3554  
  🟩 nvcc               Pass: 100%/43  | Total: 21h 36m | Avg: 30m 09s | Max: 57m 45s | Hits:  79%/76402 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  1h 59m | Avg: 29m 47s | Max: 32m 09s | Hits:  79%/7108  
  🟩 Clang15            Pass: 100%/2   | Total: 59m 15s | Avg: 29m 37s | Max: 30m 41s | Hits:  79%/3554  
  🟩 Clang16            Pass: 100%/2   | Total: 57m 57s | Avg: 28m 58s | Max: 30m 11s | Hits:  79%/3554  
  🟩 Clang17            Pass: 100%/2   | Total: 59m 07s | Avg: 29m 33s | Max: 31m 10s | Hits:  79%/3554  
  🟩 Clang18            Pass: 100%/7   | Total:  2h 33m | Avg: 21m 57s | Max: 31m 10s | Hits:  85%/12439 
  🟩 GCC7               Pass: 100%/2   | Total:  1h 02m | Avg: 31m 13s | Max: 33m 38s | Hits:  79%/3556  
  🟩 GCC8               Pass: 100%/1   | Total: 29m 35s | Avg: 29m 35s | Max: 29m 35s | Hits:  79%/1778  
  🟩 GCC9               Pass: 100%/2   | Total:  1h 02m | Avg: 31m 12s | Max: 32m 30s | Hits:  79%/3556  
  🟩 GCC10              Pass: 100%/2   | Total: 59m 19s | Avg: 29m 39s | Max: 30m 50s | Hits:  79%/3556  
  🟩 GCC11              Pass: 100%/2   | Total: 58m 35s | Avg: 29m 17s | Max: 29m 32s | Hits:  79%/3556  
  🟩 GCC12              Pass: 100%/2   | Total: 59m 52s | Avg: 29m 56s | Max: 30m 05s | Hits:  79%/3556  
  🟩 GCC13              Pass: 100%/10  | Total:  3h 29m | Avg: 20m 59s | Max: 34m 05s | Hits:  87%/17780 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 49m | Avg: 54m 50s | Max: 55m 43s | Hits:  55%/3542  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  2h 28m | Avg: 49m 21s | Max: 57m 45s | Hits:  60%/5313  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 36m | Avg: 48m 05s | Max: 48m 52s | Hits:  73%/3554  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  7h 29m | Avg: 26m 25s | Max: 32m 09s | Hits:  81%/30209 
  🟩 GCC                Pass: 100%/21  | Total:  9h 02m | Avg: 25m 48s | Max: 34m 05s | Hits:  83%/37338 
  🟩 MSVC               Pass: 100%/5   | Total:  4h 17m | Avg: 51m 32s | Max: 57m 45s | Hits:  58%/8855  
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 36m | Avg: 48m 05s | Max: 48m 52s | Hits:  73%/3554  
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 28m 03s | Avg: 14m 01s | Max: 16m 35s | Hits:  89%/3556  
  🟩 rtx2080            Pass: 100%/33  | Total: 18h 05m | Avg: 32m 53s | Max: 57m 45s | Hits:  76%/58637 
  🟩 rtx4090            Pass: 100%/10  | Total:  3h 51m | Avg: 23m 09s | Max: 57m 32s | Hits:  86%/17763 
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total: 20h 51m | Avg: 32m 56s | Max: 57m 45s | Hits:  76%/67519 
  🟩 TestCPU            Pass: 100%/3   | Total: 48m 17s | Avg: 16m 05s | Max: 32m 46s | Hits:  90%/5326  
  🟩 TestGPU            Pass: 100%/4   | Total: 45m 04s | Avg: 11m 16s | Max: 12m 04s | Hits:  99%/7111  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 28m 03s | Avg: 14m 01s | Max: 16m 35s | Hits:  89%/3556  
  🟩 90;90a;100         Pass: 100%/1   | Total: 29m 49s | Avg: 29m 49s | Max: 29m 49s | Hits:  79%/1778  
🟩 std
  🟩 17                 Pass: 100%/20  | Total: 11h 39m | Avg: 34m 57s | Max: 57m 45s | Hits:  75%/35531 
  🟩 20                 Pass: 100%/23  | Total: 10h 06m | Avg: 26m 23s | Max: 57m 32s | Hits:  82%/40869

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 17m 27s | Avg: 8m 43s | Max: 14m 51s | Hits: 97%/320

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 17m 27s | Avg:  8m 43s | Max: 14m 51s | Hits:  97%/320   
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total: 17m 27s | Avg:  8m 43s | Max: 14m 51s | Hits:  97%/320   
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total: 17m 27s | Avg:  8m 43s | Max: 14m 51s | Hits:  97%/320   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 17m 27s | Avg:  8m 43s | Max: 14m 51s | Hits:  97%/320   
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 17m 27s | Avg:  8m 43s | Max: 14m 51s | Hits:  97%/320   
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 17m 27s | Avg:  8m 43s | Max: 14m 51s | Hits:  97%/320   
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total: 17m 27s | Avg:  8m 43s | Max: 14m 51s | Hits:  97%/320   
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 36s | Avg:  2m 36s | Max:  2m 36s | Hits:  96%/160   
  🟩 Test               Pass: 100%/1   | Total: 14m 51s | Avg: 14m 51s | Max: 14m 51s | Hits:  98%/160

🟩 python: Pass: 100%/1 | Total: 59m 27s | Avg: 59m 27s | Max: 59m 27s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 59m 27s | Avg: 59m 27s | Max: 59m 27s
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total: 59m 27s | Avg: 59m 27s | Max: 59m 27s
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total: 59m 27s | Avg: 59m 27s | Max: 59m 27s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 59m 27s | Avg: 59m 27s | Max: 59m 27s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 59m 27s | Avg: 59m 27s | Max: 59m 27s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 59m 27s | Avg: 59m 27s | Max: 59m 27s
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total: 59m 27s | Avg: 59m 27s | Max: 59m 27s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 59m 27s | Avg: 59m 27s | Max: 59m 27s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 93)

#	Runner
66	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-h100-latest-1`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`

github-actions · 2025-03-15T06:43:44Z

🟩 CI finished in 1h 27m: Pass: 100%/93 | Total: 2d 16h | Avg: 41m 31s | Max: 1h 24m | Hits: 74%/134019

🟩 cub: Pass: 100%/45 | Total: 1d 17h | Avg: 55m 44s | Max: 1h 24m | Hits: 65%/53743

🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total:  1d 15h | Avg: 55m 23s | Max:  1h 24m | Hits:  65%/51301 
  🟩 arm64              Pass: 100%/2   | Total:  2h 06m | Avg:  1h 03m | Max:  1h 03m | Hits:  62%/2442  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  5h 24m | Avg:  1h 04m | Max:  1h 09m | Hits:  54%/5936  
  🟩 12.5               Pass: 100%/2   | Total:  2h 25m | Avg:  1h 12m | Max:  1h 14m | Hits:  61%/2260  
  🟩 12.8               Pass: 100%/38  | Total:  1d 09h | Avg: 53m 39s | Max:  1h 24m | Hits:  67%/45547 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total:  2h 01m | Avg:  1h 00m | Max:  1h 01m | Hits:  67%/2108  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  5h 24m | Avg:  1h 04m | Max:  1h 09m | Hits:  54%/5936  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  2h 25m | Avg:  1h 12m | Max:  1h 14m | Hits:  61%/2260  
  🟩 nvcc12.8           Pass: 100%/36  | Total:  1d 07h | Avg: 53m 14s | Max:  1h 24m | Hits:  67%/43439 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total:  2h 01m | Avg:  1h 00m | Max:  1h 01m | Hits:  67%/2108  
  🟩 nvcc               Pass: 100%/43  | Total:  1d 15h | Avg: 55m 29s | Max:  1h 24m | Hits:  65%/51635 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  4h 03m | Avg:  1h 00m | Max:  1h 01m | Hits:  62%/4892  
  🟩 Clang15            Pass: 100%/2   | Total:  2h 01m | Avg:  1h 00m | Max:  1h 01m | Hits:  62%/2442  
  🟩 Clang16            Pass: 100%/2   | Total:  1h 58m | Avg: 59m 14s | Max: 59m 31s | Hits:  62%/2442  
  🟩 Clang17            Pass: 100%/2   | Total:  1h 58m | Avg: 59m 21s | Max:  1h 00m | Hits:  62%/2442  
  🟩 Clang18            Pass: 100%/7   | Total:  5h 48m | Avg: 49m 47s | Max:  1h 03m | Hits:  75%/8213  
  🟩 GCC7               Pass: 100%/2   | Total:  2h 07m | Avg:  1h 03m | Max:  1h 05m | Hits:  62%/2446  
  🟩 GCC8               Pass: 100%/1   | Total: 59m 36s | Avg: 59m 36s | Max: 59m 36s | Hits:  62%/1223  
  🟩 GCC9               Pass: 100%/2   | Total:  2h 04m | Avg:  1h 02m | Max:  1h 05m | Hits:  62%/2446  
  🟩 GCC10              Pass: 100%/2   | Total:  2h 04m | Avg:  1h 02m | Max:  1h 04m | Hits:  62%/2446  
  🟩 GCC11              Pass: 100%/2   | Total:  2h 00m | Avg:  1h 00m | Max:  1h 00m | Hits:  62%/2442  
  🟩 GCC12              Pass: 100%/2   | Total:  2h 04m | Avg:  1h 02m | Max:  1h 03m | Hits:  62%/2442  
  🟩 GCC13              Pass: 100%/11  | Total:  6h 59m | Avg: 38m 09s | Max:  1h 11m | Hits:  82%/13431 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  2h 26m | Avg:  1h 13m | Max:  1h 17m | Hits:  15%/2088  
  🟩 MSVC14.42          Pass: 100%/2   | Total:  2h 43m | Avg:  1h 21m | Max:  1h 24m | Hits:  15%/2088  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  2h 25m | Avg:  1h 12m | Max:  1h 14m | Hits:  61%/2260  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total: 15h 50m | Avg: 55m 54s | Max:  1h 03m | Hits:  67%/20431 
  🟩 GCC                Pass: 100%/22  | Total: 18h 21m | Avg: 50m 04s | Max:  1h 11m | Hits:  72%/26876 
  🟩 MSVC               Pass: 100%/4   | Total:  5h 10m | Avg:  1h 17m | Max:  1h 24m | Hits:  15%/4176  
  🟩 NVHPC              Pass: 100%/2   | Total:  2h 25m | Avg:  1h 12m | Max:  1h 14m | Hits:  61%/2260  
🟩 gpu
  🟩 h100               Pass: 100%/3   | Total:  1h 12m | Avg: 24m 06s | Max: 26m 12s | Hits:  87%/3663  
  🟩 rtx2080            Pass: 100%/34  | Total:  1d 12h | Avg:  1h 04m | Max:  1h 24m | Hits:  57%/40312 
  🟩 rtxa6000           Pass: 100%/8   | Total:  4h 11m | Avg: 31m 23s | Max:  1h 01m | Hits:  90%/9768  
🟩 jobs
  🟩 Build              Pass: 100%/37  | Total:  1d 14h | Avg:  1h 03m | Max:  1h 24m | Hits:  58%/43975 
  🟩 DeviceLaunch       Pass: 100%/1   | Total: 21m 53s | Avg: 21m 53s | Max: 21m 53s | Hits:  99%/1221  
  🟩 GraphCapture       Pass: 100%/1   | Total: 17m 44s | Avg: 17m 44s | Max: 17m 44s | Hits:  99%/1221  
  🟩 HostLaunch         Pass: 100%/3   | Total:  1h 11m | Avg: 23m 44s | Max: 24m 25s | Hits:  99%/3663  
  🟩 TestGPU            Pass: 100%/3   | Total:  1h 05m | Avg: 21m 44s | Max: 23m 09s | Hits:  99%/3663  
🟩 sm
  🟩 90                 Pass: 100%/3   | Total:  1h 12m | Avg: 24m 06s | Max: 26m 12s | Hits:  87%/3663  
  🟩 90;90a;100         Pass: 100%/1   | Total:  1h 11m | Avg:  1h 11m | Max:  1h 11m | Hits:  62%/1221  
🟩 std
  🟩 17                 Pass: 100%/20  | Total: 21h 22m | Avg:  1h 04m | Max:  1h 19m | Hits:  56%/23647 
  🟩 20                 Pass: 100%/25  | Total: 20h 25m | Avg: 49m 01s | Max:  1h 24m | Hits:  73%/30096

🟩 thrust: Pass: 100%/45 | Total: 21h 08m | Avg: 28m 10s | Max: 47m 11s | Hits: 80%/79956

🟩 cmake_options
  🟩 -DTHRUST_DISPATCH_TYPE=Force32bit Pass: 100%/2   | Total: 34m 49s | Avg: 17m 24s | Max: 23m 31s | Hits:  89%/3556  
🟩 cpu
  🟩 amd64              Pass: 100%/43  | Total: 20h 14m | Avg: 28m 14s | Max: 47m 11s | Hits:  80%/76401 
  🟩 arm64              Pass: 100%/2   | Total: 53m 24s | Avg: 26m 42s | Max: 28m 23s | Hits:  79%/3555  
🟩 ctk
  🟩 12.0               Pass: 100%/5   | Total:  2h 42m | Avg: 32m 31s | Max: 44m 20s | Hits:  77%/8881  
  🟩 12.5               Pass: 100%/2   | Total:  1h 31m | Avg: 45m 56s | Max: 47m 11s | Hits:  73%/3554  
  🟩 12.8               Pass: 100%/38  | Total: 16h 53m | Avg: 26m 40s | Max: 47m 02s | Hits:  81%/67521 
🟩 cudacxx
  🟩 ClangCUDA18        Pass: 100%/2   | Total: 46m 22s | Avg: 23m 11s | Max: 23m 13s | Hits:  79%/3554  
  🟩 nvcc12.0           Pass: 100%/5   | Total:  2h 42m | Avg: 32m 31s | Max: 44m 20s | Hits:  77%/8881  
  🟩 nvcc12.5           Pass: 100%/2   | Total:  1h 31m | Avg: 45m 56s | Max: 47m 11s | Hits:  73%/3554  
  🟩 nvcc12.8           Pass: 100%/36  | Total: 16h 07m | Avg: 26m 52s | Max: 47m 02s | Hits:  81%/63967 
🟩 cudacxx_family
  🟩 ClangCUDA          Pass: 100%/2   | Total: 46m 22s | Avg: 23m 11s | Max: 23m 13s | Hits:  79%/3554  
  🟩 nvcc               Pass: 100%/43  | Total: 20h 21m | Avg: 28m 24s | Max: 47m 11s | Hits:  80%/76402 
🟩 cxx
  🟩 Clang14            Pass: 100%/4   | Total:  1h 52m | Avg: 28m 10s | Max: 29m 49s | Hits:  79%/7108  
  🟩 Clang15            Pass: 100%/2   | Total: 56m 00s | Avg: 28m 00s | Max: 28m 24s | Hits:  79%/3554  
  🟩 Clang16            Pass: 100%/2   | Total: 57m 30s | Avg: 28m 45s | Max: 31m 05s | Hits:  79%/3554  
  🟩 Clang17            Pass: 100%/2   | Total: 58m 13s | Avg: 29m 06s | Max: 29m 44s | Hits:  79%/3554  
  🟩 Clang18            Pass: 100%/7   | Total:  2h 25m | Avg: 20m 49s | Max: 30m 17s | Hits:  85%/12439 
  🟩 GCC7               Pass: 100%/2   | Total: 59m 34s | Avg: 29m 47s | Max: 31m 14s | Hits:  79%/3556  
  🟩 GCC8               Pass: 100%/1   | Total: 29m 09s | Avg: 29m 09s | Max: 29m 09s | Hits:  79%/1778  
  🟩 GCC9               Pass: 100%/2   | Total:  1h 00m | Avg: 30m 27s | Max: 31m 52s | Hits:  79%/3556  
  🟩 GCC10              Pass: 100%/2   | Total:  1h 01m | Avg: 30m 47s | Max: 32m 46s | Hits:  79%/3556  
  🟩 GCC11              Pass: 100%/2   | Total: 57m 06s | Avg: 28m 33s | Max: 28m 56s | Hits:  79%/3556  
  🟩 GCC12              Pass: 100%/2   | Total:  1h 00m | Avg: 30m 19s | Max: 30m 26s | Hits:  79%/3556  
  🟩 GCC13              Pass: 100%/10  | Total:  3h 22m | Avg: 20m 14s | Max: 32m 33s | Hits:  87%/17780 
  🟩 MSVC14.29          Pass: 100%/2   | Total:  1h 31m | Avg: 45m 34s | Max: 46m 48s | Hits:  70%/3542  
  🟩 MSVC14.42          Pass: 100%/3   | Total:  2h 03m | Avg: 41m 12s | Max: 47m 02s | Hits:  70%/5313  
  🟩 NVHPC24.7          Pass: 100%/2   | Total:  1h 31m | Avg: 45m 56s | Max: 47m 11s | Hits:  73%/3554  
🟩 cxx_family
  🟩 Clang              Pass: 100%/17  | Total:  7h 10m | Avg: 25m 18s | Max: 31m 05s | Hits:  81%/30209 
  🟩 GCC                Pass: 100%/21  | Total:  8h 51m | Avg: 25m 17s | Max: 32m 46s | Hits:  83%/37338 
  🟩 MSVC               Pass: 100%/5   | Total:  3h 34m | Avg: 42m 56s | Max: 47m 02s | Hits:  70%/8855  
  🟩 NVHPC              Pass: 100%/2   | Total:  1h 31m | Avg: 45m 56s | Max: 47m 11s | Hits:  73%/3554  
🟩 gpu
  🟩 h100               Pass: 100%/2   | Total: 27m 29s | Avg: 13m 44s | Max: 15m 32s | Hits:  89%/3556  
  🟩 rtx2080            Pass: 100%/33  | Total: 17h 10m | Avg: 31m 14s | Max: 47m 11s | Hits:  78%/58637 
  🟩 rtx4090            Pass: 100%/10  | Total:  3h 29m | Avg: 20m 57s | Max: 47m 02s | Hits:  87%/17763 
🟩 jobs
  🟩 Build              Pass: 100%/38  | Total: 19h 34m | Avg: 30m 54s | Max: 47m 11s | Hits:  78%/67519 
  🟩 TestCPU            Pass: 100%/3   | Total: 48m 09s | Avg: 16m 03s | Max: 33m 09s | Hits:  90%/5326  
  🟩 TestGPU            Pass: 100%/4   | Total: 45m 05s | Avg: 11m 16s | Max: 11m 57s | Hits:  99%/7111  
🟩 sm
  🟩 90                 Pass: 100%/2   | Total: 27m 29s | Avg: 13m 44s | Max: 15m 32s | Hits:  89%/3556  
  🟩 90;90a;100         Pass: 100%/1   | Total: 28m 34s | Avg: 28m 34s | Max: 28m 34s | Hits:  79%/1778  
🟩 std
  🟩 17                 Pass: 100%/20  | Total: 10h 51m | Avg: 32m 33s | Max: 47m 11s | Hits:  77%/35531 
  🟩 20                 Pass: 100%/23  | Total:  9h 41m | Avg: 25m 18s | Max: 47m 02s | Hits:  82%/40869

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 23m 35s | Avg: 11m 47s | Max: 21m 05s | Hits: 97%/320

🟩 cpu
  🟩 amd64              Pass: 100%/2   | Total: 23m 35s | Avg: 11m 47s | Max: 21m 05s | Hits:  97%/320   
🟩 ctk
  🟩 12.8               Pass: 100%/2   | Total: 23m 35s | Avg: 11m 47s | Max: 21m 05s | Hits:  97%/320   
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/2   | Total: 23m 35s | Avg: 11m 47s | Max: 21m 05s | Hits:  97%/320   
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/2   | Total: 23m 35s | Avg: 11m 47s | Max: 21m 05s | Hits:  97%/320   
🟩 cxx
  🟩 GCC13              Pass: 100%/2   | Total: 23m 35s | Avg: 11m 47s | Max: 21m 05s | Hits:  97%/320   
🟩 cxx_family
  🟩 GCC                Pass: 100%/2   | Total: 23m 35s | Avg: 11m 47s | Max: 21m 05s | Hits:  97%/320   
🟩 gpu
  🟩 rtx2080            Pass: 100%/2   | Total: 23m 35s | Avg: 11m 47s | Max: 21m 05s | Hits:  97%/320   
🟩 jobs
  🟩 Build              Pass: 100%/1   | Total:  2m 30s | Avg:  2m 30s | Max:  2m 30s | Hits:  96%/160   
  🟩 Test               Pass: 100%/1   | Total: 21m 05s | Avg: 21m 05s | Max: 21m 05s | Hits:  98%/160

🟩 python: Pass: 100%/1 | Total: 1h 01m | Avg: 1h 01m | Max: 1h 01m

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 ctk
  🟩 12.8               Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 cudacxx
  🟩 nvcc12.8           Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 gpu
  🟩 rtx2080            Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total:  1h 01m | Avg:  1h 01m | Max:  1h 01m

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
	Thrust
	CUDA Experimental
	python
	CCCL C Parallel Library
	Catch2Helper

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
+/-	CUB
+/-	Thrust
	CUDA Experimental
+/-	python
+/-	CCCL C Parallel Library
+/-	Catch2Helper

🏃‍ Runner counts (total jobs: 93)

#	Runner
66	`linux-amd64-cpu16`
9	`windows-amd64-cpu16`
6	`linux-amd64-gpu-rtxa6000-latest-1`
4	`linux-arm64-cpu16`
3	`linux-amd64-gpu-h100-latest-1`
3	`linux-amd64-gpu-rtx4090-latest-1`
2	`linux-amd64-gpu-rtx2080-latest-1`

bernhardmgruber · 2025-03-16T15:31:40Z

@gevtushenko FYI, we have such an offset_iterator: #4073

elstehle · 2025-03-17T05:41:37Z

@gevtushenko FYI, we have such an offset_iterator: #4073

I'm afraid it won't work, since indirect_arg_t doesn't define any of the iterator_traits required by iterator_adaptor, such as value_type.

…VIDIA#3764) * add support for large num segments on device level * adds support for large number of segments on dispatch * refactors offset iterator * add tests for large number of segments * fixes style * renames offset iterator to snake case * rely on ctad instead of factory function * adds tests for more device interfaces * use offset_input_iterator where applicable * [skip-ci] addresses review comments * fixes msvc implicit conversion warning * drops debug print utilities * removes argmin/max wrappers * fixes style * fixes include order * fixes nvrtc * expects user iterators to be advancable on the host * drops redundant include * adds workaround for c.parallel indirect_arg_t * adds todo * uses cuda::std traits * adds missing exec space specifiers

elstehle added 4 commits February 10, 2025 12:16

add support for large num segments on device level

18739d6

adds support for large number of segments on dispatch

cff0814

refactors offset iterator

62d5263

add tests for large number of segments

9a39023

elstehle requested a review from a team as a code owner February 10, 2025 20:57

elstehle requested a review from fbusato February 10, 2025 20:57

fixes style

65ad874

bernhardmgruber reviewed Feb 11, 2025

View reviewed changes

cub/cub/device/dispatch/dispatch_common.cuh Outdated Show resolved Hide resolved

cub/cub/device/dispatch/dispatch_common.cuh Outdated Show resolved Hide resolved

cub/cub/device/dispatch/dispatch_reduce.cuh Outdated Show resolved Hide resolved

elstehle added 3 commits February 11, 2025 00:20

renames offset iterator to snake case

efa8f07

rely on ctad instead of factory function

1f42660

adds tests for more device interfaces

cb65c4c

elstehle requested a review from bernhardmgruber February 11, 2025 08:54

use offset_input_iterator where applicable

0a1ad5a

bernhardmgruber reviewed Feb 11, 2025

View reviewed changes

cub/cub/device/dispatch/dispatch_reduce.cuh Outdated Show resolved Hide resolved

cub/cub/device/dispatch/dispatch_reduce.cuh Outdated Show resolved Hide resolved

[skip-ci] addresses review comments

f96afdd

bernhardmgruber mentioned this pull request Feb 11, 2025

Iterators should be iterators #3767

Closed

elstehle mentioned this pull request Feb 11, 2025

[EPIC]: CUB large input support #50

Open

25 tasks

fixes msvc implicit conversion warning

63c654c

drops debug print utilities

8f05791

elstehle requested a review from bernhardmgruber February 12, 2025 17:59

bernhardmgruber approved these changes Feb 19, 2025

View reviewed changes

cub/test/catch2_test_device_segmented_reduce_large_offsets.cu Outdated Show resolved Hide resolved

elstehle added 3 commits February 19, 2025 04:50

Merge remote-tracking branch 'upstream/main' into enh/large-seg-for-s…

f571f34

…egmented-reduce

removes argmin/max wrappers

8e9e8e0

fixes style

250f6ef

fixes include order

4277b34

Merge remote-tracking branch 'upstream/main' into enh/large-seg-for-s…

2d757af

…egmented-reduce

fixes nvrtc

b1ad690

elstehle force-pushed the enh/large-seg-for-segmented-reduce branch from 6ad4e02 to b1ad690 Compare February 23, 2025 15:07

bernhardmgruber approved these changes Feb 24, 2025

View reviewed changes

cub/cub/device/dispatch/dispatch_common.cuh Outdated Show resolved Hide resolved

elstehle added 4 commits March 3, 2025 21:28

Merge remote-tracking branch 'upstream/main' into enh/large-seg-for-s…

ac95e16

…egmented-reduce

Merge remote-tracking branch 'upstream/main' into enh/large-seg-for-s…

4b98f75

…egmented-reduce

expects user iterators to be advancable on the host

fcaeff0

drops redundant include

a1214a0

oleksandr-pavlyk mentioned this pull request Mar 14, 2025

[FEA]: cccl.c and cuda.parallel should support indirect_iterator_t which can be advance on both host and device to support streaming algorithms #4148

Closed

1 task

elstehle added 3 commits March 14, 2025 13:42

adds workaround for c.parallel indirect_arg_t

a5459d3

adds todo

adf71fc

uses cuda::std traits

7cf8129

adds missing exec space specifiers

f640be9

gevtushenko approved these changes Mar 17, 2025

View reviewed changes

elstehle merged commit b934355 into NVIDIA:main Mar 18, 2025
106 of 108 checks passed

github-project-automation bot moved this from In Review to Done in CCCL Mar 18, 2025

Adds support for large number of segments to DeviceSegmentedReduce #3764

Adds support for large number of segments to DeviceSegmentedReduce #3764

Uh oh!

Conversation

elstehle commented Feb 10, 2025

Description

Uh oh!

github-actions bot commented Feb 10, 2025

🟨 cub: Pass: 90%/44 | Total: 1d 16h | Avg: 54m 36s | Max: 1h 20m | Hits: 69%/48430

🟩 thrust: Pass: 100%/43 | Total: 20h 33m | Avg: 28m 41s | Max: 51m 33s | Hits: 78%/76572

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 10m 47s | Avg: 5m 23s | Max: 8m 18s | Hits: 98%/288

🟩 python: Pass: 100%/1 | Total: 29m 35s | Avg: 29m 35s | Max: 29m 35s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 90)

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

github-actions bot commented Feb 11, 2025

🟨 cub: Pass: 95%/44 | Total: 1d 15h | Avg: 53m 21s | Max: 1h 16m | Hits: 69%/50351

🟨 thrust: Pass: 97%/43 | Total: 20h 31m | Avg: 28m 38s | Max: 56m 13s | Hits: 79%/74797

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 10m 52s | Avg: 5m 26s | Max: 8m 18s | Hits: 98%/288

🟩 python: Pass: 100%/1 | Total: 34m 04s | Avg: 34m 04s | Max: 34m 04s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 90)

Uh oh!

github-actions bot commented Feb 12, 2025

🟨 cub: Pass: 95%/44 | Total: 7h 30m | Avg: 10m 13s | Max: 30m 57s | Hits: 92%/50176

🟩 thrust: Pass: 100%/43 | Total: 6h 15m | Avg: 8m 44s | Max: 34m 34s | Hits: 96%/76572

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 14m 51s | Avg: 7m 25s | Max: 12m 25s | Hits: 98%/288

🟩 python: Pass: 100%/1 | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 90)

Uh oh!

github-actions bot commented Feb 12, 2025

🟩 cub: Pass: 100%/44 | Total: 8h 05m | Avg: 11m 02s | Max: 30m 57s | Hits: 92%/52622

🟩 thrust: Pass: 100%/43 | Total: 6h 15m | Avg: 8m 44s | Max: 34m 34s | Hits: 96%/76572

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 14m 51s | Avg: 7m 25s | Max: 12m 25s | Hits: 98%/288

🟩 python: Pass: 100%/1 | Total: 28m 02s | Avg: 28m 02s | Max: 28m 02s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 90)

Uh oh!

Uh oh!

github-actions bot commented Feb 19, 2025

🟨 cub: Pass: 93%/45 | Total: 1d 15h | Avg: 52m 48s | Max: 1h 15m | Hits: 66%/49714

🟩 thrust: Pass: 100%/45 | Total: 20h 49m | Avg: 27m 46s | Max: 52m 59s | Hits: 79%/80136

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 13m 29s | Avg: 6m 44s | Max: 10m 55s | Hits: 98%/296

🟩 python: Pass: 100%/1 | Total: 31m 08s | Avg: 31m 08s | Max: 31m 08s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 93)

Uh oh!

github-actions bot commented Feb 19, 2025

🟨 cub: Pass: 93%/45 | Total: 13h 29m | Avg: 17m 59s | Max: 1h 20m | Hits: 91%/49714

🟩 thrust: Pass: 100%/45 | Total: 8h 53m | Avg: 11m 51s | Max: 47m 53s | Hits: 95%/80136

🟩 cccl_c_parallel: Pass: 100%/2 | Total: 12m 51s | Avg: 6m 25s | Max: 10m 34s | Hits: 98%/296

🟩 python: Pass: 100%/1 | Total: 35m 10s | Avg: 35m 10s | Max: 35m 10s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 93)

Uh oh!

github-actions bot commented Feb 23, 2025

🟥 cub: Pass: 0%/45 | Total: 23h 08m | Avg: 30m 51s | Max: 1h 16m

🟥 cccl_c_parallel: Pass: 0%/2 | Total: 2m 40s | Avg: 1m 20s | Max: 2m 40s

🟥 python: Pass: 0%/1 | Total: 3m 41s | Avg: 3m 41s | Max: 3m 41s

🟩 thrust: Pass: 100%/45 | Total: 20h 43m | Avg: 27m 37s | Max: 55m 12s | Hits: 78%/80136

👃 Inspect Changes

Modifications in project?

Adds support for large number of segments to `DeviceSegmentedReduce` #3764

Adds support for large number of segments to `DeviceSegmentedReduce` #3764