Task03 Уткин Илья ITMO #107

illided · 2024-09-29T18:08:10Z

Program build log:
Compilation started
Compilation done
Linking started
Linking done
Device build started
Device build done
Kernel <sum_global_atomic> was successfully vectorized (8)
Kernel <sum_cycle> was not vectorized
Kernel <sum_cycle_coalesce> was successfully vectorized (8)
Kernel <sum_local_mem> was successfully vectorized (8)
Kernel <sum_tree> was successfully vectorized (8)
Done.

Runtime:
Бейзлайн. Все операции суммирования стоят в очереди и драйвер никак не захотет это оптимизировать
GPU sum_global_atomic: 2.36046+-0.0251082 s
GPU sum_global_atomic: 42.3647 millions/s

Разбили работу на несколько групп и в разы сократили количество атомарных сложений. Получили существенный буст. Однако судя из билд лога у компиятора не получилось векторизовать эту операцию
GPU sum_cycle: 0.0818463+-0.001403 s
GPU sum_cycle: 1221.8 millions/s

Здесь уже получилось векторизовать кернел, получили еще буст.
GPU sum_cycle_coalesce: 0.0582893+-0.0026487 s
GPU sum_cycle_coalesce: 1715.58 millions/s

Пользуемся локальным кэшем. Удивлен что дало буст учитывая что запускаюсь на цпу. Видимо VRAM мапится в RAM а кэш гпу в кэш процесора.
GPU sum_local_mem: 0.0461117+-0.00118241 s
GPU sum_local_mem: 2168.65 millions/s

Дерево на ЦПУ дает не особо хороший буст по сравнению с бейзлайном.
GPU sum_tree: 0.162337+-0.00387873 s
GPU sum_tree: 616.001 millions/s

simiyutin · 2024-10-05T12:56:53Z

src/main_sum.cpp

+ std::cout << "GPU sum_global_atomic: " << (n/1000.0/1000.0) / t.lapAvg() << " millions/s" << std::endl;
+ }
+
+ { 


В этой и следующей версии один поток выполняет больше работы, сказывается ли это как-то на конфигурации рабочего пространства? (а конфигурация на производительности)

simiyutin · 2024-10-05T12:57:50Z

src/cl/sum.cl

+ if (lid == 0) {
+ unsigned int group_res = 0;
+ for (unsigned int i = 0; i < get_local_size(0); i++) {


Есть ли здесь какое-то отличие между WORKGROUP SIZE и get_local_size?

И если здесь в цикле написать константу времени компиляции то у меня локально кернел ускоряется в три раза (как общее правило по возможности в циклах кернелов стоит писать такие константы, например в виде дефайнов)

initial commit

d9c027b

simiyutin reviewed Oct 5, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Task03 Уткин Илья ITMO #107

Task03 Уткин Илья ITMO #107

illided commented Sep 29, 2024

simiyutin Oct 5, 2024

simiyutin Oct 5, 2024

simiyutin Oct 5, 2024

Task03 Уткин Илья ITMO #107

Are you sure you want to change the base?

Task03 Уткин Илья ITMO #107

Conversation

illided commented Sep 29, 2024

simiyutin Oct 5, 2024

Choose a reason for hiding this comment

simiyutin Oct 5, 2024

Choose a reason for hiding this comment

simiyutin Oct 5, 2024

Choose a reason for hiding this comment