Optimize `merge` algorithm for data sizes equal or greater then 4M items #1933

SergeyKopienko · 2024-11-06T16:10:01Z

In this PR we optimize merge algorithm for data sizes equal or greater then 4M items.
The main idea - we doing two submits:

in the first submit we find split point in some "base" diagonal's subset.
in the second submit we find split points in all other diagonal and run serial merge for each diagonal (as before).
But when we find split point on the current diagonal, we setup some indexes limits for rng1 and 'rng2'.
For these limits we load split point's data from previous and next "base" diagonals, calculated on the step (1).

Applying this approach we have good perf profit for biggest data sizes with float and int data types.

As additional profit, we have sign performance boost for small and middle data sizes in the merge_sort algorithm.

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h

danhoeflinger · 2024-11-08T14:11:19Z

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h

+                auto __scratch_idx = __global_idx / __base_diag_part;
+
+                _split_point_t __start;
+                if (__global_idx % __base_diag_part != 0)


We discussed offline about the approach to partition based on SLM size and then work within the partitioned blocks in the second kernel.

One advantage of this method (beyond working within SLM for all diagonals in this kernel) would be that there would be no work-item divergence with a branch and mod operation like this. The first partitioning kernel would be lightweight and basically only to establish bounds for the second kernel. Then the second kernel would work within SLM loaded data and search for all diagonals within that block then serial merge, and all work items could be the same (with possible exception for the zeroth work item).

mmichel11 · 2024-11-13T22:49:54Z

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h

+                std::forward<_ExecutionPolicy>(__exec), std::forward<_Range1>(__rng1), std::forward<_Range2>(__rng2),
+                std::forward<_Range3>(__rng3), __comp);
+        }
+        else


Can we remove this else branch and its kernel? std::uint32_t has a well-defined maximum, and we know __n < 4 * 1'048'576 in this branch, so it can always be indexed with this type.

Good point.
But another solution - we may use std::uint16_t type too for smaller data sizes.

Do you have an estimate of how much performance benefit the 16-bit indexing kernel brings? I think it would be best to weigh the impact of this kernel against the increase in JIT time. If the performance benefit is significant, then I am in favor of keeping it.

No perf profit, removed.

…introduce new function __find_start_point_in Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…introduce __parallel_merge_submitter_large for merge of biggest data sizes Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…using __parallel_merge_submitter_large for merge data equal or greater then 4M items Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…fix compile error Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…fix Kernel names Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…rename template parameter names in __parallel_merge_submitter Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

…fix review comment Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

SergeyKopienko requested review from dmitriy-sobolev, danhoeflinger, mmichel11 and MikeDvorskiy November 6, 2024 16:10

SergeyKopienko added this to the 2022.8.0 milestone Nov 6, 2024

SergeyKopienko force-pushed the dev/skopienko/optimize_merge_to_main branch 5 times, most recently from a6164fd to d4721ca Compare November 7, 2024 12:24

SergeyKopienko commented Nov 7, 2024

View reviewed changes

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h Outdated Show resolved Hide resolved

SergeyKopienko commented Nov 8, 2024

View reviewed changes

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h Outdated Show resolved Hide resolved

danhoeflinger reviewed Nov 8, 2024

View reviewed changes

mmichel11 reviewed Nov 13, 2024

View reviewed changes

SergeyKopienko force-pushed the dev/skopienko/optimize_merge_to_main branch from 0eb4649 to 129898c Compare November 18, 2024 15:10

SergeyKopienko added 8 commits November 18, 2024 16:23

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

cba1cf1

…introduce new function __find_start_point_in Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

c1f57b3

…introduce __parallel_merge_submitter_large for merge of biggest data sizes Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

5f1166d

…using __parallel_merge_submitter_large for merge data equal or greater then 4M items Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

Apply GitHUB clang format

3ac9a22

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

d4abbd4

…fix compile error Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

ae29465

…fix Kernel names Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

608517b

…rename template parameter names in __parallel_merge_submitter Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

Apply GitHUB clang format

9125e30

Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

SergeyKopienko force-pushed the dev/skopienko/optimize_merge_to_main branch from d8366c3 to 58eacbf Compare November 18, 2024 15:23

SergeyKopienko mentioned this pull request Nov 18, 2024

Optimize merge algorithm for data sizes equal or greater then 4M items with SLM cache usage #1937

Draft

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

1b6cd34

…fix review comment Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

SergeyKopienko force-pushed the dev/skopienko/optimize_merge_to_main branch from 8f756f0 to 1b6cd34 Compare November 19, 2024 08:24

include/oneapi/dpl/pstl/hetero/dpcpp/parallel_backend_sycl_merge.h - …

eebf508

…fix review comment Signed-off-by: Sergey Kopienko <sergey.kopienko@intel.com>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Optimize `merge` algorithm for data sizes equal or greater then 4M items #1933

Optimize `merge` algorithm for data sizes equal or greater then 4M items #1933

SergeyKopienko commented Nov 6, 2024 •

edited

Loading

danhoeflinger Nov 8, 2024

mmichel11 Nov 13, 2024

SergeyKopienko Nov 18, 2024

mmichel11 Nov 19, 2024

SergeyKopienko Nov 19, 2024

Optimize merge algorithm for data sizes equal or greater then 4M items #1933

Are you sure you want to change the base?

Optimize merge algorithm for data sizes equal or greater then 4M items #1933

Conversation

SergeyKopienko commented Nov 6, 2024 • edited Loading

danhoeflinger Nov 8, 2024

Choose a reason for hiding this comment

mmichel11 Nov 13, 2024

Choose a reason for hiding this comment

SergeyKopienko Nov 18, 2024

Choose a reason for hiding this comment

mmichel11 Nov 19, 2024

Choose a reason for hiding this comment

SergeyKopienko Nov 19, 2024

Choose a reason for hiding this comment

Optimize `merge` algorithm for data sizes equal or greater then 4M items #1933

Optimize `merge` algorithm for data sizes equal or greater then 4M items #1933

SergeyKopienko commented Nov 6, 2024 •

edited

Loading