Update lapack tests to manage queue syncs

Signed-off-by: JackAKirk <jack.kirk@codeplay.com>
oneapi-src · Sep 19, 2024 · a28cd4d · a28cd4d
1 parent 44867dc
commit a28cd4d
Show file tree

Hide file tree

Showing 46 changed files with 138 additions and 0 deletions.
diff --git a/tests/unit_tests/lapack/source/gebrd.cpp b/tests/unit_tests/lapack/source/gebrd.cpp
@@ -76,6 +76,7 @@ bool accuracy(const sycl::device& dev, int64_t m, int64_t n, int64_t lda, uint64
         TEST_RUN_LAPACK_CT_SELECT(
             queue, scratchpad_size = oneapi::mkl::lapack::gebrd_scratchpad_size<fp>, m, n, lda);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -149,6 +150,7 @@ bool usm_dependency(const sycl::device& dev, int64_t m, int64_t n, int64_t lda,
         TEST_RUN_LAPACK_CT_SELECT(
             queue, scratchpad_size = oneapi::mkl::lapack::gebrd_scratchpad_size<fp>, m, n, lda);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -166,6 +168,7 @@ bool usm_dependency(const sycl::device& dev, int64_t m, int64_t n, int64_t lda,
                                   d_dev, e_dev, tauq_dev, taup_dev, scratchpad_dev, scratchpad_size,
                                   std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/geqrf.cpp b/tests/unit_tests/lapack/source/geqrf.cpp
@@ -68,6 +68,7 @@ bool accuracy(const sycl::device& dev, int64_t m, int64_t n, int64_t lda, uint64
         TEST_RUN_LAPACK_CT_SELECT(
             queue, scratchpad_size = oneapi::mkl::lapack::geqrf_scratchpad_size<fp>, m, n, lda);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -125,6 +126,7 @@ bool usm_dependency(const sycl::device& dev, int64_t m, int64_t n, int64_t lda,
         TEST_RUN_LAPACK_CT_SELECT(
             queue, scratchpad_size = oneapi::mkl::lapack::geqrf_scratchpad_size<fp>, m, n, lda);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -142,6 +144,7 @@ bool usm_dependency(const sycl::device& dev, int64_t m, int64_t n, int64_t lda,
                                   tau_dev, scratchpad_dev, scratchpad_size,
                                   std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/geqrf_batch_group.cpp b/tests/unit_tests/lapack/source/geqrf_batch_group.cpp
@@ -103,6 +103,7 @@ bool accuracy(const sycl::device& dev, uint64_t seed) {
             queue, scratchpad_size = oneapi::mkl::lapack::geqrf_batch_scratchpad_size<fp>,
             m_vec.data(), n_vec.data(), lda_vec.data(), group_count, group_sizes_vec.data());
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<fp>(queue, scratchpad_size);
 
         auto A_dev_iter = A_dev_list.begin();
@@ -241,6 +242,7 @@ bool usm_dependency(const sycl::device& dev, uint64_t seed) {
             queue, scratchpad_size = oneapi::mkl::lapack::geqrf_batch_scratchpad_size<fp>,
             m_vec.data(), n_vec.data(), lda_vec.data(), group_count, group_sizes_vec.data());
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<fp>(queue, scratchpad_size);
 
         auto A_dev_iter = A_dev_list.begin();
@@ -271,6 +273,7 @@ bool usm_dependency(const sycl::device& dev, uint64_t seed) {
                                   tau_dev_ptrs, group_count, group_sizes_vec.data(), scratchpad_dev,
                                   scratchpad_size, std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/geqrf_batch_stride.cpp b/tests/unit_tests/lapack/source/geqrf_batch_stride.cpp
@@ -69,6 +69,7 @@ bool accuracy(const sycl::device& dev, int64_t m, int64_t n, int64_t lda, int64_
             queue, scratchpad_size = oneapi::mkl::lapack::geqrf_batch_scratchpad_size<fp>, m, n,
             lda, stride_a, stride_tau, batch_size);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -142,6 +143,7 @@ bool usm_dependency(const sycl::device& dev, int64_t m, int64_t n, int64_t lda,
             queue, scratchpad_size = oneapi::mkl::lapack::geqrf_batch_scratchpad_size<fp>, m, n,
             lda, stride_a, stride_tau, batch_size);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -159,6 +161,7 @@ bool usm_dependency(const sycl::device& dev, int64_t m, int64_t n, int64_t lda,
                                   lda, stride_a, tau_dev, stride_tau, batch_size, scratchpad_dev,
                                   scratchpad_size, std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/gerqf.cpp b/tests/unit_tests/lapack/source/gerqf.cpp
@@ -68,6 +68,7 @@ bool accuracy(const sycl::device& dev, int64_t m, int64_t n, int64_t lda, uint64
         TEST_RUN_LAPACK_CT_SELECT(
             queue, scratchpad_size = oneapi::mkl::lapack::gerqf_scratchpad_size<fp>, m, n, lda);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -125,6 +126,7 @@ bool usm_dependency(const sycl::device& dev, int64_t m, int64_t n, int64_t lda,
         TEST_RUN_LAPACK_CT_SELECT(
             queue, scratchpad_size = oneapi::mkl::lapack::gerqf_scratchpad_size<fp>, m, n, lda);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -142,6 +144,7 @@ bool usm_dependency(const sycl::device& dev, int64_t m, int64_t n, int64_t lda,
                                   tau_dev, scratchpad_dev, scratchpad_size,
                                   std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/gesvd.cpp b/tests/unit_tests/lapack/source/gesvd.cpp
@@ -79,6 +79,7 @@ bool accuracy(const sycl::device& dev, oneapi::mkl::jobsvd jobu, oneapi::mkl::jo
                                   scratchpad_size = oneapi::mkl::lapack::gesvd_scratchpad_size<fp>,
                                   jobu, jobvt, m, n, lda, ldu, ldvt);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -201,6 +202,7 @@ bool usm_dependency(const sycl::device& dev, oneapi::mkl::jobsvd jobu, oneapi::m
                                   scratchpad_size = oneapi::mkl::lapack::gesvd_scratchpad_size<fp>,
                                   jobu, jobvt, m, n, lda, ldu, ldvt);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -218,6 +220,7 @@ bool usm_dependency(const sycl::device& dev, oneapi::mkl::jobsvd jobu, oneapi::m
                                   A_dev, lda, s_dev, U_dev, ldu, Vt_dev, ldvt, scratchpad_dev,
                                   scratchpad_size, std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/getrf.cpp b/tests/unit_tests/lapack/source/getrf.cpp
@@ -71,6 +71,7 @@ bool accuracy(const sycl::device& dev, int64_t m, int64_t n, int64_t lda, uint64
         TEST_RUN_LAPACK_CT_SELECT(
             queue, scratchpad_size = oneapi::mkl::lapack::getrf_scratchpad_size<fp>, m, n, lda);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -128,6 +129,7 @@ bool usm_dependency(const sycl::device& dev, int64_t m, int64_t n, int64_t lda,
         TEST_RUN_LAPACK_CT_SELECT(
             queue, scratchpad_size = oneapi::mkl::lapack::getrf_scratchpad_size<fp>, m, n, lda);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -145,6 +147,7 @@ bool usm_dependency(const sycl::device& dev, int64_t m, int64_t n, int64_t lda,
                                   ipiv_dev, scratchpad_dev, scratchpad_size,
                                   std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/getrf_batch_group.cpp b/tests/unit_tests/lapack/source/getrf_batch_group.cpp
@@ -107,6 +107,7 @@ bool accuracy(const sycl::device& dev, uint64_t seed) {
             queue, scratchpad_size = oneapi::mkl::lapack::getrf_batch_scratchpad_size<fp>,
             m_vec.data(), n_vec.data(), lda_vec.data(), group_count, group_sizes_vec.data());
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<fp>(queue, scratchpad_size);
 
         auto A_dev_iter = A_dev_list.begin();
@@ -250,6 +251,7 @@ bool usm_dependency(const sycl::device& dev, uint64_t seed) {
             queue, scratchpad_size = oneapi::mkl::lapack::getrf_batch_scratchpad_size<fp>,
             m_vec.data(), n_vec.data(), lda_vec.data(), group_count, group_sizes_vec.data());
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<fp>(queue, scratchpad_size);
 
         auto A_dev_iter = A_dev_list.begin();
@@ -280,6 +282,7 @@ bool usm_dependency(const sycl::device& dev, uint64_t seed) {
             A_dev_ptrs, lda_vec.data(), ipiv_dev_ptrs, group_count, group_sizes_vec.data(),
             scratchpad_dev, scratchpad_size, std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/getrf_batch_stride.cpp b/tests/unit_tests/lapack/source/getrf_batch_stride.cpp
@@ -69,6 +69,7 @@ bool accuracy(const sycl::device& dev, int64_t m, int64_t n, int64_t lda, int64_
             queue, scratchpad_size = oneapi::mkl::lapack::getrf_batch_scratchpad_size<fp>, m, n,
             lda, stride_a, stride_ipiv, batch_size);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -142,6 +143,7 @@ bool usm_dependency(const sycl::device& dev, int64_t m, int64_t n, int64_t lda,
             queue, scratchpad_size = oneapi::mkl::lapack::getrf_batch_scratchpad_size<fp>, m, n,
             lda, stride_a, stride_ipiv, batch_size);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -159,6 +161,7 @@ bool usm_dependency(const sycl::device& dev, int64_t m, int64_t n, int64_t lda,
                                   lda, stride_a, ipiv_dev, stride_ipiv, batch_size, scratchpad_dev,
                                   scratchpad_size, std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/getri.cpp b/tests/unit_tests/lapack/source/getri.cpp
@@ -76,6 +76,7 @@ bool accuracy(const sycl::device& dev, int64_t n, int64_t lda, uint64_t seed) {
         TEST_RUN_LAPACK_CT_SELECT(
             queue, scratchpad_size = oneapi::mkl::lapack::getri_scratchpad_size<fp>, n, lda);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -138,6 +139,7 @@ bool usm_dependency(const sycl::device& dev, int64_t n, int64_t lda, uint64_t se
         TEST_RUN_LAPACK_CT_SELECT(
             queue, scratchpad_size = oneapi::mkl::lapack::getri_scratchpad_size<fp>, n, lda);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -156,6 +158,7 @@ bool usm_dependency(const sycl::device& dev, int64_t n, int64_t lda, uint64_t se
                                   ipiv_dev, scratchpad_dev, scratchpad_size,
                                   std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/getri_batch_group.cpp b/tests/unit_tests/lapack/source/getri_batch_group.cpp
@@ -114,6 +114,7 @@ bool accuracy(const sycl::device& dev, uint64_t seed) {
             queue, scratchpad_size = oneapi::mkl::lapack::getri_batch_scratchpad_size<fp>,
             n_vec.data(), lda_vec.data(), group_count, group_sizes_vec.data());
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<fp>(queue, scratchpad_size);
 
         auto A_dev_iter = A_dev_list.begin();
@@ -262,6 +263,7 @@ bool usm_dependency(const sycl::device& dev, uint64_t seed) {
             queue, scratchpad_size = oneapi::mkl::lapack::getri_batch_scratchpad_size<fp>,
             n_vec.data(), lda_vec.data(), group_count, group_sizes_vec.data());
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<fp>(queue, scratchpad_size);
 
         auto A_dev_iter = A_dev_list.begin();
@@ -295,6 +297,7 @@ bool usm_dependency(const sycl::device& dev, uint64_t seed) {
                                   group_count, group_sizes_vec.data(), scratchpad_dev,
                                   scratchpad_size, std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/getri_batch_stride.cpp b/tests/unit_tests/lapack/source/getri_batch_stride.cpp
@@ -76,6 +76,7 @@ bool accuracy(const sycl::device& dev, int64_t n, int64_t lda, int64_t stride_a,
             queue, scratchpad_size = oneapi::mkl::lapack::getri_batch_scratchpad_size<fp>, n, lda,
             stride_a, stride_ipiv, batch_size);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -156,6 +157,7 @@ bool usm_dependency(const sycl::device& dev, int64_t n, int64_t lda, int64_t str
             queue, scratchpad_size = oneapi::mkl::lapack::getri_batch_scratchpad_size<fp>, n, lda,
             stride_a, stride_ipiv, batch_size);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -174,6 +176,7 @@ bool usm_dependency(const sycl::device& dev, int64_t n, int64_t lda, int64_t str
                                   lda, stride_a, ipiv_dev, stride_ipiv, batch_size, scratchpad_dev,
                                   scratchpad_size, std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/getrs.cpp b/tests/unit_tests/lapack/source/getrs.cpp
@@ -77,6 +77,7 @@ bool accuracy(const sycl::device& dev, oneapi::mkl::transpose trans, int64_t n,
                                   scratchpad_size = oneapi::mkl::lapack::getrs_scratchpad_size<fp>,
                                   trans, n, nrhs, lda, ldb);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -149,6 +150,7 @@ bool usm_dependency(const sycl::device& dev, oneapi::mkl::transpose trans, int64
                                   scratchpad_size = oneapi::mkl::lapack::getrs_scratchpad_size<fp>,
                                   trans, n, nrhs, lda, ldb);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -168,6 +170,7 @@ bool usm_dependency(const sycl::device& dev, oneapi::mkl::transpose trans, int64
                                   A_dev, lda, ipiv_dev, B_dev, ldb, scratchpad_dev, scratchpad_size,
                                   std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/getrs_batch_group.cpp b/tests/unit_tests/lapack/source/getrs_batch_group.cpp
@@ -137,6 +137,7 @@ bool accuracy(const sycl::device& dev, uint64_t seed) {
             trans_vec.data(), n_vec.data(), nrhs_vec.data(), lda_vec.data(), ldb_vec.data(),
             group_count, group_sizes_vec.data());
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<fp>(queue, scratchpad_size);
 
         auto A_dev_iter = A_dev_list.begin();
@@ -323,6 +324,7 @@ bool usm_dependency(const sycl::device& dev, uint64_t seed) {
             trans_vec.data(), n_vec.data(), nrhs_vec.data(), lda_vec.data(), ldb_vec.data(),
             group_count, group_sizes_vec.data());
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<fp>(queue, scratchpad_size);
 
         auto A_dev_iter = A_dev_list.begin();
@@ -362,6 +364,7 @@ bool usm_dependency(const sycl::device& dev, uint64_t seed) {
                                   group_count, group_sizes_vec.data(), scratchpad_dev,
                                   scratchpad_size, std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/getrs_batch_stride.cpp b/tests/unit_tests/lapack/source/getrs_batch_stride.cpp
@@ -82,6 +82,7 @@ bool accuracy(const sycl::device& dev, oneapi::mkl::transpose trans, int64_t n,
             queue, scratchpad_size = oneapi::mkl::lapack::getrs_batch_scratchpad_size<fp>, trans, n,
             nrhs, lda, stride_a, stride_ipiv, ldb, stride_b, batch_size);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -171,6 +172,7 @@ bool usm_dependency(const sycl::device& dev, oneapi::mkl::transpose trans, int64
             queue, scratchpad_size = oneapi::mkl::lapack::getrs_batch_scratchpad_size<fp>, trans, n,
             nrhs, lda, stride_a, stride_ipiv, ldb, stride_b, batch_size);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -192,6 +194,7 @@ bool usm_dependency(const sycl::device& dev, oneapi::mkl::transpose trans, int64
                                   stride_b, batch_size, scratchpad_dev, scratchpad_size,
                                   std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();

diff --git a/tests/unit_tests/lapack/source/heevd.cpp b/tests/unit_tests/lapack/source/heevd.cpp
@@ -66,6 +66,7 @@ bool accuracy(const sycl::device& dev, oneapi::mkl::job jobz, oneapi::mkl::uplo
                                   scratchpad_size = oneapi::mkl::lapack::heevd_scratchpad_size<fp>,
                                   jobz, uplo, n, lda);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -124,6 +125,7 @@ bool usm_dependency(const sycl::device& dev, oneapi::mkl::job jobz, oneapi::mkl:
                                   scratchpad_size = oneapi::mkl::lapack::heevd_scratchpad_size<fp>,
                                   jobz, uplo, n, lda);
 #endif
+        queue.wait_and_throw();
         auto scratchpad_dev = device_alloc<data_T>(queue, scratchpad_size);
 
         host_to_device_copy(queue, A.data(), A_dev, A.size());
@@ -141,6 +143,7 @@ bool usm_dependency(const sycl::device& dev, oneapi::mkl::job jobz, oneapi::mkl:
                                   A_dev, lda, w_dev, scratchpad_dev, scratchpad_size,
                                   std::vector<sycl::event>{ in_event });
 #endif
+        queue.wait_and_throw();
         result = check_dependency(queue, in_event, func_event);
 
         queue.wait_and_throw();