From 42b403df9f7becfa58ab77694e823af1dffb3f68 Mon Sep 17 00:00:00 2001
From: Pratik Nayak <pratikvn@protonmail.com>
Date: Tue, 23 Jul 2024 14:26:32 +0200
Subject: [PATCH] [cuda,hip,dpcpp] disable optimized kernels

---
 CMakeLists.txt                             |   1 -
 core/solver/batch_bicgstab_kernels.hpp     |   5 +-
 core/solver/batch_cg_kernels.hpp           |   5 +-
 cuda/solver/batch_bicgstab_kernels.cu      | 123 +++++++++---------
 cuda/solver/batch_cg_kernels.cu            |  81 ++++++------
 dpcpp/solver/batch_bicgstab_kernels.dp.cpp | 139 ++++++++++-----------
 dpcpp/solver/batch_cg_kernels.dp.cpp       |  90 +++++++------
 hip/solver/batch_bicgstab_kernels.hip.cpp  | 120 +++++++++---------
 hip/solver/batch_cg_kernels.hip.cpp        |  80 ++++++------
 include/ginkgo/config.hpp.in               |   4 -
 10 files changed, 301 insertions(+), 347 deletions(-)

diff --git a/CMakeLists.txt b/CMakeLists.txt
index 1f620346ff5..10f76ac9a6c 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -55,7 +55,6 @@ option(GINKGO_HIP_AMD_UNSAFE_ATOMIC "Compiler uses unsafe floating point atomic
 option(GINKGO_SPLIT_TEMPLATE_INSTANTIATIONS "Split template instantiations for slow-to-compile files. This improves parallel build performance" ON)
 mark_as_advanced(GINKGO_SPLIT_TEMPLATE_INSTANTIATIONS)
 option(GINKGO_JACOBI_FULL_OPTIMIZATIONS "Use all the optimizations for the CUDA Jacobi algorithm" OFF)
-option(GINKGO_BATCHED_FULL_OPTIMIZATIONS "Use all the optimizations for the CUDA/HIP batched solver algorithms" OFF)
 option(BUILD_SHARED_LIBS "Build shared (.so, .dylib, .dll) libraries" ON)
 option(GINKGO_BUILD_HWLOC "Build Ginkgo with HWLOC. Default is OFF." OFF)
 option(GINKGO_BUILD_PAPI_SDE "Build Ginkgo with PAPI SDE. Enabled if a system installation is found." ${PAPI_SDE_FOUND})
diff --git a/core/solver/batch_bicgstab_kernels.hpp b/core/solver/batch_bicgstab_kernels.hpp
index 07ecb1bd834..5bab0e43b26 100644
--- a/core/solver/batch_bicgstab_kernels.hpp
+++ b/core/solver/batch_bicgstab_kernels.hpp
@@ -16,11 +16,8 @@
 #include "core/base/kernel_declaration.hpp"
 
 
-#ifdef GINKGO_BACTCHED_FULL_OPTIMIZATIONS
-constexpr bool bicgstab_no_shared_vecs = false;
-#else
+// TODO: update when splitting kernels
 constexpr bool bicgstab_no_shared_vecs = true;
-#endif
 
 
 namespace gko {
diff --git a/core/solver/batch_cg_kernels.hpp b/core/solver/batch_cg_kernels.hpp
index 028223886fe..031b20b2a61 100644
--- a/core/solver/batch_cg_kernels.hpp
+++ b/core/solver/batch_cg_kernels.hpp
@@ -16,11 +16,8 @@
 #include "core/base/kernel_declaration.hpp"
 
 
-#ifdef GINKGO_BACTCHED_FULL_OPTIMIZATIONS
-constexpr bool cg_no_shared_vecs = false;
-#else
+// TODO: update when splitting compilation
 constexpr bool cg_no_shared_vecs = true;
-#endif
 
 
 namespace gko {
diff --git a/cuda/solver/batch_bicgstab_kernels.cu b/cuda/solver/batch_bicgstab_kernels.cu
index bc12fc7efde..54f489304a7 100644
--- a/cuda/solver/batch_bicgstab_kernels.cu
+++ b/cuda/solver/batch_bicgstab_kernels.cu
@@ -167,76 +167,69 @@ public:
 
         value_type* const workspace_data = workspace.get_data();
 
-        // Only instantiate when full optimizations has been enabled. Otherwise,
-        // just use the default one with no shared memory.
-#ifdef GINKGO_BATCHED_FULL_OPTIMIZATIONS
+        // TODO: split compilation
         // Template parameters launch_apply_kernel<StopType, n_shared,
         // prec_shared>
-        if (sconf.prec_shared) {
-            launch_apply_kernel<StopType, 9, true>(
-                sconf, logger, prec, mat, b.values, x.values, workspace_data,
-                block_size, shared_size);
-        } else {
-            switch (sconf.n_shared) {
-            case 0:
-                launch_apply_kernel<StopType, 0, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 1:
-                launch_apply_kernel<StopType, 1, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 2:
-                launch_apply_kernel<StopType, 2, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 3:
-                launch_apply_kernel<StopType, 3, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 4:
-                launch_apply_kernel<StopType, 4, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 5:
-                launch_apply_kernel<StopType, 5, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 6:
-                launch_apply_kernel<StopType, 6, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 7:
-                launch_apply_kernel<StopType, 7, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 8:
-                launch_apply_kernel<StopType, 8, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 9:
-                launch_apply_kernel<StopType, 9, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            default:
-                GKO_NOT_IMPLEMENTED;
-            }
-        }
-#else
+        // if (sconf.prec_shared) {
+        //     launch_apply_kernel<StopType, 9, true>(
+        //         sconf, logger, prec, mat, b.values, x.values, workspace_data,
+        //         block_size, shared_size);
+        // } else {
+        //     switch (sconf.n_shared) {
+        // case 0:
         launch_apply_kernel<StopType, 0, false>(
             sconf, logger, prec, mat, b.values, x.values, workspace_data,
             block_size, shared_size);
-#endif
+        //         break;
+        //     case 1:
+        //         launch_apply_kernel<StopType, 1, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 2:
+        //         launch_apply_kernel<StopType, 2, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 3:
+        //         launch_apply_kernel<StopType, 3, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 4:
+        //         launch_apply_kernel<StopType, 4, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 5:
+        //         launch_apply_kernel<StopType, 5, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 6:
+        //         launch_apply_kernel<StopType, 6, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 7:
+        //         launch_apply_kernel<StopType, 7, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 8:
+        //         launch_apply_kernel<StopType, 8, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 9:
+        //         launch_apply_kernel<StopType, 9, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     default:
+        //         GKO_NOT_IMPLEMENTED;
+        //     }
+        // }
     }
 
 private:
diff --git a/cuda/solver/batch_cg_kernels.cu b/cuda/solver/batch_cg_kernels.cu
index f09b6c70487..b681bd13ce3 100644
--- a/cuda/solver/batch_cg_kernels.cu
+++ b/cuda/solver/batch_cg_kernels.cu
@@ -165,56 +165,51 @@ public:
 
         value_type* const workspace_data = workspace.get_data();
 
+        // TODO: split compilation
         // Only instantiate when full optimizations has been enabled. Otherwise,
         // just use the default one with no shared memory.
-#ifdef GINKGO_BATCHED_FULL_OPTIMIZATIONS
         // Template parameters launch_apply_kernel<StopType, n_shared,
         // prec_shared>
-        if (sconf.prec_shared) {
-            launch_apply_kernel<StopType, 5, true>(
-                sconf, logger, prec, mat, b.values, x.values, workspace_data,
-                block_size, shared_size);
-        } else {
-            switch (sconf.n_shared) {
-            case 0:
-                launch_apply_kernel<StopType, 0, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 1:
-                launch_apply_kernel<StopType, 1, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 2:
-                launch_apply_kernel<StopType, 2, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 3:
-                launch_apply_kernel<StopType, 3, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 4:
-                launch_apply_kernel<StopType, 4, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 5:
-                launch_apply_kernel<StopType, 5, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            default:
-                GKO_NOT_IMPLEMENTED;
-            }
-        }
-#else
+        // if (sconf.prec_shared) {
+        //     launch_apply_kernel<StopType, 5, true>(
+        //         sconf, logger, prec, mat, b.values, x.values, workspace_data,
+        //         block_size, shared_size);
+        // } else {
+        //     switch (sconf.n_shared) {
+        //     case 0:
         launch_apply_kernel<StopType, 0, false>(
             sconf, logger, prec, mat, b.values, x.values, workspace_data,
             block_size, shared_size);
-#endif
+        //         break;
+        //     case 1:
+        //         launch_apply_kernel<StopType, 1, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 2:
+        //         launch_apply_kernel<StopType, 2, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 3:
+        //         launch_apply_kernel<StopType, 3, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 4:
+        //         launch_apply_kernel<StopType, 4, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 5:
+        //         launch_apply_kernel<StopType, 5, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     default:
+        //         GKO_NOT_IMPLEMENTED;
+        //     }
+        // }
     }
 
 private:
diff --git a/dpcpp/solver/batch_bicgstab_kernels.dp.cpp b/dpcpp/solver/batch_bicgstab_kernels.dp.cpp
index 3b6d5d1c5df..bb84283b49f 100644
--- a/dpcpp/solver/batch_bicgstab_kernels.dp.cpp
+++ b/dpcpp/solver/batch_bicgstab_kernels.dp.cpp
@@ -159,85 +159,80 @@ class kernel_caller {
         ValueType* const workspace_data = workspace.get_data();
         int n_shared_total = sconf.n_shared + int(sconf.prec_shared);
 
+        // TODO: split compilation
         // Only instantiate when full optimizations has been enabled. Otherwise,
         // just use the default one with no shared memory.
-#ifdef GINKGO_BATCHED_FULL_OPTIMIZATIONS
         // template
         // launch_apply_kernel<StopType, subgroup_size, n_shared_total>
-        if (num_rows <= 32 && n_shared_total == 10) {
-            launch_apply_kernel<StopType, 32, 10>(
-                sconf, logger, prec, mat, b.values, x.values, workspace_data,
-                group_size, shared_size);
-        } else if (num_rows <= 256 && n_shared_total == 10) {
-            launch_apply_kernel<StopType, 32, 10>(
-                sconf, logger, prec, mat, b.values, x.values, workspace_data,
-                group_size, shared_size);
-        } else {
-            switch (n_shared_total) {
-            case 0:
-                launch_apply_kernel<StopType, 32, 0>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 1:
-                launch_apply_kernel<StopType, 32, 1>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 2:
-                launch_apply_kernel<StopType, 32, 2>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 3:
-                launch_apply_kernel<StopType, 32, 3>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 4:
-                launch_apply_kernel<StopType, 32, 4>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 5:
-                launch_apply_kernel<StopType, 32, 5>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 6:
-                launch_apply_kernel<StopType, 32, 6>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 7:
-                launch_apply_kernel<StopType, 32, 7>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 8:
-                launch_apply_kernel<StopType, 32, 8>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 9:
-                launch_apply_kernel<StopType, 32, 9>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 10:
-                launch_apply_kernel<StopType, 32, 10>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            default:
-                GKO_NOT_IMPLEMENTED;
-            }
-        }
-#else
+        // if (num_rows <= 32 && n_shared_total == 10) {
+        //     launch_apply_kernel<StopType, 32, 10>(
+        //         sconf, logger, prec, mat, b.values, x.values, workspace_data,
+        //         group_size, shared_size);
+        // } else if (num_rows <= 256 && n_shared_total == 10) {
+        //     launch_apply_kernel<StopType, 32, 10>(
+        //         sconf, logger, prec, mat, b.values, x.values, workspace_data,
+        //         group_size, shared_size);
+        // } else {
+        //     switch (n_shared_total) {
+        //     case 0:
         launch_apply_kernel<StopType, 32, 0>(sconf, logger, prec, mat, b.values,
                                              x.values, workspace_data,
                                              group_size, shared_size);
-#endif
+        //         break;
+        //     case 1:
+        //         launch_apply_kernel<StopType, 32, 1>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     case 2:
+        //         launch_apply_kernel<StopType, 32, 2>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     case 3:
+        //         launch_apply_kernel<StopType, 32, 3>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     case 4:
+        //         launch_apply_kernel<StopType, 32, 4>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     case 5:
+        //         launch_apply_kernel<StopType, 32, 5>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     case 6:
+        //         launch_apply_kernel<StopType, 32, 6>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     case 7:
+        //         launch_apply_kernel<StopType, 32, 7>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     case 8:
+        //         launch_apply_kernel<StopType, 32, 8>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     case 9:
+        //         launch_apply_kernel<StopType, 32, 9>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     case 10:
+        //         launch_apply_kernel<StopType, 32, 10>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     default:
+        //         GKO_NOT_IMPLEMENTED;
+        //     }
+        // }
     }
 
 private:
diff --git a/dpcpp/solver/batch_cg_kernels.dp.cpp b/dpcpp/solver/batch_cg_kernels.dp.cpp
index 36fbe0dc269..61591f9efb6 100644
--- a/dpcpp/solver/batch_cg_kernels.dp.cpp
+++ b/dpcpp/solver/batch_cg_kernels.dp.cpp
@@ -160,59 +160,53 @@ class kernel_caller {
 
         // Only instantiate when full optimizations has been enabled. Otherwise,
         // just use the default one with no shared memory.
-#ifdef GINKGO_BATCHED_FULL_OPTIMIZATIONS
         // template
         // launch_apply_kernel<StopType, subgroup_size, n_shared_total>
-        if (num_rows <= 32 && n_shared_total == 6) {
-            launch_apply_kernel<StopType, 16, 6>(
-                sconf, logger, prec, mat, b.values, x.values, workspace_data,
-                group_size, shared_size);
-        } else {
-            switch (n_shared_total) {
-            case 0:
-                launch_apply_kernel<StopType, 32, 0>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 1:
-                launch_apply_kernel<StopType, 32, 1>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 2:
-                launch_apply_kernel<StopType, 32, 2>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 3:
-                launch_apply_kernel<StopType, 32, 3>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 4:
-                launch_apply_kernel<StopType, 32, 4>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 5:
-                launch_apply_kernel<StopType, 32, 5>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            case 6:
-                launch_apply_kernel<StopType, 32, 6>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, group_size, shared_size);
-                break;
-            default:
-                GKO_NOT_IMPLEMENTED;
-            }
-        }
-#else
+        // if (num_rows <= 32 && n_shared_total == 6) {
+        //     launch_apply_kernel<StopType, 16, 6>(
+        //         sconf, logger, prec, mat, b.values, x.values, workspace_data,
+        //         group_size, shared_size);
+        // } else {
+        //     switch (n_shared_total) {
+        //     case 0:
         launch_apply_kernel<StopType, 32, 0>(sconf, logger, prec, mat, b.values,
                                              x.values, workspace_data,
                                              group_size, shared_size);
-#endif
+        //         break;
+        //     case 1:
+        //         launch_apply_kernel<StopType, 32, 1>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     case 2:
+        //         launch_apply_kernel<StopType, 32, 2>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     case 3:
+        //         launch_apply_kernel<StopType, 32, 3>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     case 4:
+        //         launch_apply_kernel<StopType, 32, 4>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     case 5:
+        //         launch_apply_kernel<StopType, 32, 5>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     case 6:
+        //         launch_apply_kernel<StopType, 32, 6>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, group_size, shared_size);
+        //         break;
+        //     default:
+        //         GKO_NOT_IMPLEMENTED;
+        //     }
+        // }
     }
 
 private:
diff --git a/hip/solver/batch_bicgstab_kernels.hip.cpp b/hip/solver/batch_bicgstab_kernels.hip.cpp
index 54b63983388..ca49fa5eb9c 100644
--- a/hip/solver/batch_bicgstab_kernels.hip.cpp
+++ b/hip/solver/batch_bicgstab_kernels.hip.cpp
@@ -151,74 +151,68 @@ class kernel_caller {
 
         // Only instantiate when full optimizations has been enabled. Otherwise,
         // just use the default one with no shared memory.
-#ifdef GINKGO_BATCHED_FULL_OPTIMIZATIONS
         // Template parameters launch_apply_kernel<StopType, n_shared,
         // prec_shared)
-        if (sconf.prec_shared) {
-            launch_apply_kernel<StopType, 9, true>(
-                sconf, logger, prec, mat, b.values, x.values, workspace_data,
-                block_size, shared_size);
-        } else {
-            switch (sconf.n_shared) {
-            case 0:
-                launch_apply_kernel<StopType, 0, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 1:
-                launch_apply_kernel<StopType, 1, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 2:
-                launch_apply_kernel<StopType, 2, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 3:
-                launch_apply_kernel<StopType, 3, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 4:
-                launch_apply_kernel<StopType, 4, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 5:
-                launch_apply_kernel<StopType, 5, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 6:
-                launch_apply_kernel<StopType, 6, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 7:
-                launch_apply_kernel<StopType, 7, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 8:
-                launch_apply_kernel<StopType, 8, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 9:
-                launch_apply_kernel<StopType, 9, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            default:
-                GKO_NOT_IMPLEMENTED;
-            }
-        }
-#else
+        // if (sconf.prec_shared) {
+        //     launch_apply_kernel<StopType, 9, true>(
+        //         sconf, logger, prec, mat, b.values, x.values, workspace_data,
+        //         block_size, shared_size);
+        // } else {
+        //     switch (sconf.n_shared) {
+        //     case 0:
         launch_apply_kernel<StopType, 0, false>(
             sconf, logger, prec, mat, b.values, x.values, workspace_data,
             block_size, shared_size);
-#endif
+        //         break;
+        //     case 1:
+        //         launch_apply_kernel<StopType, 1, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 2:
+        //         launch_apply_kernel<StopType, 2, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 3:
+        //         launch_apply_kernel<StopType, 3, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 4:
+        //         launch_apply_kernel<StopType, 4, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 5:
+        //         launch_apply_kernel<StopType, 5, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 6:
+        //         launch_apply_kernel<StopType, 6, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 7:
+        //         launch_apply_kernel<StopType, 7, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 8:
+        //         launch_apply_kernel<StopType, 8, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 9:
+        //         launch_apply_kernel<StopType, 9, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     default:
+        //         GKO_NOT_IMPLEMENTED;
+        //     }
+        // }
     }
 
 private:
diff --git a/hip/solver/batch_cg_kernels.hip.cpp b/hip/solver/batch_cg_kernels.hip.cpp
index 290fd72b9f7..3a1642edfea 100644
--- a/hip/solver/batch_cg_kernels.hip.cpp
+++ b/hip/solver/batch_cg_kernels.hip.cpp
@@ -151,54 +151,48 @@ class kernel_caller {
 
         // Only instantiate when full optimizations has been enabled. Otherwise,
         // just use the default one with no shared memory.
-#ifdef GINKGO_BATCHED_FULL_OPTIMIZATIONS
         // Template parameters launch_apply_kernel<StopType, n_shared,
         // prec_shared)
-        if (sconf.prec_shared) {
-            launch_apply_kernel<StopType, 5, true>(
-                sconf, logger, prec, mat, b.values, x.values, workspace_data,
-                block_size, shared_size);
-        } else {
-            switch (sconf.n_shared) {
-            case 0:
-                launch_apply_kernel<StopType, 0, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 1:
-                launch_apply_kernel<StopType, 1, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 2:
-                launch_apply_kernel<StopType, 2, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 3:
-                launch_apply_kernel<StopType, 3, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 4:
-                launch_apply_kernel<StopType, 4, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            case 5:
-                launch_apply_kernel<StopType, 5, false>(
-                    sconf, logger, prec, mat, b.values, x.values,
-                    workspace_data, block_size, shared_size);
-                break;
-            default:
-                GKO_NOT_IMPLEMENTED;
-            }
-        }
-#else
+        // if (sconf.prec_shared) {
+        //     launch_apply_kernel<StopType, 5, true>(
+        //         sconf, logger, prec, mat, b.values, x.values, workspace_data,
+        //         block_size, shared_size);
+        // } else {
+        //     switch (sconf.n_shared) {
+        //     case 0:
         launch_apply_kernel<StopType, 0, false>(
             sconf, logger, prec, mat, b.values, x.values, workspace_data,
             block_size, shared_size);
-#endif
+        //         break;
+        //     case 1:
+        //         launch_apply_kernel<StopType, 1, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 2:
+        //         launch_apply_kernel<StopType, 2, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 3:
+        //         launch_apply_kernel<StopType, 3, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 4:
+        //         launch_apply_kernel<StopType, 4, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     case 5:
+        //         launch_apply_kernel<StopType, 5, false>(
+        //             sconf, logger, prec, mat, b.values, x.values,
+        //             workspace_data, block_size, shared_size);
+        //         break;
+        //     default:
+        //         GKO_NOT_IMPLEMENTED;
+        //     }
+        // }
     }
 
 private:
diff --git a/include/ginkgo/config.hpp.in b/include/ginkgo/config.hpp.in
index 4eb3106633f..329918399d6 100644
--- a/include/ginkgo/config.hpp.in
+++ b/include/ginkgo/config.hpp.in
@@ -31,10 +31,6 @@
 #cmakedefine GINKGO_JACOBI_FULL_OPTIMIZATIONS
 
 
-/* Should we use all optimizations for batched solvers? */
-#cmakedefine GINKGO_BATCHED_FULL_OPTIMIZATIONS
-
-
 /* Should we compile Ginkgo specifically to tune values? */
 #cmakedefine GINKGO_BENCHMARK_ENABLE_TUNING