Oneflow-Inc · oneflow-ci-bot · Dec 17, 2021 · Dec 16, 2021 · Dec 16, 2021
@@ -72,6 +72,8 @@ class CudaStream : public Stream {
   explicit CudaStream(CudaDevice* device);
   ~CudaStream() override;
 
+  static constexpr uint32_t kDefaultBlockSize = 256;
+
   DeviceType device_type() const override;
   Device* device() const override;
   Maybe<void> Sync() override;
@@ -106,7 +108,7 @@ class CudaStream : public Stream {
 
   template<typename... Params, typename... Args>
   void LaunchKernel(void (*kernel)(Params...), size_t elem_cnt, size_t max_waves, Args... args) {
-    constexpr uint32_t block_size = 256;
+    constexpr uint32_t block_size = kDefaultBlockSize;
     CudaLaunchConfig config{};
     InitLaunchConfigWithWaves(&config, elem_cnt, block_size, max_waves);
     LaunchKernel(kernel, config, args...);

@@ -24,7 +24,7 @@ namespace {
 template<typename T>
 __global__ void L2NormalizeForward(const int32_t n, const int32_t c, const int32_t d,
                                    const T epsilon, const T* in, T* square_x_sum, T* out) {
-  using BlockReduce = cub::BlockReduce<T, kCudaThreadsNumPerBlock>;
+  using BlockReduce = cub::BlockReduce<T, ep::CudaStream::kDefaultBlockSize>;
   __shared__ typename BlockReduce::TempStorage temp_storage;
 
   for (int32_t i = blockIdx.x; i < n; i += gridDim.x) {
@@ -54,7 +54,7 @@ __global__ void L2NormalizeBackward(const int32_t n, const int32_t c, const int3
     const T inv_norm = rsqrt(fmaxf(square_x_sum[i], epsilon));
     const int32_t offset = (i / d) * d * c + (i % d);
     if (square_x_sum[i] >= epsilon) {
-      using BlockReduce = cub::BlockReduce<T, kCudaThreadsNumPerBlock>;
+      using BlockReduce = cub::BlockReduce<T, ep::CudaStream::kDefaultBlockSize>;
       __shared__ typename BlockReduce::TempStorage temp_storage_prod_sum;
 
       T y_dy_prod_sum = GetZeroVal<T>();