pytorch
diff --git a/‎fbgemm_gpu/codegen/embedding_backward_code_generator.py‎
Lines changed: 3 additions & 3 deletions b/‎fbgemm_gpu/codegen/embedding_backward_code_generator.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎fbgemm_gpu/codegen/embedding_backward_dense_host_cpu.cpp‎
Lines changed: 7 additions & 1 deletion b/‎fbgemm_gpu/codegen/embedding_backward_dense_host_cpu.cpp‎
Lines changed: 7 additions & 1 deletion
diff --git a/‎fbgemm_gpu/codegen/embedding_backward_split_cpu_approx_template.cpp‎
Lines changed: 11 additions & 7 deletions b/‎fbgemm_gpu/codegen/embedding_backward_split_cpu_approx_template.cpp‎
Lines changed: 11 additions & 7 deletions
diff --git a/‎fbgemm_gpu/codegen/embedding_backward_split_cpu_template.cpp‎
Lines changed: 46 additions & 36 deletions b/‎fbgemm_gpu/codegen/embedding_backward_split_cpu_template.cpp‎
Lines changed: 46 additions & 36 deletions
diff --git a/‎fbgemm_gpu/codegen/embedding_backward_split_host_cpu_template.cpp‎
Lines changed: 14 additions & 6 deletions b/‎fbgemm_gpu/codegen/embedding_backward_split_host_cpu_template.cpp‎
Lines changed: 14 additions & 6 deletions
diff --git a/‎fbgemm_gpu/codegen/embedding_backward_split_indice_weights_template.cu‎
Lines changed: 10 additions & 10 deletions b/‎fbgemm_gpu/codegen/embedding_backward_split_indice_weights_template.cu‎
Lines changed: 10 additions & 10 deletions
@@ -400,14 +400,14 @@ def rowwise_adagrad() -> None:
     multiplier = shfl_sync(multiplier, 0);
     """
     split_weight_update_cpu = """
-        at::acc_type<scalar_t, true> g_local_sum_square = 0.0;
+        at::acc_type<grad_t, true> g_local_sum_square = 0.0;
         for (int64_t d = 0; d < D; ++d) {
             g_local_sum_square += grad_buffer[d] * grad_buffer[d];
         }
         auto g_avg_square = g_local_sum_square / D;
-        at::acc_type<scalar_t, true> new_sum_square_grads = momentum1_host[momentum1_offsets_data[feature_begin] + idx] + g_avg_square;
+        at::acc_type<grad_t, true> new_sum_square_grads = momentum1_host[momentum1_offsets_data[feature_begin] + idx] + g_avg_square;
         momentum1_host[momentum1_offsets_data[feature_begin] + idx] = new_sum_square_grads;
-        at::acc_type<scalar_t, true> multiplier;
+        at::acc_type<grad_t, true> multiplier;
         multiplier = learning_rate / (sqrtf(new_sum_square_grads) + eps);
         for (int64_t d = 0; d < D; ++d) {
             host_weights_data[embedding_begin + d] -= grad_buffer[d] * multiplier;
 
@@ -65,6 +65,11 @@ class SplitLookupFunction_Dense_Op
     ctx->saved_data["total_hash_size_bits"] = total_hash_size_bits;
     ctx->saved_data["pooling_mode"] = pooling_mode;
 
+    int64_t output_dtype = -1 /* double */;
+    if (host_weights.scalar_type() == at::kHalf ||
+        host_weights.scalar_type() == at::ScalarType::Byte) {
+      output_dtype = static_cast<int64_t>(SparseType::FP32);
+    }
     return {split_embedding_codegen_forward_cpu(
         host_weights,
         weights_offsets,
@@ -74,7 +79,8 @@ class SplitLookupFunction_Dense_Op
         indices,
         offsets,
         pooling_mode,
-        indice_weights_value)};
+        indice_weights_value,
+        output_dtype)};
   }
 
   static torch::autograd::variable_list backward(
 
@@ -43,8 +43,8 @@ void split_embedding_backward_approx_cpu_kernel(
   const auto offsets_data = offsets.accessor<int64_t, 1>();
   // If indice_weights are not defined, then this accessor won't be used
   auto indice_weights_data = indice_weights.defined()
-      ? indice_weights.accessor<grad_t, 1>()
-      : at::TensorAccessor<grad_t, 1>(nullptr, nullptr, nullptr);
+      ? indice_weights.accessor<at::acc_type<scalar_t, true>, 1>()
+      : at::TensorAccessor<at::acc_type<scalar_t, true>, 1>(nullptr, nullptr, nullptr);
 
   for (int64_t t = 0; t < T; ++t) {
     int feature_begin = t; // to conform interface with exact
@@ -68,8 +68,8 @@ void split_embedding_backward_approx_cpu_kernel(
           for (int64_t d = 0; d < D; ++d) {
             grad_buffer[d] = scale_factor *
                 (indice_weights.defined()
-                     ? grad_output_data[b][D_begin + d] * indice_weights_data[p]
-                     : grad_output_data[b][D_begin + d]);
+                     ? static_cast<scalar_t>(grad_output_data[b][D_begin + d] * indice_weights_data[p])
+                     : static_cast<scalar_t>(grad_output_data[b][D_begin + d]));
           }
           {{ split_weight_update_cpu }};
         } // for each p
@@ -99,7 +99,8 @@ split_embedding_backward_codegen_{{ optimizer }}_cpu(
     {% if not dense %}
     bool stochastic_rounding,
     {% endif %}
-    {{args.split_function_args | join(", ")}}
+    {{args.split_function_args | join(", ")}},
+    int64_t output_dtype
 ) {
   int64_t T = D_offsets.numel() - 1;
   TORCH_CHECK(T > 0);
@@ -187,8 +188,11 @@ split_embedding_backward_codegen_{{ optimizer }}_cpu(
 
   {% endif %}
 
-  AT_DISPATCH_FLOATING_TYPES(
-      grad_output.scalar_type(), "split_embedding_backward_cpu", [&]() {
+  AT_DISPATCH_FLOATING_TYPES_AND2(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      grad_output.scalar_type(),
+      "split_embedding_backward_cpu", [&]() {
         using grad_t = scalar_t;
         AT_DISPATCH_FLOATING_TYPES_AND_HALF(
             host_weights.scalar_type(),
 
@@ -32,7 +32,7 @@ struct half2float16<at::Half> {
 } // namespace internal
 
 namespace {
-template <typename scalar_t>
+template <typename scalar_t, typename grad_t>
 void split_embedding_backward_exact_cpu_kernel(
     Tensor grad_output,
     Tensor host_weights,
@@ -53,9 +53,6 @@ void split_embedding_backward_exact_cpu_kernel(
     const at::TensorAccessor<int64_t, 1> momentum2_offsets_data,
     {% endif %}
     {{ args.split_cpu_kernel_args | join(", ") }}) {
-  using grad_t = at::acc_type<scalar_t, true>;
-
-  // const auto grad_output_accessor = grad_output.accessor<grad_t, 2>();
   const grad_t* grad_output_data = grad_output.data_ptr<grad_t>();
   auto host_weights_data = host_weights.accessor<scalar_t, 1>();
   const auto hash_size_cumsum_data = hash_size_cumsum.accessor<int64_t, 1>();
@@ -91,8 +88,8 @@ void split_embedding_backward_exact_cpu_kernel(
         offsets.accessor<int64_t, 1>(),
         indices.accessor<int64_t, 1>(),
         indice_weights.defined()
-            ? indice_weights.accessor<grad_t, 1>()
-            : at::TensorAccessor<grad_t, 1>(nullptr, nullptr, nullptr),
+            ? indice_weights.accessor<at::acc_type<scalar_t, true>, 1>()
+            : at::TensorAccessor<at::acc_type<scalar_t, true>, 1>(nullptr, nullptr, nullptr),
         pooling_mode,
         table_to_feature_offset + t,
         hash_size);
@@ -118,7 +115,8 @@ void split_embedding_backward_exact_cpu_kernel(
         table_to_feature_offset[t + 1] > table_to_feature_offset[t] + 1;
 
     {% if optimizer == "rowwise_adagrad" %}
-    constexpr bool use_fbgemm = std::is_same<scalar_t, float>::value;
+    constexpr bool use_fbgemm = std::is_same<scalar_t, float>::value
+                                && std::is_same<scalar_t, grad_t>::value;
     // || std::is_same<scalar_t, at::Half>::value;
     if (use_fbgemm && !is_shared_table) {
       // fbgemm handles common case of no shared table
@@ -181,11 +179,11 @@ void split_embedding_backward_exact_cpu_kernel(
       // no fbgemm
       // TODO: to parallelize, we should easily identify segments belong to
       // the same column.
-      grad_t grad_buffer[D];
+      at::acc_type<grad_t, true> grad_buffer[D];
       for (int c = c_begin; c < c_end; ++c) {
         int64_t idx = col_segment_indices[c];
         if (c == c_begin || col_segment_indices[c - 1] != idx) {
-          memset(grad_buffer, 0, D * sizeof(grad_t));
+          memset(grad_buffer, 0, D * sizeof(at::acc_type<grad_t, true>));
         }
         const int64_t embedding_begin = table_begin + idx * D;
         for (int r = col_segment_ptr[c]; r < col_segment_ptr[c + 1]; ++r) {
@@ -196,10 +194,12 @@ void split_embedding_backward_exact_cpu_kernel(
           }
           int b = batched_cscs[t].row_indices[r];
           for (int64_t d = 0; d < D; ++d) {
-            grad_buffer[d] += batched_cscs[t].weights != nullptr
-                ? grad_output_data[b * grad_stride + D_offset + d] *
-                    batched_cscs[t].weights[r]
-                : grad_output_data[b * grad_stride + D_offset + d];
+            if (batched_cscs[t].weights != nullptr) {
+              grad_buffer[d] += grad_output_data[b * grad_stride + D_offset + d] *
+                    batched_cscs[t].weights[r];
+            } else {
+              grad_buffer[d] += grad_output_data[b * grad_stride + D_offset + d];
+            }
           }
         }
         if (c == c_end - 1 || col_segment_indices[c + 1] != idx) {
@@ -287,8 +287,11 @@ void split_embedding_backward_exact_cpu_dense_kernel(
     Tensor indice_weights,
     {% if not dense %}
     bool stochastic_rounding,
-    {% endif %}
+    {{ args.split_function_args | join(", ") }},
+    int64_t output_dtype
+    {% else %}
     {{ args.split_function_args | join(", ") }}
+    {% endif %}
 ) {
 
   int64_t T = D_offsets.numel() - 1;
@@ -326,28 +329,35 @@ void split_embedding_backward_exact_cpu_dense_kernel(
 
   grad_output = grad_output.contiguous();
 
-  AT_DISPATCH_FLOATING_TYPES_AND_HALF(
-      host_weights.scalar_type(), "split_embedding_backward_exact_cpu", [&]() {
-        split_embedding_backward_exact_cpu_kernel<scalar_t>(
-            grad_output,
-            host_weights,
-            weights_offsets_data,
-            D_offsets_data,
-            hash_size_cumsum,
-            indices,
-            offsets,
-            pooling_mode,
-            indice_weights,
-            num_tables,
-            B,
-            table_to_feature_offset,
-            {% if "momentum1_offsets" in args.split_function_arg_names %}
-            momentum1_offsets_data,
-            {% endif %}
-            {% if "momentum2_offsets" in args.split_function_arg_names %}
-            momentum2_offsets_data,
-            {% endif %}
-            {{ args.split_cpu_kernel_arg_constructors | join(", ") }});
+  AT_DISPATCH_FLOATING_TYPES_AND2(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      grad_output.scalar_type(),
+      "split_embedding_backward_exact_cpu_outer", [&]() {
+        using grad_t = scalar_t;
+        AT_DISPATCH_FLOATING_TYPES_AND_HALF(
+            host_weights.scalar_type(), "split_embedding_backward_exact_cpu", [&]() {
+              split_embedding_backward_exact_cpu_kernel<scalar_t, grad_t>(
+                  grad_output,
+                  host_weights,
+                  weights_offsets_data,
+                  D_offsets_data,
+                  hash_size_cumsum,
+                  indices,
+                  offsets,
+                  pooling_mode,
+                  indice_weights,
+                  num_tables,
+                  B,
+                  table_to_feature_offset,
+                  {% if "momentum1_offsets" in args.split_function_arg_names %}
+                  momentum1_offsets_data,
+                  {% endif %}
+                  {% if "momentum2_offsets" in args.split_function_arg_names %}
+                  momentum2_offsets_data,
+                  {% endif %}
+                  {{ args.split_cpu_kernel_arg_constructors | join(", ") }});
+            });
       });
 
   return;
 
@@ -28,7 +28,8 @@ void split_embedding_backward_codegen_{{ optimizer }}_cpu(
     int64_t pooling_mode,
     Tensor indice_weights,
     bool stochastic_rounding,
-    {{ args.split_function_args | join(", ") }});
+    {{ args.split_function_args | join(", ") }},
+    int64_t output_dtype);
 
 namespace {
 
@@ -52,7 +53,8 @@ class SplitLookupFunction_{{ optimizer }}_Op : public torch::autograd::Function<
     bool gradient_clipping,
     double max_gradient,
     bool stochastic_rounding,
-    {{ args.split_function_args | join(", ") }}) {
+    {{ args.split_function_args | join(", ") }},
+    int64_t output_dtype) {
     Tensor indice_weights_value = indice_weights.value_or(Tensor());
     Tensor feature_requires_grad_value =
         feature_requires_grad.value_or(Tensor());
@@ -67,6 +69,7 @@ class SplitLookupFunction_{{ optimizer }}_Op : public torch::autograd::Function<
     ctx->saved_data["gradient_clipping"] = gradient_clipping;
     ctx->saved_data["max_gradient"] = max_gradient;
     ctx->saved_data["stochastic_rounding"] = stochastic_rounding;
+    ctx->saved_data["output_dtype"] = output_dtype;
 
     {% for (var, _) in args.saved_data %}
     ctx->saved_data["{{ var }}"] = {{ var }};
@@ -81,7 +84,8 @@ class SplitLookupFunction_{{ optimizer }}_Op : public torch::autograd::Function<
         indices,
         offsets,
         pooling_mode,
-        indice_weights_value)};
+        indice_weights_value,
+        output_dtype)};
   }
 
   static torch::autograd::variable_list backward(
@@ -110,6 +114,7 @@ class SplitLookupFunction_{{ optimizer }}_Op : public torch::autograd::Function<
     auto gradient_clipping = ctx->saved_data["gradient_clipping"].toBool();
     auto max_gradient = ctx->saved_data["max_gradient"].toDouble();
     auto stochastic_rounding = ctx->saved_data["stochastic_rounding"].toBool();
+    auto output_dtype = ctx->saved_data["output_dtype"].toInt();
 
     {% for (var, ivalue_cast) in args.saved_data %}
     auto {{ var }} = ctx->saved_data["{{ var }}"].{{ ivalue_cast }}();
@@ -134,7 +139,8 @@ class SplitLookupFunction_{{ optimizer }}_Op : public torch::autograd::Function<
         pooling_mode,
         indice_weights,
         stochastic_rounding,
-        {{ args.split_function_arg_names | join(", ") }});
+        {{ args.split_function_arg_names | join(", ") }},
+        output_dtype);
     // NOTE: MEAN pooling will not work with indice_weights!
     auto grad_indice_weights = indice_weights.defined()
         ? split_embedding_codegen_grad_indice_weights_cpu(
@@ -163,7 +169,8 @@ class SplitLookupFunction_{{ optimizer }}_Op : public torch::autograd::Function<
         Variable(), // gradient_clipping
         Variable(), // max_gradient
         Variable(), // stochastic_rounding
-        {{ args.split_variables | join(", ") }}
+        {{ args.split_variables | join(", ") }},
+        Variable(), // output_dtype
     };
   }
 };
@@ -204,7 +211,8 @@ Tensor split_embedding_codegen_lookup_{{ optimizer }}_function_cpu(
       gradient_clipping,
       max_gradient,
       stochastic_rounding,
-      {{ args.split_function_arg_names | join(", ") }})[0];
+      {{ args.split_function_arg_names | join(", ") }},
+      output_dtype)[0];
 }
 
 TORCH_LIBRARY_FRAGMENT(fb, m) {
 
@@ -17,11 +17,11 @@ constexpr int32_t kCacheLocationMissing = -1;
 constexpr size_t kForwardMaxThreads = 512;
 
 // TODO: optimization to use multiple warps per row.
-template <typename emb_t, typename cache_t, size_t kMaxVecsPerThread>
+template <typename emb_t, typename grad_t, typename cache_t, size_t kMaxVecsPerThread>
 __global__
 __launch_bounds__(kForwardMaxThreads) void {{ "dense" if dense else "split" }}_embedding_codegen_grad_indice_weights_kernel(
     // [\sum_t E_t x D_t]
-    const at::PackedTensorAccessor32<at::acc_type<cache_t, true>, 2, at::RestrictPtrTraits>
+    const at::PackedTensorAccessor32<grad_t, 2, at::RestrictPtrTraits>
         grad_output,
     at::PackedTensorAccessor64<emb_t, 1, at::RestrictPtrTraits> dev_weights,
     {% if not dense %}
@@ -92,7 +92,7 @@ __launch_bounds__(kForwardMaxThreads) void {{ "dense" if dense else "split" }}_e
         i < kMaxVecsPerThread && 4 * kWarpSize * i + threadIdx.x * 4 < D;
         ++i) {
         int32_t d = 4 * kWarpSize * i + threadIdx.x * 4;
-        Vec4T<at::acc_type<cache_t, true>> go((&grad_output[b][0]) + D_start + d);
+        Vec4T<at::acc_type<grad_t, true>> go((&grad_output[b][0]) + D_start + d);
         grad_out[i] = go;
     }
 
@@ -213,18 +213,19 @@ Tensor {{ "dense" if dense else "split" }}_embedding_codegen_grad_indice_weights
     const auto B = (offsets.size(0) - 1) / T;
     TORCH_CHECK(B >= 0);
     TORCH_CHECK(max_D <= {{ max_embedding_dim }});
-    auto grad_indice_weights = empty_like(indices, indices.options().dtype(grad_output.dtype()));
+    auto grad_indice_weights = empty_like(indices, indices.options().dtype(at::toAccumulateType(grad_output.scalar_type(), true)));
     if (B == 0) {
       return grad_indice_weights;
     }
     feature_requires_grad = feature_requires_grad.defined() ? feature_requires_grad : at::empty({0}, indices.options().dtype(at::kInt));
     {% if not dense %}
-    DISPATCH_EMB_CACHE_TYPES(
+    DISPATCH_EMB_GRAD_CACHE_TYPES(
     {% else %}
     AT_DISPATCH_FLOATING_TYPES_AND_HALF(
     {% endif %}
         dev_weights.type(),
         {% if not dense %}
+        grad_output.type(),
         lxu_cache_weights.type(),
         {% endif %}
         "split_embedding_codegen_grad_indice_weights_kernel",
@@ -234,9 +235,11 @@ Tensor {{ "dense" if dense else "split" }}_embedding_codegen_grad_indice_weights
             {{ "dense" if dense else "split" }}_embedding_codegen_grad_indice_weights_kernel<
                 {% if not dense %}
                 emb_t,
+                grad_t,
                 cache_t,
                 {% else %}
                 scalar_t,
+                at::acc_type<scalar_t, true>,
                 scalar_t,
                 {% endif %}
                 {{ kMaxVecsPerThread }}><<<
@@ -245,10 +248,7 @@ Tensor {{ "dense" if dense else "split" }}_embedding_codegen_grad_indice_weights
                 0,
                 at::cuda::getCurrentCUDAStream()>>>(
                 {% if not dense %}
-                grad_output.packed_accessor32<
-                    at::acc_type<cache_t, true>,
-                    2,
-                    at::RestrictPtrTraits>(),
+                grad_output.packed_accessor32<grad_t, 2, at::RestrictPtrTraits>(),
                 dev_weights.packed_accessor64<emb_t, 1, at::RestrictPtrTraits>(),
                 {% else %}
                 grad_output.packed_accessor32<
@@ -271,7 +271,7 @@ Tensor {{ "dense" if dense else "split" }}_embedding_codegen_grad_indice_weights
                 {% endif %}
                 feature_requires_grad.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),
                 {% if not dense %}
-                grad_indice_weights.packed_accessor32<at::acc_type<cache_t, true>, 1, at::RestrictPtrTraits>()
+                grad_indice_weights.packed_accessor32<at::acc_type<grad_t, true>, 1, at::RestrictPtrTraits>()
                 {% else %}
                 grad_indice_weights.packed_accessor32<at::acc_type<scalar_t, true>, 1, at::RestrictPtrTraits>()
                 {% endif %}