apache · szha · Sep 12, 2018 · Sep 5, 2018 · Sep 5, 2018 · Sep 5, 2018
diff --git a/src/operator/contrib/ctc_loss-inl.h b/src/operator/contrib/ctc_loss-inl.h
@@ -256,66 +256,69 @@ class CTCLossOp : public Operator {
  exceed_cudnn_limit = false;
  Stream<xpu> *s = ctx.get_stream<xpu>();
 
- Tensor<xpu, 3, real_t> data =
+ MSHADOW_TYPE_SWITCH(in_data[ctc_loss::kLabel].type_flag_, DType, {
+ Tensor<xpu, 3, real_t> data =
  in_data[ctc_loss::kData].get<xpu, 3, real_t>(s);
- Tensor<xpu, 2, real_t> labels =
- in_data[ctc_loss::kLabel].get<xpu, 2, real_t>(s);
+  Tensor<xpu, 2, DType> labels =
+ in_data[ctc_loss::kLabel].get<xpu, 2, DType>(s);
 
- Tensor<xpu, 1, real_t> costs =
+  Tensor<xpu, 1, real_t> costs =
  out_data[ctc_loss::kOut].get<xpu, 1, real_t>(s);
- Tensor<xpu, 3, real_t> grad =
+  Tensor<xpu, 3, real_t> grad =
  out_data[ctc_loss::kGrad].get<xpu, 3, real_t>(s);
 
- int max_seq_len = data.size(0);
- int batch_size = data.size(1);
- int alphabet_size = data.size(2);
-
- // data_lengths
- std::vector<int> data_lengths(batch_size, max_seq_len);
- if (param_.use_data_lengths) {
- int kInputLength = 2;
- IndexTensorToVector(in_data[kInputLength].get<xpu, 1, real_t>(s), &data_lengths);
- }
-
- // label_lengths
- std::vector<int> packed_labels;
- std::vector<int> label_lengths(batch_size);
-
- if (param_.use_label_lengths) {
- int kLabelLength = 2+param_.use_data_lengths;
- exceed_cudnn_limit = PackLabelByLength(labels, in_data[kLabelLength].get<xpu, 1, real_t>(s),
- &packed_labels, &label_lengths);
- } else {
- exceed_cudnn_limit = LabelTensorToPackedVector(labels, param_.blank_label == 0?0:-1,
- &packed_labels, &label_lengths);
- }
-
-// CUDNN is disabled due to lack of support for input lengths
-/* #if defined(__CUDACC__) && MXNET_USE_CUDNN == 1 && CUDNN_MAJOR >= 7 */
-/* if (!exceed_cudnn_limit) { */
-/* cudnn_forward(ctx, s, data, costs, grad, */
-/* &data_lengths, &label_lengths, &packed_labels, */
-/* max_seq_len, batch_size, alphabet_size, */
-/* req[ctc_loss::kGrad] != mxnet::kNullOp); */
-/* } else { */
-/* baidu_forward(ctx, s, data, costs, grad, */
-/* &data_lengths, &label_lengths, &packed_labels, */
-/* batch_size, alphabet_size, req[ctc_loss::kGrad] != mxnet::kNullOp); */
-/* } */
-/* #else */
-
- baidu_forward(ctx, s, data, costs, grad,
- &data_lengths, &label_lengths, &packed_labels,
- batch_size, alphabet_size, req[ctc_loss::kGrad] != mxnet::kNullOp);
-
- if (param_.use_data_lengths) {
- // baidu warp CTC implementation sometimes includes undefined gradients
- // for data outside of length mask. Setting to 0 to make it consistent
- // with CPU implementation.
- int kInputLength = 2;
- mxnet_op::SequenceMask(grad, in_data[kInputLength].get<xpu, 1, real_t>(s),
- static_cast<real_t>(0));
- }
+ int max_seq_len = data.size(0);
+ int batch_size = data.size(1);
+ int alphabet_size = data.size(2);
+
+ // data_lengths
+ std::vector<int> data_lengths(batch_size, max_seq_len);
+ if (param_.use_data_lengths) {
+ int kInputLength = 2;
+ IndexTensorToVector(in_data[kInputLength].get<xpu, 1, real_t>(s), &data_lengths);
+ }
+
+ // label_lengths
+ std::vector<int> packed_labels;
+ std::vector<int> label_lengths(batch_size);
+
+ if (param_.use_label_lengths) {
+ int kLabelLength = 2 + param_.use_data_lengths;
+ exceed_cudnn_limit =
+ PackLabelByLength(labels, in_data[kLabelLength].get<xpu, 1, DType>(s),
+ &packed_labels, &label_lengths);
+ } else {
+ exceed_cudnn_limit = LabelTensorToPackedVector(labels, param_.blank_label == 0 ? 0 : -1,
+ &packed_labels, &label_lengths);
+ }
+
+ // CUDNN is disabled due to lack of support for input lengths
+ /* #if defined(__CUDACC__) && MXNET_USE_CUDNN == 1 && CUDNN_MAJOR >= 7 */
+ /* if (!exceed_cudnn_limit) { */
+ /* cudnn_forward(ctx, s, data, costs, grad, */
+ /* &data_lengths, &label_lengths, &packed_labels, */
+ /* max_seq_len, batch_size, alphabet_size, */
+ /* req[ctc_loss::kGrad] != mxnet::kNullOp); */
+ /* } else { */
+ /* baidu_forward(ctx, s, data, costs, grad, */
+ /* &data_lengths, &label_lengths, &packed_labels, */
+ /* batch_size, alphabet_size, req[ctc_loss::kGrad] != mxnet::kNullOp);*/
+ /* } */
+ /* #else */
+
+ baidu_forward(ctx, s, data, costs, grad,
+ &data_lengths, &label_lengths, &packed_labels,
+ batch_size, alphabet_size, req[ctc_loss::kGrad] != mxnet::kNullOp);
+
+ if (param_.use_data_lengths) {
+ // baidu warp CTC implementation sometimes includes undefined gradients
+ // for data outside of length mask. Setting to 0 to make it consistent
+ // with CPU implementation.
+ int kInputLength = 2;
+ mxnet_op::SequenceMask(grad, in_data[kInputLength].get<xpu, 1, real_t>(s),
+ static_cast<real_t>(0));
+ }
+ });
  }
 
  virtual void Backward(const OpContext &ctx,
@@ -434,17 +437,17 @@ class CTCLossOp : public Operator {
  }
 #endif // __CUDACC__ && CUDNN
 
- inline virtual void baidu_forward(const OpContext &ctx,
-  mshadow::Stream<xpu>* s,
-  mshadow::Tensor<xpu, 3, real_t> data,
-  mshadow::Tensor<xpu, 1, real_t> costs,
-  mshadow::Tensor<xpu, 3, real_t> grad,
-  std::vector<int>* data_lengths,
-  std::vector<int>* label_lengths,
-  std::vector<int>* packed_labels,
-  int batch_size,
-  int alphabet_size,
-  bool req_grad) {
+ inline void baidu_forward(const OpContext &ctx,
+ mshadow::Stream<xpu>* s,
+ mshadow::Tensor<xpu, 3, real_t> data,
+ mshadow::Tensor<xpu, 1, real_t> costs,
+ mshadow::Tensor<xpu, 3, real_t> grad,
+ std::vector<int>* data_lengths,
+ std::vector<int>* label_lengths,
+ std::vector<int>* packed_labels,
+ int batch_size,
+ int alphabet_size,
+ bool req_grad) {
  using namespace mshadow;
  // allocate temporary workspace
  size_t size_bytes;
@@ -461,7 +464,7 @@ class CTCLossOp : public Operator {
  compute_ctc_cost(data, costs.dptr_, grad.dptr_, packed_labels->data(),
  label_lengths->data(), data_lengths->data(),
  workspace.dptr_, req_grad,
- param_.blank_label == 0?0:(alphabet_size-1));
+ param_.blank_label == 0 ? 0 : (alphabet_size-1));
  }
 }; // class CTCLossOp
 
@@ -534,11 +537,24 @@ class CTCLossProp : public OperatorProperty {
  TShape oshape(1);
  oshape[0] = dshape[1]; // batch size
  out_shape->clear();
- out_shape->push_back(oshape);
+ out_shape->push_back(oshape); // forward output
  out_shape->push_back(dshape); // grad output
  return true;
  }
 
+ bool InferType(std::vector<int> *in_type,
+ std::vector<int> *out_type,
+ std::vector<int> *aux_type) const override {
+ CHECK_LE(in_type->size(), this->ListArguments().size());
+ int dtype = (*in_type)[ctc_loss::kData];
+ CHECK_NE(dtype, -1) << "Input data must have specified type";
+
+ out_type->clear();
+ out_type->push_back(dtype); // forward output
+ out_type->push_back(dtype); // grad output
+ return true;
+ }
+
  OperatorProperty *Copy() const override {
  auto ptr = new CTCLossProp();
  ptr->param_ = param_;

diff --git a/tests/python/unittest/test_contrib_operator.py b/tests/python/unittest/test_contrib_operator.py
@@ -244,6 +244,64 @@ def assert_match(inputs, x, y, threshold, is_ascend=False):
  assert_match([[0.5, 0.6], [0.1, 0.2], [0.3, 0.4]], [1, -1, 0], [2, 0], 1e-12, False)
  assert_match([[0.5, 0.6], [0.1, 0.2], [0.3, 0.4]], [-1, 0, 1], [1, 2], 100, True)
 
+def test_ctc_loss_op():
+ batch_size = 10
+ seq_len = 5
+ label_len = 3 
+ num_classes = 6
+ np.random.seed(1)
+ x = np.random.uniform(size=(seq_len, batch_size, num_classes))
+ y = np.random.randint(0, num_classes, size=(batch_size, label_len))
+
+ def test_cpu(x, y):
+ data = mx.nd.array(x, ctx=mx.cpu(0))
+ label = mx.nd.array(y, ctx=mx.cpu(0))
+ loss = mx.nd.contrib.ctc_loss(data=data, label=label)
+ loss = mx.nd.make_loss(loss)
+ expected_output = [9.604521, 7.096151, 4.906869, 5.5237527, 5.9895644, 5.584548, 
+ 5.528411, 5.765914, 6.740701, 5.2625823]
+ assert np.isclose(loss.asnumpy(), expected_output).all()
+
+ def test_gpu(x, y):
+ data = mx.nd.array(x, ctx=mx.gpu(0))
+ label = mx.nd.array(y, ctx=mx.gpu(0))
+ loss = mx.nd.contrib.ctc_loss(data=data, label=label)
+ loss = mx.nd.make_loss(loss)
+ expected_output = [9.604521, 7.096151, 4.906869, 5.5237527, 5.9895644, 5.584548, 
+ 5.528411, 5.765914, 6.740701, 5.2625823]
+ assert np.isclose(loss.asnumpy(), expected_output).all() 
+
+ def test_integer_label(x, y):
+ data = mx.nd.array(x, ctx=mx.cpu(0))
+ label = mx.nd.array(y, ctx=mx.cpu(0), dtype=np.int32)
+ loss = mx.nd.contrib.ctc_loss(data=data, label=label)
+ loss = mx.nd.make_loss(loss)
+ expected_output = [9.604521, 7.096151, 4.906869, 5.5237527, 5.9895644, 5.584548, 
+ 5.528411, 5.765914, 6.740701, 5.2625823]
+ assert np.isclose(loss.asnumpy(), expected_output).all() 
+
+ def test_large_classes():
+ batch_size = 1024
+ seq_len = 35
+ label_len = 10
+ num_classes = 6000
+ x = np.random.uniform(size=(seq_len, batch_size, num_classes))
+ y = np.random.randint(0, num_classes, size=(batch_size, label_len))
+
+ data = mx.nd.array(x, ctx=mx.gpu(0))
+ label = mx.nd.array(y, ctx=mx.gpu(0))
+ loss = mx.nd.contrib.ctc_loss(data=data, label=label)
+ loss = mx.nd.make_loss(loss)
+ expected_output_sum = 282733.95318603516
+ assert np.isclose(sum(loss.asnumpy(), expected_output_sum))
+
+ test_cpu(x, y)
+ test_integer_label(x, y)
+ if default_context().device_type == 'gpu':
+ test_gpu(x, y)
+ test_large_classes()
+
+
 if __name__ == '__main__':
  import nose
  nose.runmodule()