dmlc · hcho3 · Oct 24, 2018 · Sep 28, 2018 · Oct 21, 2018 · Oct 21, 2018
diff --git a/src/common/span.h b/src/common/span.h
@@ -120,7 +120,7 @@ class SpanIterator {
 
   using reference = typename std::conditional<                    // NOLINT
     IsConst, const ElementType, ElementType>::type&;
-  using pointer = typename std::add_pointer<reference>::type&;    // NOLINT
+  using pointer = typename std::add_pointer<reference>::type;     // NOLINT
 
   XGBOOST_DEVICE constexpr SpanIterator() : span_{nullptr}, index_{0} {}
 

diff --git a/src/gbm/gbtree.cc b/src/gbm/gbtree.cc
@@ -194,8 +194,9 @@ class GBTree : public GradientBooster {
       CHECK_EQ(in_gpair->Size() % ngroup, 0U)
           << "must have exactly ngroup*nrow gpairs";
       // TODO(canonizer): perform this on GPU if HostDeviceVector has device set.
-      HostDeviceVector<GradientPair> tmp(in_gpair->Size() / ngroup,
-                                      GradientPair(), in_gpair->Distribution());
+      HostDeviceVector<GradientPair> tmp
+        (in_gpair->Size() / ngroup, GradientPair(),
+         GPUDistribution::Block(in_gpair->Distribution().Devices()));
       const auto& gpair_h = in_gpair->ConstHostVector();
       auto nsize = static_cast<bst_omp_uint>(tmp.Size());
       for (int gid = 0; gid < ngroup; ++gid) {

diff --git a/src/objective/hinge.cu b/src/objective/hinge.cu
@@ -22,7 +22,7 @@ struct HingeObjParam : public dmlc::Parameter<HingeObjParam> {
   int n_gpus;
   int gpu_id;
   DMLC_DECLARE_PARAMETER(HingeObjParam) {
-    DMLC_DECLARE_FIELD(n_gpus).set_default(0).set_lower_bound(0)
+    DMLC_DECLARE_FIELD(n_gpus).set_default(1).set_lower_bound(-1)
         .describe("Number of GPUs to use for multi-gpu algorithms.");
     DMLC_DECLARE_FIELD(gpu_id)
         .set_lower_bound(0)

diff --git a/src/objective/multiclass_obj.cu b/src/objective/multiclass_obj.cu
@@ -31,7 +31,7 @@ struct SoftmaxMultiClassParam : public dmlc::Parameter<SoftmaxMultiClassParam> {
   DMLC_DECLARE_PARAMETER(SoftmaxMultiClassParam) {
     DMLC_DECLARE_FIELD(num_class).set_lower_bound(1)
         .describe("Number of output class in the multi-class classification.");
-    DMLC_DECLARE_FIELD(n_gpus).set_default(-1).set_lower_bound(-1)
+    DMLC_DECLARE_FIELD(n_gpus).set_default(1).set_lower_bound(-1)
         .describe("Number of GPUs to use for multi-gpu algorithms.");
     DMLC_DECLARE_FIELD(gpu_id)
         .set_lower_bound(0)
@@ -65,8 +65,8 @@ class SoftmaxMultiClassObj : public ObjFunction {
     const auto ndata = static_cast<int64_t>(preds.Size() / nclass);
 
     // clear out device memory;
-    out_gpair->Reshard(GPUSet::Empty());
-    preds.Reshard(GPUSet::Empty());
+    // out_gpair->Reshard(GPUSet::Empty());
+    // preds.Reshard(GPUSet::Empty());
 
     out_gpair->Reshard(GPUDistribution::Granular(devices_, nclass));
     info.labels_.Reshard(GPUDistribution::Block(devices_));
@@ -109,11 +109,6 @@ class SoftmaxMultiClassObj : public ObjFunction {
         }, common::Range{0, ndata}, devices_, false)
         .Eval(out_gpair, &info.labels_, &preds, &info.weights_, &label_correct_);
 
-    out_gpair->Reshard(GPUSet::Empty());
-    out_gpair->Reshard(GPUDistribution::Block(devices_));
-    preds.Reshard(GPUSet::Empty());
-    preds.Reshard(GPUDistribution::Block(devices_));
-
     std::vector<int>& label_correct_h = label_correct_.HostVector();
     for (auto const flag : label_correct_h) {
       if (flag != 1) {
@@ -136,7 +131,7 @@ class SoftmaxMultiClassObj : public ObjFunction {
     const auto ndata = static_cast<int64_t>(io_preds->Size() / nclass);
     max_preds_.Resize(ndata);
 
-    io_preds->Reshard(GPUSet::Empty());  // clear out device memory
+    // io_preds->Reshard(GPUSet::Empty());  // clear out device memory
     if (prob) {
       common::Transform<>::Init(
           [=] XGBOOST_DEVICE(size_t _idx, common::Span<bst_float> _preds) {
@@ -166,8 +161,6 @@ class SoftmaxMultiClassObj : public ObjFunction {
       io_preds->Resize(max_preds_.Size());
       io_preds->Copy(max_preds_);
     }
-    io_preds->Reshard(GPUSet::Empty());  // clear out device memory
-    io_preds->Reshard(GPUDistribution::Block(devices_));
   }
 
  private:

diff --git a/src/objective/regression_obj.cu b/src/objective/regression_obj.cu
@@ -34,7 +34,7 @@ struct RegLossParam : public dmlc::Parameter<RegLossParam> {
   DMLC_DECLARE_PARAMETER(RegLossParam) {
     DMLC_DECLARE_FIELD(scale_pos_weight).set_default(1.0f).set_lower_bound(0.0f)
       .describe("Scale the weight of positive examples by this factor");
-    DMLC_DECLARE_FIELD(n_gpus).set_default(-1).set_lower_bound(-1)
+    DMLC_DECLARE_FIELD(n_gpus).set_default(1).set_lower_bound(-1)
       .describe("Number of GPUs to use for multi-gpu algorithms.");
     DMLC_DECLARE_FIELD(gpu_id)
       .set_lower_bound(0)