mlr-org · be-marc · Oct 24, 2021 · Oct 22, 2021 · Oct 22, 2021 · Oct 22, 2021
diff --git a/.gitignore b/.gitignore
@@ -36,3 +36,5 @@ docs/
 
 # Local History for Visual Studio Code
 .history/
+
+.Rprofile
diff --git a/R/HotstartStack.R b/R/HotstartStack.R
@@ -49,13 +49,11 @@ HotstartStack = R6Class("HotstartStack",
     #' Creates a new instance of this [R6][R6::R6Class] class.
     #'
     #' @param learners (List of [Learner]s).
-    initialize = function(learners) {
-      learners = assert_learners(as_learners(learners))
-      self$stack = data.table(
-        start_learner = learners,
-        task_hash = map_chr(learners, function(l) l$state$task_hash),
-        learner_hash = map_chr(learners, learner_hotstart_hash),
-        key = c("task_hash", "learner_hash"))
+    initialize = function(learners = NULL) {
+      self$stack = data.table()
+
+      # add learners to stack
+      if (!is.null(learners)) self$add(learners)
     },
 
     #' @description
@@ -67,13 +65,13 @@ HotstartStack = R6Class("HotstartStack",
     add = function(learners) {
       learners = assert_learners(as_learners(learners))
 
-      rows = data.table(
-        start_learner = learners,
-        task_hash = map_chr(learners, function(l) l$state$task_hash),
-        learner_hash = map_chr(learners, learner_hotstart_hash))
+      # hashes
+      task_hash = map_chr(learners, function(learner) learner$state$task_hash)
+      learner_hash = map_chr(learners, learner_hotstart_hash)
 
-      self$stack = rbindlist(list(self$stack, rows))
+      self$stack = rbindlist(list(self$stack, data.table(start_learner = learners, task_hash, learner_hash)))
       setkeyv(self$stack, c("task_hash", "learner_hash"))
+
       invisible(self)
     },
 
@@ -92,6 +90,7 @@ HotstartStack = R6Class("HotstartStack",
     #'
     # @return `numeric()`.
     start_cost = function(learner, task_hash) {
+      if(!nrow(self$stack)) return(numeric(0))
       .learner_hash = learner_hotstart_hash(assert_learner(learner))
       .task_hash = assert_string(task_hash)
       hotstart_id = learner$param_set$ids(tags = "hotstart")
@@ -101,6 +100,21 @@ HotstartStack = R6Class("HotstartStack",
         ][, get("cost")]
       self$stack[, "cost" := NULL]
       cost
+    },
+
+    #' @description
+    #' Helper for print outputs.
+    format = function() {
+      sprintf("<%s>", class(self)[1L])
+    },
+
+    #' @description
+    #' Printer.
+    #'
+    #' @param ... (ignored).
+    print = function() {
+      catf(format(self))
+      print(self$stack, digits = 2)
     }
   ),
 
@@ -112,6 +126,7 @@ HotstartStack = R6Class("HotstartStack",
     # `resample()` and `benchmark()` which call `learner_train(learner, task,
     # row_ids, mode = 'retrain')` with the returned learner.
     .start_learner = function(learner, task_hash) {
+      if(!nrow(self$stack)) return(NULL)
       .learner_hash = learner_hotstart_hash(assert_learner(learner))
       .task_hash = assert_character(task_hash, len = 1)
       hotstart_id = learner$param_set$ids(tags = "hotstart")

diff --git a/R/Learner.R b/R/Learner.R
@@ -474,7 +474,7 @@ Learner = R6Class("Learner",
       if (missing(rhs)) {
         return(private$.hotstart_stack)
       }
-      assert_r6(rhs, "HotstartStack")
+      assert_r6(rhs, "HotstartStack", null.ok = TRUE)
       private$.hotstart_stack = rhs
     }
   ),

diff --git a/R/benchmark.R b/R/benchmark.R
@@ -137,6 +137,11 @@ benchmark = function(design, store_models = FALSE, store_backends = TRUE, encaps
       }
       data.table(learner = list(learner), mode = mode)
     })
+    # null hotstart stack to reduce overhead in parallelization
+    map(hotstart_grid$learner, function(learner) {
+      learner$hotstart_stack = NULL
+      learner
+    })
     set(grid, j = "learner", value = hotstart_grid$learner)
     set(grid, j = "mode", value = hotstart_grid$mode)
   }
@@ -157,8 +162,8 @@ benchmark = function(design, store_models = FALSE, store_backends = TRUE, encaps
       task = grid$task, learner = grid$learner, resampling = grid$resampling, iteration = grid$iteration,
       mode = grid$mode,
       MoreArgs = list(store_models = store_models, lgr_threshold = lg$threshold, pb = pb),
-      SIMPLIFY = FALSE, USE.NAMES = FALSE, future.globals = FALSE, 
-      future.scheduling = structure(TRUE, ordering = "random"), future.packages = "mlr3", future.seed = TRUE, 
+      SIMPLIFY = FALSE, USE.NAMES = FALSE, future.globals = FALSE,
+      future.scheduling = structure(TRUE, ordering = "random"), future.packages = "mlr3", future.seed = TRUE,
       future.stdout = future_stdout()
     )
   }

diff --git a/R/resample.R b/R/resample.R
@@ -74,7 +74,7 @@ resample = function(task, learner, resampling, store_models = FALSE, store_backe
   }
 
   grid = if (allow_hotstart) {
-    map_dtr(seq_len(n), function(iteration) {
+   hotstart_grid = map_dtr(seq_len(n), function(iteration) {
       if (!is.null(learner$hotstart_stack)) {
         # search for hotstart learner
         task_hashes = task_hashes(task, resampling)
@@ -91,13 +91,19 @@ resample = function(task, learner, resampling, store_models = FALSE, store_backe
       }
       data.table(learner = list(learner), mode = mode)
     })
+    # null hotstart stack to reduce overhead in parallelization
+    map(hotstart_grid$learner, function(learner) {
+      learner$hotstart_stack = NULL
+      learner
+    })
+    hotstart_grid
   } else {
     data.table(learner = replicate(n, learner), mode = "train")
   }
 
   if (getOption("mlr3.debug", FALSE)) {
     lg$info("Running resample() sequentially in debug mode with %i iterations", n)
-    res = mapply(workhorse, 
+    res = mapply(workhorse,
       iteration = seq_len(n), learner = grid$learner, mode = grid$mode,
       MoreArgs = list(task = task, resampling = instance, store_models = store_models, lgr_threshold = lg$threshold,
         pb = pb), SIMPLIFY = FALSE
@@ -116,7 +122,7 @@ resample = function(task, learner, resampling, store_models = FALSE, store_backe
 
   data = data.table(
     task = list(task),
-    learner = list(learner),
+    learner = grid$learner,
     learner_state = map(res, "learner_state"),
     resampling = list(instance),
     iteration = seq_len(n),
Original file line number	Diff line number	Diff line change
Expand Up		@@ -36,3 +36,5 @@ docs/

		# Local History for Visual Studio Code
		.history/

		.Rprofile