dask · fjetter · Jun 27, 2022 · gjoseph92 · Jul 6, 2022 · gjoseph92
@@ -5083,11 +5083,15 @@ def clear_task_state(self):
         for collection in self._task_state_collections:
             collection.clear()
 
+    def _get_worker_ids(self) -> set[str]:
+        return set({ws.server_id for ws in self.workers.values()})
+
     @log_errors
     async def restart(self, client=None, timeout=30):
         """Restart all workers. Reset local state."""
         stimulus_id = f"restart-{time()}"
-        n_workers = len(self.workers)
+        initial_workers = self._get_worker_ids()
+        n_workers = len(initial_workers)
 
         logger.info("Send lost future signal to clients")
         for cs in self.clients.values():
@@ -5161,7 +5165,9 @@ async def restart(self, client=None, timeout=30):
 
         self.log_event([client, "all"], {"action": "restart", "client": client})
         start = time()
-        while time() < start + 10 and len(self.workers) < n_workers:
+        while time() < start + 10 and (
+            len(self.workers) < n_workers or initial_workers & self._get_worker_ids()
 self.id = type(self).__name__ + "-" + str(uuid.uuid4()) 
 server_id=self.id, 
-            len(self.workers) < n_workers or initial_workers & self._get_worker_ids()
+            len(self.running) < len(nanny_workers)
 async def restart(self, timeout=30): 
     async def _(): 
         if self.process is not None: 
             await self.kill() 
             await self.instantiate() 
     try: 
         await asyncio.wait_for(_(), timeout) 
     except TimeoutError: 
         logger.error( 
             f"Restart timed out after {timeout}s; returning before finished" 
         ) 
         return "timed out" 
 self.id = type(self).__name__ + "-" + str(uuid.uuid4()) 
 server_id=self.id, 
-            len(self.workers) < n_workers or initial_workers & self._get_worker_ids()
+            len(self.running) < len(nanny_workers)
 async def restart(self, timeout=30): 
     async def _(): 
         if self.process is not None: 
             await self.kill() 
             await self.instantiate() 
  
     try: 
         await asyncio.wait_for(_(), timeout) 
     except TimeoutError: 
         logger.error( 
             f"Restart timed out after {timeout}s; returning before finished" 
         ) 
         return "timed out" 
+        ):
             await asyncio.sleep(0.01)
 
         self.report({"op": "restart"})

@@ -3493,6 +3493,16 @@ async def test_Client_clears_references_after_restart(c, s, a, b):
         assert key not in c.refcount
 
 
+@pytest.mark.slow
+@gen_cluster(Worker=Nanny, client=True, nthreads=[("", 1)] * 5)
+async def test_restart_waits_for_new_workers(c, s, *workers):
+    initial_workers = set(s.workers)
+    await c.restart()
-    await c.restart()
+    await c.restart()
+    assert len(s.workers) == len(initial_workers)
-    await c.restart()
+    await c.restart()
+    assert len(s.workers) == len(initial_workers)
+    assert len(s.workers) == len(initial_workers)
+    for w in workers:
+        assert w.address not in s.workers
+
+
 @gen_cluster(Worker=Nanny, client=True)
 async def test_restart_timeout_is_logged(c, s, a, b):
     with captured_logger(logging.getLogger("distributed.client")) as logger: