Qiskit · Tansito · Jul 13, 2023 · Jul 12, 2023
diff --git a/gateway/api/management/commands/update_jobs_statuses.py b/gateway/api/management/commands/update_jobs_statuses.py
@@ -1,5 +1,6 @@
 """Cleanup resources command."""
 import logging
+import time
 
 from django.core.management.base import BaseCommand
 from ray.dashboard.modules.job.sdk import JobSubmissionClient
@@ -22,20 +23,35 @@ def handle(self, *args, **options):
         updated_jobs_counter = 0
         for job in Job.objects.filter(status__in=Job.RUNNING_STATES):
             if job.compute_resource:
-                try:
-                    ray_client = JobSubmissionClient(job.compute_resource.host)
-                    # update job logs
-                    job.logs = ray_client.get_job_logs(job.ray_job_id)
-                    # update job status
-                    ray_job_status = ray_job_status_to_model_job_status(
-                        ray_client.get_job_status(job.ray_job_id)
-                    )
-                except (ConnectionError, RuntimeError):
+                success = False
+                ray_job_status = Job.PENDING
+                retries_left = 10
+                while not success and retries_left > 0:
+                    try:
+                        ray_client = JobSubmissionClient(job.compute_resource.host)
+                        # update job logs
+                        job.logs = ray_client.get_job_logs(job.ray_job_id)
+                        # update job status
+                        ray_job_status = ray_job_status_to_model_job_status(
+                            ray_client.get_job_status(job.ray_job_id)
+                        )
+                        success = True
+                    except (ConnectionError, RuntimeError) as runtime_error:
+                        logger.error(
+                            "Runtime error during job status update: %s", runtime_error
+                        )
+                        retries_left -= 1
+                        logger.error("Retries left %s", retries_left)
+                        time.sleep(1)
+
+                if not success:
                     kill_ray_cluster(job.compute_resource.title)
                     job.compute_resource.delete()
                     job.compute_resource = None
                     ray_job_status = Job.FAILED
-                    job.logs = "Something went wrong during compute resource instance."
+                    job.logs = (
+                        f"{job.logs}\nSomething went wrong during updating job status."
+                    )
 
                 if ray_job_status != job.status:
                     logger.info(