Fixes failing tests

vfdev-5 · vfdev-5 · commit f44b79aa515c · 2020-06-09T20:58:33.000Z
diff --git a/.circleci/config.yml b/.circleci/config.yml
@@ -47,7 +47,7 @@ run_pytorch_container: &run_pytorch_container
       environment:
         wd: << pipeline.parameters.workingdir >>
       command: |
-        docker run --gpus=all --rm -itd -v ${wd}:/ignite -w /ignite --name pthd << pipeline.parameters.pytorch_stable_image >>
+        docker run --gpus=all --rm -itd --shm-size 16G -v ${wd}:/ignite -w /ignite --name pthd << pipeline.parameters.pytorch_stable_image >>
         docker exec -it pthd nvidia-smi
         docker exec -it pthd ls
 
@@ -154,37 +154,37 @@ jobs:
       - run:
           name: "Run without backend"
           command: |
-            export example_path="examples/contrib/new-cifar10"
+            export example_path="examples/contrib/cifar10"
             # initial run
-            export stop_cmd="--stop_iteration=1000"
+            export stop_cmd="--stop_iteration=500"
             export test_cmd="CI=1 python ${example_path}/main.py run"
             docker exec -it pthd /bin/bash -c "${test_cmd} ${stop_cmd}"
             # resume
-            export resume_opt="--resume-from=/tmp/output-cifar10/resnet18_backend-None-1_stop-on-1000/training_checkpoint_1000.pt"
+            export resume_opt="--resume-from=/tmp/output-cifar10/resnet18_backend-None-1_stop-on-500/training_checkpoint_400.pt"
             docker exec -it pthd /bin/bash -c "${test_cmd} ${resume_opt}"
 
       - run:
           name: "Run with NCCL backend using torch dist launch"
           command: |
-            export example_path="examples/contrib/new-cifar10"
+            export example_path="examples/contrib/cifar10"
             # initial run
-            export stop_cmd="--stop_iteration=1000"
+            export stop_cmd="--stop_iteration=500"
             export test_cmd="CI=1 python -u -m torch.distributed.launch --nproc_per_node=2 --use_env ${example_path}/main.py run --backend=nccl"
             docker exec -it pthd /bin/bash -c "${test_cmd} ${stop_cmd}"
             # resume
-            export resume_opt="--resume-from=/tmp/output-cifar10/resnet18_backend-nccl-2_stop-on-1000/training_checkpoint_1000.pt"
+            export resume_opt="--resume-from=/tmp/output-cifar10/resnet18_backend-nccl-2_stop-on-500/training_checkpoint_400.pt"
             docker exec -it pthd /bin/bash -c "${test_cmd} ${resume_opt}"
 
       - run:
           name: "Run with NCCL backend using spawn"
           command: |
-            export example_path="examples/contrib/new-cifar10"
+            export example_path="examples/contrib/cifar10"
             # initial run
-            export stop_cmd="--stop_iteration=1000"
+            export stop_cmd="--stop_iteration=500"
             export test_cmd="CI=1 python -u ${example_path}/main.py run --backend=nccl --num_procs_per_node=2"
             docker exec -it pthd /bin/bash -c "${test_cmd} ${stop_cmd}"
             # resume
-            export resume_opt="--resume-from=/tmp/output-cifar10/resnet18_backend-nccl-2_stop-on-1000/training_checkpoint_1000.pt"
+            export resume_opt="--resume-from=/tmp/output-cifar10/resnet18_backend-nccl-2_stop-on-500/training_checkpoint_400.pt"
             docker exec -it pthd /bin/bash -c "${test_cmd} ${resume_opt}"
 
 
diff --git a/tests/ignite/distributed/test_auto.py b/tests/ignite/distributed/test_auto.py
@@ -44,7 +44,7 @@ def _test_auto_model_optimizer(ws, device):
     model = auto_model(model)
     if ws > 1:
         assert isinstance(model, nn.parallel.DistributedDataParallel)
-    elif torch.cuda.is_available() and torch.cuda.device_count() > 1:
+    elif device != "cpu" and torch.cuda.is_available() and torch.cuda.device_count() > 1:
         assert isinstance(model, nn.parallel.DataParallel)
     else:
         assert isinstance(model, nn.Module)
@@ -91,7 +91,7 @@ def test_auto_methods_nccl(distributed_context_single_node_nccl):
     _test_auto_dataloader(ws=ws, nproc=ws)
     _test_auto_dataloader(ws=ws, nproc=ws, sampler_name="WeightedRandomSampler")
 
-    device = "cuda:{}".format(lrank) if ws > 1 else "cuda"
+    device = "cuda"
     _test_auto_model_optimizer(ws, device)