Remove the unused compiled_autograd option (pytorch#1939)

fegin · jquesnelle · commit ee9bcddde286 · 2025-11-10T06:48:58.000Z
Stack from [ghstack](https://github.com/ezyang/ghstack/tree/0.12.0) (oldest at bottom): * pytorch#1857 * __->__ pytorch#1939 TorchTitan doesn't need compiled_autograd, which is meant to support compiled DDP, but TorchTitan will adopt fully_shard-based replicate. Let's remove it.
diff --git a/scripts/estimate/estimation.py b/scripts/estimate/estimation.py
@@ -33,10 +33,9 @@ def estimate_memory(job_config: JobConfig):
     # Get the world size
     world_size = int(os.environ["WORLD_SIZE"])
 
-    if job_config.compile.enable or job_config.parallelism.enable_compiled_autograd:
+    if job_config.compile.enable:
         logger.info("Compile mode is not supported yet. Switching to eager mode.")
         job_config.compile.enable = False
-        job_config.parallelism.enable_compiled_autograd = False
 
     # init fake pg
     store = FakeStore()
@@ -80,10 +79,7 @@ def estimate_memory(job_config: JobConfig):
     loss_parallel_enabled = (
         parallel_dims.tp_enabled and not parallelism_config.disable_loss_parallel
     )
-    train_context = dist_utils.get_train_context(
-        loss_parallel_enabled,
-        job_config.parallelism.enable_compiled_autograd,
-    )
+    train_context = dist_utils.get_train_context(loss_parallel_enabled)
 
     # build model (using meta init)
     model_args = train_spec.model_args[job_config.model.flavor]
diff --git a/torchtitan/config/job_config.py b/torchtitan/config/job_config.py
@@ -301,9 +301,6 @@ class Parallelism:
     1 means disabled.
     """
 
-    enable_compiled_autograd: bool = False
-    """Enable CompiledAutograd to compile the backward."""
-
     data_parallel_shard_degree: int = -1
     """
     The `data_parallel_shard_degree` argument specifies the degree of data
diff --git a/torchtitan/distributed/utils.py b/torchtitan/distributed/utils.py
@@ -193,20 +193,13 @@ def create_context_parallel_ctx(
     )
 
 
-def get_train_context(
-    enable_loss_parallel: bool, enable_compiled_autograd: bool
-) -> Generator[None, None, None]:
+def get_train_context(enable_loss_parallel: bool) -> Generator[None, None, None]:
     @contextlib.contextmanager
     def context(cp_context: Generator[None, None, None] | None = None):
         with contextlib.ExitStack() as stack:
             if enable_loss_parallel:
                 stack.enter_context(torch.distributed.tensor.parallel.loss_parallel())
 
-            if enable_compiled_autograd:
-                stack.enter_context(
-                    torch._dynamo.utils.maybe_enable_compiled_autograd(True)
-                )
-
             if cp_context:
                 stack.enter_context(cp_context)
 
diff --git a/torchtitan/experiments/forge/engine.py b/torchtitan/experiments/forge/engine.py
@@ -233,10 +233,7 @@ def __init__(self, job_config: ForgeJobConfig):
         loss_parallel_enabled = (
             parallel_dims.tp_enabled and not parallelism_config.disable_loss_parallel
         )
-        self.train_context = dist_utils.get_train_context(
-            loss_parallel_enabled,
-            parallelism_config.enable_compiled_autograd,
-        )
+        self.train_context = dist_utils.get_train_context(loss_parallel_enabled)
         self.maybe_enable_amp = dist_utils.maybe_enable_amp(
             parallel_dims,
             job_config.training.mixed_precision_param,
diff --git a/torchtitan/experiments/gpt_oss/infra/parallelize.py b/torchtitan/experiments/gpt_oss/infra/parallelize.py
@@ -45,6 +45,7 @@
     torch._higher_order_ops.flex_attention,
 }
 
+
 # Adapted from llama4/infra/parallelize.py
 def parallelize_gptoss(
     model: nn.Module,
@@ -168,7 +169,6 @@ def parallelize_gptoss(
             model,
             dp_mesh,
             enable_compile=model_compile_enabled,
-            enable_compiled_autograd=job_config.parallelism.enable_compiled_autograd,
         )
 
     return model
diff --git a/torchtitan/experiments/vlm/infra/parallelize.py b/torchtitan/experiments/vlm/infra/parallelize.py
@@ -107,7 +107,6 @@ def parallelize_vlm(
             model,
             world_mesh,
             enable_compile=job_config.compile.enable,
-            enable_compiled_autograd=job_config.parallelism.enable_compiled_autograd,
         )
 
     return model
diff --git a/torchtitan/models/deepseek_v3/infra/parallelize.py b/torchtitan/models/deepseek_v3/infra/parallelize.py
@@ -171,7 +171,6 @@ def parallelize_deepseekv3(
             model,
             dp_mesh,
             enable_compile=model_compile_enabled,
-            enable_compiled_autograd=job_config.parallelism.enable_compiled_autograd,
         )
 
     return model
diff --git a/torchtitan/models/llama3/infra/parallelize.py b/torchtitan/models/llama3/infra/parallelize.py
@@ -143,7 +143,6 @@ def parallelize_llama(
             model,
             world_mesh,
             enable_compile=model_compile_enabled,
-            enable_compiled_autograd=job_config.parallelism.enable_compiled_autograd,
         )
 
     return model
@@ -324,15 +323,9 @@ def apply_ddp(
     model: nn.Module,
     dp_mesh: DeviceMesh,
     enable_compile: bool,
-    enable_compiled_autograd: bool,
 ):
     if enable_compile:
-        if enable_compiled_autograd:
-            torch._dynamo.config.optimize_ddp = (
-                "python_reducer_without_compiled_forward"
-            )
-        else:
-            torch._dynamo.config.optimize_ddp = "ddp_optimizer"
+        torch._dynamo.config.optimize_ddp = "ddp_optimizer"
 
     replicate(model, device_mesh=dp_mesh, bucket_cap_mb=100)
 
diff --git a/torchtitan/models/llama4/infra/parallelize.py b/torchtitan/models/llama4/infra/parallelize.py
@@ -191,7 +191,6 @@ def parallelize_llama(
             model,
             dp_mesh,
             enable_compile=model_compile_enabled,
-            enable_compiled_autograd=job_config.parallelism.enable_compiled_autograd,
         )
 
     return model
diff --git a/torchtitan/models/qwen3/infra/parallelize.py b/torchtitan/models/qwen3/infra/parallelize.py
@@ -170,7 +170,6 @@ def parallelize_qwen3(
             model,
             world_mesh,
             enable_compile=model_compile_enabled,
-            enable_compiled_autograd=job_config.parallelism.enable_compiled_autograd,
         )
 
     # Enable weight tying after applying parallelisms
diff --git a/torchtitan/train.py b/torchtitan/train.py
@@ -340,10 +340,7 @@ def __init__(self, job_config: JobConfig):
         loss_parallel_enabled = (
             parallel_dims.tp_enabled and not parallelism_config.disable_loss_parallel
         )
-        self.train_context = dist_utils.get_train_context(
-            loss_parallel_enabled,
-            parallelism_config.enable_compiled_autograd,
-        )
+        self.train_context = dist_utils.get_train_context(loss_parallel_enabled)
         self.maybe_enable_amp = dist_utils.maybe_enable_amp(
             parallel_dims,
             job_config.training.mixed_precision_param,

Original file line number	Diff line number	Diff line change
`@@ -45,6 +45,7 @@`
`45`	`45`	`torch._higher_order_ops.flex_attention,`
`46`	`46`	`}`
`47`	`47`
	`48`	`+`
`48`	`49`	`# Adapted from llama4/infra/parallelize.py`
`49`	`50`	`def parallelize_gptoss(`
`50`	`51`	`model: nn.Module,`
`@@ -168,7 +169,6 @@ def parallelize_gptoss(`
`168`	`169`	`model,`
`169`	`170`	`dp_mesh,`
`170`	`171`	`enable_compile=model_compile_enabled,`
`171`		`- enable_compiled_autograd=job_config.parallelism.enable_compiled_autograd,`
`172`	`172`	`)`
`173`	`173`
`174`	`174`	`return model`
Original file line number	Diff line number	Diff line change
`@@ -107,7 +107,6 @@ def parallelize_vlm(`
`107`	`107`	`model,`
`108`	`108`	`world_mesh,`
`109`	`109`	`enable_compile=job_config.compile.enable,`
`110`		`- enable_compiled_autograd=job_config.parallelism.enable_compiled_autograd,`
`111`	`110`	`)`
`112`	`111`
`113`	`112`	`return model`
Original file line number	Diff line number	Diff line change
`@@ -171,7 +171,6 @@ def parallelize_deepseekv3(`
`171`	`171`	`model,`
`172`	`172`	`dp_mesh,`
`173`	`173`	`enable_compile=model_compile_enabled,`
`174`		`- enable_compiled_autograd=job_config.parallelism.enable_compiled_autograd,`
`175`	`174`	`)`
`176`	`175`
`177`	`176`	`return model`
Original file line number	Diff line number	Diff line change
`@@ -191,7 +191,6 @@ def parallelize_llama(`
`191`	`191`	`model,`
`192`	`192`	`dp_mesh,`
`193`	`193`	`enable_compile=model_compile_enabled,`
`194`		`- enable_compiled_autograd=job_config.parallelism.enable_compiled_autograd,`
`195`	`194`	`)`
`196`	`195`
`197`	`196`	`return model`
Original file line number	Diff line number	Diff line change
`@@ -170,7 +170,6 @@ def parallelize_qwen3(`
`170`	`170`	`model,`
`171`	`171`	`world_mesh,`
`172`	`172`	`enable_compile=model_compile_enabled,`
`173`		`- enable_compiled_autograd=job_config.parallelism.enable_compiled_autograd,`
`174`	`173`	`)`
`175`	`174`
`176`	`175`	`# Enable weight tying after applying parallelisms`