pytorch · msaroufim · Aug 23, 2024 · Aug 23, 2024 · Aug 23, 2024 · Aug 23, 2024
diff --git a/benchmarks/benchmark_low_bit_adam.py b/benchmarks/benchmark_low_bit_adam.py
@@ -23,13 +23,13 @@
 import math
 from contextlib import nullcontext
 from functools import partial
-from pathlib import Path
 
 import bitsandbytes as bnb
 import datasets
 import timm
 import torch
 import torch.nn.functional as F
+import wandb
 from torch.utils.data import DataLoader
 from torchvision.transforms import v2
 from tqdm import tqdm
@@ -72,22 +72,6 @@ def get_lr(self, step: int) -> float:
         return self.final_lr
 
 
-class WandbLogger:
-    def __init__(self, args):
-        if args.project is not None and not args.profile:
-            import wandb
-
-            Path("wandb_logs").mkdir(exist_ok=True)
-            self.run = wandb.init(project=args.project, name=args.run_name, config=args, dir="wandb_logs")
-
-        else:
-            self.run = None
-
-    def log(self, *args, **kwargs):
-        if self.run is not None:
-            self.run.log(*args, **kwargs)
-
-
 def get_parser():
     parser = argparse.ArgumentParser()
     parser.add_argument("--model", required=True)
@@ -190,7 +174,13 @@ def evaluate_model(model, args):
         print(f"{k}: {v}")
 
     # wandb is only enabled when args.project is set and args.profile is False
-    logger = WandbLogger(args)
+    logger = wandb.init(
+        project=args.project,
+        name=args.run_name,
+        config=args,
+        dir="/tmp",
+        mode="disabled" if args.project is None else None,
+    )
     dloader = get_dloader(args, True)
     print(f"Train dataset: {len(dloader.dataset):,} images")
 
@@ -239,13 +229,15 @@ def evaluate_model(model, args):
 
     lr_schedule = CosineSchedule(args.lr, len(dloader) * args.n_epochs)
     grad_scaler = torch.amp.GradScaler("cuda", enabled=args.amp == "fp16")
+    log_interval = 10
 
     step = 0
     for epoch_idx in range(args.n_epochs):
         model.train()
         pbar = tqdm(dloader, dynamic_ncols=True, desc=f"Epoch {epoch_idx + 1}/{args.n_epochs}")
 
         start_time = datetime.datetime.now()
+        t0 = start_time
 
         with torch.profiler.profile() if args.profile else nullcontext() as prof:
             for batch in pbar:
@@ -265,13 +257,18 @@ def evaluate_model(model, args):
                 if args.cosine_lr_scheduler:
                     lr = lr_schedule.get_lr(step)
                     for param_group in optim.param_groups:
-                        param_group["lr"] = lr
-
-                if step % 100 == 0:
-                    logger.log(
-                        dict(loss=loss.item(), lr=optim.param_groups[0]["lr"]),
-                        step=step,
-                    )
+                        if isinstance(param_group["lr"], torch.Tensor):
+                            param_group["lr"].fill_(lr)
+                        else:
+                            param_group["lr"] = lr
+
+                if step % log_interval == 0:
+                    log_dict = dict(loss=loss.item(), lr=optim.param_groups[0]["lr"])
+                    if step > 0:
+                        t1 = datetime.datetime.now()
+                        log_dict["imgs_per_second"] = args.batch_size * log_interval / (t1 - t0).total_seconds()
+                        t0 = t1
+                    logger.log(log_dict, step=step)
 
                 if args.optim_cpu_offload == "deepspeed":
                     model.step()
@@ -295,4 +292,6 @@ def evaluate_model(model, args):
             print(f"Epoch {epoch_idx + 1}/{args.n_epochs}: val_acc={val_acc.item() * 100:.2f}")
             logger.log(dict(val_acc=val_acc), step=step)
 
-    print(f"Max memory used: {torch.cuda.max_memory_allocated() / 1e9:.02f} GB")
+    peak_mem = torch.cuda.max_memory_allocated() / 1e9
+    print(f"Max memory used: {peak_mem:.02f} GB")
+    logger.log(dict(max_memory_allocated=peak_mem))
diff --git a/torchao/prototype/low_bit_optim/adam.py b/torchao/prototype/low_bit_optim/adam.py
@@ -20,7 +20,7 @@ def __init__(self, params, lr, betas, eps, weight_decay, amsgrad, *, block_size)
             raise ValueError("Invalid beta parameter at index 0: {}".format(betas[0]))
         if not 0.0 <= betas[1] < 1.0:
             raise ValueError("Invalid beta parameter at index 1: {}".format(betas[1]))
-        defaults = dict(lr=lr, betas=betas, eps=eps, weight_decay=weight_decay, amsgrad=amsgrad)
+        defaults = dict(lr=torch.tensor(lr), betas=betas, eps=eps, weight_decay=weight_decay, amsgrad=amsgrad)
         super().__init__(params, defaults)
         self.block_size = block_size
 
@@ -81,7 +81,10 @@ def _prepare_param_groups(self):
                 # practically, only lr is changed during training.
                 # NOTE: if lr is changed at every step, moving lr to CUDA can slow down training 3-4%.
                 if not isinstance(group["lr"], Tensor):
-                    group["lr"] = torch.tensor(group["lr"], device=p.device)
+                    raise ValueError(
+                        "lr was changed to a non-Tensor object. If you want to update lr, please use "
+                        "optim.param_groups[0]['lr'].fill_(new_lr)"
+                    )
 
                 p_grad_state = (
                     p,

diff --git a/torchao/prototype/low_bit_optim/adamw.py b/torchao/prototype/low_bit_optim/adamw.py
@@ -20,7 +20,7 @@ def __init__(self, params, lr, betas, eps, weight_decay, amsgrad, *, block_size)
             raise ValueError("Invalid beta parameter at index 0: {}".format(betas[0]))
         if not 0.0 <= betas[1] < 1.0:
             raise ValueError("Invalid beta parameter at index 1: {}".format(betas[1]))
-        defaults = dict(lr=lr, betas=betas, eps=eps, weight_decay=weight_decay, amsgrad=amsgrad)
+        defaults = dict(lr=torch.tensor(lr), betas=betas, eps=eps, weight_decay=weight_decay, amsgrad=amsgrad)
         super().__init__(params, defaults)
         self.block_size = block_size
 
@@ -81,7 +81,10 @@ def _prepare_param_groups(self):
                 # practically, only lr is changed during training.
                 # NOTE: if lr is changed at every step, moving lr to CUDA can slow down training 3-4%.
                 if not isinstance(group["lr"], Tensor):
-                    group["lr"] = torch.tensor(group["lr"], device=p.device)
+                    raise ValueError(
+                        "lr was changed to a non-Tensor object. If you want to update lr, please use "
+                        "optim.param_groups[0]['lr'].fill_(new_lr)"
+                    )
 
                 p_grad_state = (
                     p,