awslabs · comaniac · Feb 16, 2023 · Feb 14, 2023 · Feb 15, 2023 · Feb 15, 2023
diff --git a/slapo/framework_dialect/deepspeed/pipeline.py b/slapo/framework_dialect/deepspeed/pipeline.py
@@ -316,9 +316,11 @@ def forward(self, *args, **kwargs):
         if logger.isEnabledFor(DEBUG):
             logger.debug(f"[{self.name}] Flatten: {len(ret)}; metadata: {metadata}")
         ret.append(
-            torch.ByteTensor(
-                torch.ByteStorage.from_buffer(bytes(encode_metadata(metadata), "utf8"))
-            ).to(device)
+            torch.tensor(
+                torch.ByteStorage.from_buffer(bytes(encode_metadata(metadata), "utf8")),
+                dtype=torch.uint8,
+                device=device,
+            )
         )
         ret = tuple(ret)
         return ret

diff --git a/slapo/schedule.py b/slapo/schedule.py
@@ -261,10 +261,10 @@ def _shard(name, tensor):
                     self.metadata.tie_weights[param] = new_param
             else:
                 new_param = nn.Parameter(new_tensor)
-
+            # Tag param with model parallel attribute, used for grad clipping
+            new_param.tensor_model_parallel = True
             # Save the original size of the parameter for consolidation.
             new_param.orig_shape = param.shape
-
             self.mod.register_parameter(tensor_name, new_param)
         except AttributeError:
             buffer = self.mod.get_buffer(tensor_name)
@@ -1363,8 +1363,10 @@ def _consolidate_and_broadcast(sch: Schedule):
                     is_found = True
             if is_found:
                 cnt_shard += 1
-                new_param = param.detach().split(sharded_size, dim=axis)[tp_rank]
-                sch.mod.register_parameter(param_name, nn.Parameter(new_param))
+                sharded_param = param.detach().split(sharded_size, dim=axis)[tp_rank]
+                new_param = nn.Parameter(sharded_param)
+                new_param.tensor_model_parallel = True
+                sch.mod.register_parameter(param_name, new_param)
 
         for subsch in sch.child.values():
             ret = _consolidate_and_broadcast(subsch)

diff --git a/slapo/sharding/sync_ops.py b/slapo/sharding/sync_ops.py
@@ -41,7 +41,7 @@ def all_gather_along_dim(inp, dim, world_size, group):
     else:
         # Fallback to all_gather. This may lead to suboptimal performance.
         parts = [
-            torch.empty(inp.shape, dtype=inp.dtype).to(inp.device)
+            torch.empty(inp.shape, dtype=inp.dtype, device=inp.device)
             for _ in range(world_size)
         ]
         dist.all_gather(parts, inp, group=group)