deepspeedai · HeyangQin · Feb 28, 2023 · Feb 22, 2023 · Feb 22, 2023 · Feb 22, 2023
@@ -55,8 +55,8 @@ def load_params(self, module, sd, weight_quantizer, mp_replace, prefix):
                        transformer_param_names[i],
                        prefix + param_names[i],
                        qkv=True,
-                       megatron_v2=self.is_megatron_v2,
-                       split_qkv=self.split_qkv)
+                       megatron_v2=self.policy.is_megatron_v2,
+                       split_qkv=self.policy.split_qkv)
         for i in range(2, 4):
             maybe_copy(module.attention,
                        sd,

@@ -45,7 +45,7 @@ def load_params(self, module, sd, weight_quantizer, mp_replace, prefix):
             [prefix + param_names[0],
              prefix + param_names[1],
              prefix + param_names[2]],
-            split_qkv=self.split_qkv)
+            split_qkv=self.policy.split_qkv)
         for i in range(3, 4):
             maybe_copy(module.attention,
                        sd,

@@ -48,7 +48,7 @@ def load_params(self, module, sd, weight_quantizer, mp_replace, prefix):
             [prefix + param_names[0],
              prefix + param_names[1],
              prefix + param_names[2]],
-            split_qkv=self.split_qkv)
+            split_qkv=self.policy.split_qkv)
         for i in range(3, 5):
             maybe_copy(module.attention,
                        sd,

@@ -53,9 +53,9 @@ def load_params(self, module, sd, weight_quantizer, mp_replace, prefix):
                        transformer_param_names[i],
                        prefix + param_names[i],
                        qkv=True,
-                       megatron_v2=self.is_megatron_v2,
-                       split_qkv=self.split_qkv,
-                       heads=self.client_module.attention.num_attention_heads)
+                       megatron_v2=self.policy.is_megatron_v2,
+                       split_qkv=self.policy.split_qkv,
+                       heads=self.policy.client_module.attention.num_attention_heads)
         for i in range(2, 4):
             maybe_copy(module.attention,
                        sd,

@@ -55,7 +55,7 @@ def load_params(self, module, sd, weight_quantizer, mp_replace, prefix):
                                prefix + param_names[i + 1],
                                prefix + param_names[i + 2]
                            ],
-                           split_qkv=self.split_qkv)
+                           split_qkv=self.policy.split_qkv)
         for i in range(6, 8):
             maybe_copy(module.attention,
                        sd,

@@ -21,7 +21,7 @@ def load_model_with_checkpoint(r_module,
                                ckpt_mp_size,
                                weight_quantizer=None,
                                rank=0,
-                               replace_policy=None):
+                               container=None):
     error_msgs = []
 
     def transpose(data):
@@ -199,11 +199,7 @@ def load_parameters(module, prefix):
             for n, child in module.named_children():
                 load_parameters(child, prefix + n + '.')
         else:
-            replace_policy.load_params(module,
-                                       sd[0],
-                                       weight_quantizer,
-                                       mp_replace,
-                                       prefix)
+            container.load_params(module, sd[0], weight_quantizer, mp_replace, prefix)
 
     try:
         import transformers
@@ -274,7 +270,7 @@ def load_module_recursive(module, prefix='', level=0):
             else:
                 load_module_recursive(
                     child,
-                    prefix if (level == 0 and ckpt_type == 'pp') and replace_policy.use_load_prefix else \
+                    prefix if (level == 0 and ckpt_type == 'pp') and container.policy.use_load_prefix else \
                     prefix + name + '.',
                     level + 1)
 

@@ -566,7 +566,7 @@ def replace_fn(child, _policy, layer_id=0):
                                            ckpt_type,
                                            ckpt_mp_size,
                                            quantizer,
-                                           replace_policy=container_g.policy)
+                                           container=container_g)
                 pbar.update(1)
         else:
             import gc
@@ -597,7 +597,7 @@ def replace_fn(child, _policy, layer_id=0):
                                            ckpt_mp_size,
                                            quantizer,
                                            int(rank % tp_split_size),
-                                           replace_policy=container_g.policy)
+                                           container=container_g)
                 sds = [None for _ in sds]
                 gc.collect()
 
@@ -619,7 +619,7 @@ def replace_fn(child, _policy, layer_id=0):
                                                ckpt_mp_size,
                                                quantizer,
                                                int(rank % tp_split_size),
-                                               replace_policy=container_g.policy)
+                                               container=container_g)
                     sds = [None for _ in sds]
                     gc.collect()
         print(f"checkpoint loading time at rank {rank}: {time.time()-start_time} sec")