NVIDIA · layalir · Jan 16, 2024 · Jan 5, 2024 · ShriyaPalsamudram · Jan 10, 2024
diff --git a/nemo/collections/nlp/modules/common/megatron/layer_norm_1p.py b/nemo/collections/nlp/modules/common/megatron/layer_norm_1p.py
@@ -40,7 +40,7 @@ def reset_parameters(self):
             torch.nn.init.zeros_(self.bias)
 
         def forward(self, x):
-            return _fast_layer_norm(x, self.weight + 1, self.bias, self.epsilon)
+            return _fast_layer_norm(x, self.weight + 1, self.bias, self.epsilon, memory_efficient=False)
 
 
 else: