fused q,k,v

OpenBMB · zkh2016 · Aug 29, 2023 · Aug 22, 2023 · Aug 23, 2023 · Aug 23, 2023
commit 100cd55bae8e32d1f46aacc97485c3f00703204f
diff --git a/example/layers/attention.py b/example/layers/attention.py
@@ -44,12 +44,18 @@ def forward(self,
         batch_size, seq_q, dim_model = hidden_q.size()
         seq_kv = hidden_kv.size(1)
 
-        if config['tp_size'] > 1:
-            hidden_q = all_gather(hidden_q, comm=config['tp_comm']).flatten(0,1)
+        assert hidden_q.data_ptr() == hidden_kv.data_ptr()
+
+        hidden_q = bmt.nn.OpParallelLinear.apply(
+			hidden_q,
+			torch.cat([self.project_q.weight, self.project_k.weight, self.project_v.weight], dim=0),
+			torch.cat([self.project_q.bias, self.project_k.bias, self.project_v.bias], dim=0),
+			True, False,
+			False, None
+		)
+
+        h_q, h_k, h_v = hidden_q.chunk(3, dim=-1)
 
-        h_q : torch.Tensor = self.project_q(hidden_q)
-        h_k : torch.Tensor = self.project_k(hidden_q)
-        h_v : torch.Tensor = self.project_v(hidden_q)
         if config['tp_size'] > 1:
             #batch_size  will changed in TensorParallel
             batch_size = h_v.shape[0]