9.21

X-LANCE · ddlBoJack · Jan 22, 2025 · Sep 18, 2024 · Sep 20, 2024 · Sep 20, 2024
commit f751db84cb3802aa9414fddc0488896700a438be
diff --git a/examples/s2s/model/slam_model_s2s.py b/examples/s2s/model/slam_model_s2s.py
@@ -30,8 +30,6 @@ def model_factory(train_config, model_config, **kwargs):
         train_config, model_config, **kwargs
     )
 
-    # TODO: add decoder projector and decoder
-
     model = slam_model_s2s(
         encoder,
         llm,
@@ -83,13 +81,15 @@ def __init__(
             **kwargs,
         )
 
-        # TODO: 增加逻辑，修改 llm 的 lm_head 和 embedding 的词表大小，并重新打印模型大小
+        # resize llm embedding layer
+        if self.model_config.vocab_config.total_vocabsize != self.llm.lm_head.weight.size(0):
+            self.llm.resize_token_embeddings(self.model_config.vocab_config.total_vocabsize)
 
 
-    def concat_whisper_feat(self, audio_feature, input_ids, T, task="A1A2"):
-        btz = len(T)  # 获取批量大小
+    def concat_whisper_feat(self, audio_feature, input_ids, T, task = None):
+        btz = len(T)
         for j in range(btz):
-            if task[j] != "T1T2" and task[j] != "T1A2":
+            if task is None or (task[j] != "T1T2" and task[j] != "T1A2"):
                 for i in range(7):
                     input_ids[j, i, 1 : T[j] + 1, :] = audio_feature[j][: T[j]].clone()
             else:
@@ -111,7 +111,6 @@ def forward(self,
                 ):
         audio_mel = kwargs.get("audio_mel", None)
         audio_mel_post_mask = kwargs.get("audio_mel_post_mask", None) # 2x downsample for whisper
-        audio_length = kwargs.get("audio_length", None)
 
         audio = kwargs.get("audio", None)
         audio_mask = kwargs.get("audio_mask", None)
@@ -157,22 +156,24 @@ def forward(self,
                 else:
                     inputs_embeds = self.llm.model.model.model.embed_tokens(input_ids)
 
-            if audio_mel is not None or audio is not None:
-                inputs_embeds = self.concat_whisper_feat(encoder_outs, inputs_embeds, audio_length)
-
-            inputs_embeds = torch.mean(inputs_embeds, dim=1)  # [btz, seq_length, emb_dim]
+            # if audio_mel is not None or audio is not None:
+            #     inputs_embeds = self.concat_whisper_feat(encoder_outs, inputs_embeds, audio_length) # embed the audio feature into the input_embeds
 
         if modality_mask is not None:
-            modality_mask_start_indices = (modality_mask == True).float().argmax(dim=1)
-            modality_lengths = torch.clamp(modality_mask.sum(dim=1), max=encoder_outs.shape[1]).tolist()
+            modality_mask = modality_mask.unsqueeze(1).repeat(1, 7, 1)  # [btz, 8, seq_length]
+            modality_mask_start_indices = (modality_mask == True).float().argmax(dim=2)
+            modality_lengths = torch.clamp(modality_mask.sum(dim=2), max=encoder_outs.shape[1]).tolist()
 
             encoder_outs_pad = torch.zeros_like(inputs_embeds)
             for i in range(encoder_outs.shape[0]):
-                encoder_outs_pad[
-                    i, modality_mask_start_indices[i]:modality_mask_start_indices[i]+modality_lengths[i]
-                ] = encoder_outs[i][:modality_lengths[i]]
+                for j in range(7):
+                    start_idx = modality_mask_start_indices[i, j].item()
+                    length = modality_lengths[i][j]
+                    encoder_outs_pad[i, j, start_idx:start_idx+length] = encoder_outs[i, :length]
 
-            inputs_embeds = encoder_outs_pad + inputs_embeds * (~modality_mask[:, :, None])
+            inputs_embeds[:, :7, :, :] = encoder_outs_pad[:, :7, :, :] + inputs_embeds[:, :7, :, :] * (~modality_mask[:, :, :, None])
+
+        inputs_embeds = torch.mean(inputs_embeds, dim=1)  # [btz, seq_length, emb_dim], average over the 8 layers
 
         if kwargs.get("inference_mode", False):
             return inputs_embeds, attention_mask

diff --git a/examples/s2s/s2s_config.py b/examples/s2s/s2s_config.py
@@ -1,5 +1,45 @@
 from dataclasses import dataclass, field
 from typing import Optional, List
+
+@dataclass
+class VocabConfig:
+    text_vocabsize: int = 151936
+    text_specialtokens: int = 64
+    audio_vocabsize: int = 4096
+    audio_specialtokens: int = 64
+    total_vocabsize: int = 181120
+
+    padded_text_vocabsize: int = field(init=False)
+    padded_audio_vocabsize: int = field(init=False)
+
+    eot: int = field(init=False)   # end of text token
+    pad_t: int = field(init=False) # padding text token
+    input_t: int = field(init=False) # input text token
+    answer_t: int = field(init=False) # answer text token
+    asr: int = field(init=False)   # ASR token
+
+    eoa: int = field(init=False)   # end of audio token
+    pad_a: int = field(init=False) # padding audio token
+    input_a: int = field(init=False) # input audio token
+    answer_a: int = field(init=False) # answer audio token
+    split: int = field(init=False) # split token
+
+    def __post_init__(self):
+        self.padded_text_vocabsize = self.text_vocabsize + self.text_specialtokens
+        self.padded_audio_vocabsize = self.audio_vocabsize + self.audio_specialtokens
+
+        self.eot = self.text_vocabsize
+        self.pad_t = self.text_vocabsize + 1
+        self.input_t = self.text_vocabsize + 2
+        self.answer_t = self.text_vocabsize + 3
+        self.asr = self.text_vocabsize + 4
+
+        self.eoa = self.audio_vocabsize
+        self.pad_a = self.audio_vocabsize + 1
+        self.input_a = self.audio_vocabsize + 2
+        self.answer_a = self.audio_vocabsize + 3
+        self.split = self.audio_vocabsize + 4
+
 @dataclass
 class ModelConfig:
     file: str = "examples/s2s/model/slam_model_s2s.py:model_factory"
@@ -20,6 +60,7 @@ class ModelConfig:
     encoder_type: str = field(default="finetune", metadata={
         "help": "whether model is only pretrained or finetuned, used for models such as hubert"
     })
+    vocab_config: VocabConfig = field(default_factory=VocabConfig)
 
 @dataclass
 class PeftConfig:
@@ -79,6 +120,8 @@ class TrainConfig:
     })
     freeze_encoder:bool = False
 
+
+
 @dataclass
 class DataConfig:
     dataset: str = "speech_dataset_s2s"
@@ -106,6 +149,8 @@ class DataConfig:
     manifest_format: str = field(default="datasets", metadata={ "help": "alternative: jsonl" })
     split_size: float = 0.1
 
+    vocab_config: VocabConfig = field(default_factory=VocabConfig)
+
 @dataclass
 class FSDPConfig:
     mixed_precision: bool = True

diff --git a/src/slam_llm/datasets/speech_dataset_s2s.py b/src/slam_llm/datasets/speech_dataset_s2s.py
@@ -10,25 +10,25 @@
 import librosa
 
 # these tokens setting is from Mini-Omni
-text_vocabsize = 151936
-text_specialtokens = 64
-audio_vocabsize = 4096
-audio_specialtokens = 64
+# text_vocabsize = 151936
+# text_specialtokens = 64
+# audio_vocabsize = 4096
+# audio_specialtokens = 64
 
-padded_text_vocabsize = text_vocabsize + text_specialtokens
-padded_audio_vocabsize = audio_vocabsize + audio_specialtokens
+# padded_text_vocabsize = text_vocabsize + text_specialtokens
+# padded_audio_vocabsize = audio_vocabsize + audio_specialtokens
 
-_eot = text_vocabsize
-_pad_t = text_vocabsize + 1
-_input_t = text_vocabsize + 2
-_answer_t = text_vocabsize + 3
-_asr = text_vocabsize + 4
+# _eot = text_vocabsize
+# _pad_t = text_vocabsize + 1
+# _input_t = text_vocabsize + 2
+# _answer_t = text_vocabsize + 3
+# _asr = text_vocabsize + 4
 
-_eoa = audio_vocabsize
-_pad_a = audio_vocabsize + 1
-_input_a = audio_vocabsize + 2
-_answer_a = audio_vocabsize + 3
-_split = audio_vocabsize + 4
+# _eoa = audio_vocabsize
+# _pad_a = audio_vocabsize + 1
+# _input_a = audio_vocabsize + 2
+# _answer_a = audio_vocabsize + 3
+# _split = audio_vocabsize + 4
 
 
 class SpeechDatasetJsonl(torch.utils.data.Dataset):
@@ -58,8 +58,29 @@ def __init__(self,
         assert self.input_type in ["raw", "mel"], "input_type must be one of [raw, mel]" 
         assert self.manifest_format in ["datasets", "jsonl"], "manifest_format must be one of [datasets, jsonl]"
 
-        self.special_token_a = _answer_a
-        self.special_token_t = _answer_t
+        # vocab config
+        self.vocab_config = dataset_config.get("vocab_config", None)
+        self.text_vocabsize = self.vocab_config.text_vocabsize
+        self.text_specialtokens = self.vocab_config.text_specialtokens
+        self.audio_vocabsize = self.vocab_config.audio_vocabsize
+        self.audio_specialtokens = self.vocab_config.audio_specialtokens
+        self.padded_text_vocabsize = self.vocab_config.padded_text_vocabsize
+        self.padded_audio_vocabsize = self.vocab_config.padded_audio_vocabsize
+        self.total_vocabsize = self.vocab_config.total_vocabsize
+        self._eot = self.vocab_config.eot
+        self._pad_t = self.vocab_config.pad_t
+        self._input_t = self.vocab_config.input_t
+        self._answer_t = self.vocab_config.answer_t
+        self._asr = self.vocab_config.asr
+        self._eoa = self.vocab_config.eoa
+        self._pad_a = self.vocab_config.pad_a
+        self._input_a = self.vocab_config.input_a
+        self._answer_a = self.vocab_config.answer_a
+        self._split = self.vocab_config.split
+
+        self.special_token_a = self._answer_a
+        self.special_token_t = self._answer_t
+
 
         self.data_list = []
 
@@ -126,22 +147,22 @@ def get_input_ids(self, length, special_token_a, special_token_t):
         input_ids = []
         for i in range(7):
             input_ids_item = []
-            input_ids_item.append(layershift(_input_a, i))
-            input_ids_item += [layershift(_pad_a, i)] * length
-            input_ids_item += [(layershift(_eoa, i)), layershift(special_token_a, i)]
+            input_ids_item.append(layershift(self._input_a, i))
+            input_ids_item += [layershift(self._pad_a, i)] * length
+            input_ids_item += [(layershift(self._eoa, i)), layershift(special_token_a, i)]
             input_ids.append(torch.tensor(input_ids_item).unsqueeze(0))
-        input_id_T = torch.tensor([_input_t] + [_pad_t] * length + [_eot, special_token_t])
+        input_id_T = torch.tensor([self._input_t] + [self._pad_t] * length + [self._eot, special_token_t])
         input_ids.append(input_id_T.unsqueeze(0))
         return input_ids
 
     def get_answer_ids(self, length):
         answer_ids = []
         for i in range(7):
             answer_ids_item = []
-            answer_ids_item += [layershift(_pad_a, i)] * length
-            answer_ids_item += [(layershift(_eoa, i))]
+            answer_ids_item += [layershift(self._pad_a, i)] * length
+            answer_ids_item += [(layershift(self._eoa, i))]
             answer_ids.append(torch.tensor(answer_ids_item).unsqueeze(0))
-        answer_id_T = torch.tensor([_pad_t] * length + [_eot])
+        answer_id_T = torch.tensor([self._pad_t] * length + [self._eot])
         answer_ids.append(answer_id_T.unsqueeze(0))
         return answer_ids
 
@@ -201,7 +222,7 @@ def __getitem__(self, index):
 
         answer_text = self.answer_template.format(target_text)
         answer_text_ids = self.tokenizer.encode(answer_text)  # [prompt,answer]
-        answer_text_ids.append(_eot) # [prompt,answer,eos]
+        answer_text_ids.append(self._eot) # [prompt,answer,eos]
         answer_text_ids = torch.tensor(answer_text_ids, dtype=torch.int64)
         answer_ids = self.get_answer_ids(target_audio_length)   # NOTE: suppose audio length is always longer than text length
         answer_ids[7] = torch.cat((answer_text_ids.unsqueeze(0), answer_ids[7][:,len(answer_text_ids):]),dim=1)