请问报告是中文的情况下要怎么训练？ #3

shenshaowei · 2024-10-11T02:54:05Z

你好，我看了下代码，把代码的tokenizer换成了中文的jieba分词器，但是生成结果非常低，请问要怎么修改代码?需要改哪些内容呢？能否指导一下呢

SKD-HPC · 2024-10-11T03:05:38Z

你好。首先需要修改一下超参数。比较重要的有，生成报告的最大长度，单词出现的最低频率等。要根据数据集的特点对这些超参数进行设置。其次，如果数据集太小，那么不同随机数种子生成的结果波动会很大。

shenshaowei · 2024-10-11T03:35:32Z

你好，好像主要还是关注分词器还有中英文数据集的差异，我看大佬你的代码是用的统计词频，中文的话建议用jieba吗？数据集层面主要是这三个代码：
r2gen.py里的R2GenModel里特征的不同数据集选择不同特征拼接（与数据集图像数有关，forward_iu_xray：2，forward_mimic_cxr：1）
dataloaders.py里的

class R2DataLoader(DataLoader):
        if self.dataset_name == 'iu_xray':
            self.dataset = IuxrayMultiImageDataset(self.args, self.tokenizer, self.split, transform=self.transform)
        else:
            self.dataset = MimiccxrSingleImageDataset(self.args, self.tokenizer, self.split, transform=self.transform)

dataset.py里的：

class IuxrayMultiImageDataset(BaseDataset):
    def __getitem__(self, idx):
        example = self.examples[idx]
        image_id = example['id']
        image_path = example['image_path']
        image_1 = Image.open(os.path.join(self.image_dir, image_path[0])).convert('RGB')
        image_2 = Image.open(os.path.join(self.image_dir, image_path[1])).convert('RGB')
        if self.transform is not None:
            image_1 = self.transform(image_1)
            image_2 = self.transform(image_2)
        image = torch.stack((image_1, image_2), 0)
        report_ids = example['ids']
        report_masks = example['mask']
        seq_length = len(report_ids)
        sample = (image_id, image, report_ids, report_masks, seq_length)
        return sample


class MimiccxrSingleImageDataset(BaseDataset):
    def __getitem__(self, idx):
        example = self.examples[idx]
        image_id = example['id']
        image_path = example['image_path']
        image = Image.open(os.path.join(self.image_dir, image_path[0])).convert('RGB')
        if self.transform is not None:
            image = self.transform(image)
        report_ids = example['ids']
        report_masks = example['mask']
        seq_length = len(report_ids)
        sample = (image_id, image, report_ids, report_masks, seq_length)
        return sample

tokenizer主要是tokenizers.py这个代码：

    def clean_report_iu_xray(self, report):
        report_cleaner = lambda t: t.replace('..', '.').replace('..', '.').replace('..', '.').replace('1. ', '') \
            .replace('. 2. ', '. ').replace('. 3. ', '. ').replace('. 4. ', '. ').replace('. 5. ', '. ') \
            .replace(' 2. ', '. ').replace(' 3. ', '. ').replace(' 4. ', '. ').replace(' 5. ', '. ') \
            .strip().lower().split('. ')
        sent_cleaner = lambda t: re.sub('[.,?;*!%^&_+():-\[\]{}]', '', t.replace('"', '').replace('/', '').
                                        replace('\\', '').replace("'", '').strip().lower())
        tokens = [sent_cleaner(sent) for sent in report_cleaner(report) if sent_cleaner(sent) != []]
        report = ' . '.join(tokens) + ' .'
        return report

    def clean_report_mimic_cxr(self, report):
        report_cleaner = lambda t: t.replace('\n', ' ').replace('__', '_').replace('__', '_').replace('__', '_') \
            .replace('__', '_').replace('__', '_').replace('__', '_').replace('__', '_').replace('  ', ' ') \
            .replace('  ', ' ').replace('  ', ' ').replace('  ', ' ').replace('  ', ' ').replace('  ', ' ') \
            .replace('..', '.').replace('..', '.').replace('..', '.').replace('..', '.').replace('..', '.') \
            .replace('..', '.').replace('..', '.').replace('..', '.').replace('1. ', '').replace('. 2. ', '. ') \
            .replace('. 3. ', '. ').replace('. 4. ', '. ').replace('. 5. ', '. ').replace(' 2. ', '. ') \
            .replace(' 3. ', '. ').replace(' 4. ', '. ').replace(' 5. ', '. ') \
            .strip().lower().split('. ')
        sent_cleaner = lambda t: re.sub('[.,?;*!%^&_+():-\[\]{}]', '', t.replace('"', '').replace('/', '')
                                        .replace('\\', '').replace("'", '').strip().lower())
        tokens = [sent_cleaner(sent) for sent in report_cleaner(report) if sent_cleaner(sent) != []]
        report = ' . '.join(tokens) + ' .'
        return report

定义了不同的数据集清洗方法，在 create_vocabulary 方法中，大佬你用分词清洗文本+统计词频+筛选的方法去创建词汇表，然后生成 token2idx（单词到索引的映射）和 idx2token（索引到单词的映射），主要疑惑：分词清洗文本的话中文数据集要这么做？以及直接把这一步tokenizer直接换成中文jieba分词器可以吗

SKD-HPC · 2024-10-11T06:55:47Z

jieba分词应该是可以的。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问报告是中文的情况下要怎么训练？ #3

请问报告是中文的情况下要怎么训练？ #3

shenshaowei commented Oct 11, 2024 •

edited

Loading

SKD-HPC commented Oct 11, 2024

shenshaowei commented Oct 11, 2024

SKD-HPC commented Oct 11, 2024

请问报告是中文的情况下要怎么训练？ #3

请问报告是中文的情况下要怎么训练？ #3

Comments

shenshaowei commented Oct 11, 2024 • edited Loading

SKD-HPC commented Oct 11, 2024

shenshaowei commented Oct 11, 2024

SKD-HPC commented Oct 11, 2024

shenshaowei commented Oct 11, 2024 •

edited

Loading