main_train.py

import torch
import argparse
import numpy as np
from modules.tokenizers import Tokenizer
from modules.dataloaders import R2DataLoader
from modules.metrics import compute_scores
from modules.optimizers import build_optimizer, build_lr_scheduler
from modules.trainer import Trainer
from modules.loss import compute_loss
from models.r2gen import R2GenModel, R2GenModel_plus_v1, R2GenModel_plus_v2, R2GenModel_plus_v2_1, R2GenModel_plus_v2_2
from utils.ddp import ddp_setup
from torch.distributed import destroy_process_group
import torch.multiprocessing as mp
import torch.distributed as dist
import wandb
import random
import os
# os.environ["CUDA_VISIBLE_DEVICES"] = "2"


def parse_agrs():
    parser = argparse.ArgumentParser()

    # Data input settings
    parser.add_argument('--image_dir', type=str, default='/jhcnas1/chenzhixuan/CTRG/Chest_new_1',
                        help='the path to the directory containing the data.')
    parser.add_argument('--ann_path', type=str, default='/jhcnas1/chenzhixuan/CTRG/Chest_new_1/annotation.json',
                        help='the path to the directory containing the data.')

    # Data loader settings
    parser.add_argument('--dataset_name', type=str, default='CTRG',
                        choices=['iu_xray', 'mimic_cxr', 'CTRG'], help='the dataset to be used.')
    parser.add_argument('--max_seq_length', type=int, default=150,
                        help='the maximum sequence length of the reports.')
    parser.add_argument('--threshold', type=int, default=5,
                        help='the cut off frequency for the words.')
    parser.add_argument('--num_workers', type=int, default=2,
                        help='the number of workers for dataloader.')
    parser.add_argument('--batch_size', type=int, default=2,
                        help='the number of samples for a batch')
    parser.add_argument('--num_slices', type=int, default=10,
                        help='the number of selected slices per image.')

    # Model settings (for visual extractor)
    parser.add_argument('--visual_extractor', type=str,
                        default='resnet101', help='the visual extractor to be used.')
    parser.add_argument('--model_name', type=str,
                        default='R2GenModel_plus_v2_2')
    parser.add_argument('--visual_extractor_pretrained', type=bool,
                        default=True, help='whether to load the pretrained visual extractor')

    # Model settings (for Transformer)
    parser.add_argument('--d_model', type=int, default=512,
                        help='the dimension of Transformer.')
    parser.add_argument('--d_ff', type=int, default=512,
                        help='the dimension of FFN.')
    parser.add_argument('--d_vf', type=int, default=2048,
                        help='the dimension of the patch features.')
    parser.add_argument('--num_heads', type=int, default=8,
                        help='the number of heads in Transformer.')
    parser.add_argument('--num_layers', type=int, default=3,
                        help='the number of layers of Transformer.')
    parser.add_argument('--num_slice_layers', type=int, default=1,
                        help='the number of layers of SliceTransformer.')
    parser.add_argument('--dropout', type=float, default=0.1,
                        help='the dropout rate of Transformer.')
    parser.add_argument('--logit_layers', type=int, default=1,
                        help='the number of the logit layer.')
    parser.add_argument('--bos_idx', type=int, default=0,
                        help='the index of <bos>.')
    parser.add_argument('--eos_idx', type=int, default=0,
                        help='the index of <eos>.')
    parser.add_argument('--pad_idx', type=int, default=0,
                        help='the index of <pad>.')
    parser.add_argument('--use_bn', type=int, default=0,
                        help='whether to use batch normalization.')
    parser.add_argument('--drop_prob_lm', type=float, default=0.5,
                        help='the dropout rate of the output layer.')
    # for Relational Memory
    parser.add_argument('--rm_num_slots', type=int, default=3,
                        help='the number of memory slots.')
    parser.add_argument('--rm_num_heads', type=int, default=8,
                        help='the numebr of heads in rm.')
    parser.add_argument('--rm_d_model', type=int,
                        default=512, help='the dimension of rm.')

    # Sample related
    parser.add_argument('--sample_method', type=str, default='beam_search',
                        help='the sample methods to sample a report.')
    parser.add_argument('--beam_size', type=int, default=3,
                        help='the beam size when beam searching.')
    parser.add_argument('--temperature', type=float,
                        default=1.0, help='the temperature when sampling.')
    parser.add_argument('--sample_n', type=int, default=1,
                        help='the sample number per image.')
    parser.add_argument('--group_size', type=int,
                        default=1, help='the group size.')
    parser.add_argument('--output_logsoftmax', type=int,
                        default=1, help='whether to output the probabilities.')
    parser.add_argument('--decoding_constraint', type=int,
                        default=0, help='whether decoding constraint.')
    parser.add_argument('--block_trigrams', type=int,
                        default=1, help='whether to use block trigrams.')

    # Trainer settings
    parser.add_argument('--n_gpu', type=int, default=1,
                        help='the number of gpus to be used.')
    parser.add_argument('--epochs', type=int, default=100,
                        help='the number of training epochs.')
    parser.add_argument('--save_dir', type=str, default='results/CTRG/test',
                        help='the patch to save the models.')
    parser.add_argument('--record_dir', type=str, default='records/',
                        help='the patch to save the results of experiments')
    parser.add_argument('--save_period', type=int,
                        default=1, help='the saving period.')
    parser.add_argument('--monitor_mode', type=str, default='max',
                        choices=['min', 'max'], help='whether to max or min the metric.')
    parser.add_argument('--monitor_metric', type=str,
                        default='BLEU_4', help='the metric to be monitored.')
    parser.add_argument('--early_stop', type=int, default=50,
                        help='the patience of training.')

    # Optimization
    parser.add_argument('--optim', type=str, default='Adam',
                        help='the type of the optimizer.')
    parser.add_argument('--lr_ve', type=float, default=5e-5,
                        help='the learning rate for the visual extractor.')
    parser.add_argument('--lr_ed', type=float, default=1e-4,
                        help='the learning rate for the remaining parameters.')
    parser.add_argument('--weight_decay', type=float,
                        default=5e-5, help='the weight decay.')
    parser.add_argument('--amsgrad', type=bool, default=True, help='.')

    # Learning Rate Scheduler
    parser.add_argument('--lr_scheduler', type=str, default='StepLR',
                        help='the type of the learning rate scheduler.')
    parser.add_argument('--step_size', type=int, default=50,
                        help='the step size of the learning rate scheduler.')
    parser.add_argument('--gamma', type=float, default=0.1,
                        help='the gamma of the learning rate scheduler.')

    # Others
    parser.add_argument('--seed', type=int, default=9233, help='.')
    parser.add_argument(
        '--resume', type=str, help='whether to resume the training from existing checkpoints.')
    parser.add_argument('--master_port', type=int, default=12354,
                        help='the port to be used for distributed training.')
    parser.add_argument('--exp_name', type=str, default='test',
                        help='the name of the experiment.')
    parser.add_argument('--run', action='store_true', default=False,
                        help='whether start to run for real training')

    args = parser.parse_args()
    return args


def main(rank=0, world_size=1, args=None):
    if args.n_gpu > 1:
        # setup distributed training
        ddp_setup(rank, world_size, args.master_port)

    if rank == 0 and args.run == True:
        # init wandb
        wandb.init(
            project="CT_Report_generation",
            name=args.exp_name,
            # track hyperparameters and run metadata
            config={
                "dataset_name": args.dataset_name,
                "visual_extractor": args.visual_extractor,
                "num_slices": args.num_slices,
                "batch_size": args.batch_size,
            }
        )

    if rank == 0:
        # 打印参数
        print("===== 参数设置 =====")
        for arg in vars(args):
            print(f"{arg}: {getattr(args, arg)}")
        print("===================")

    # fix random seeds
    torch.manual_seed(args.seed)
    random.seed(args.seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
    np.random.seed(args.seed)
    torch.cuda.manual_seed(args.seed)

    # create tokenizer
    tokenizer = Tokenizer(args)

    # create data loader
    if args.n_gpu > 1:
        train_dataloader = R2DataLoader(
            args, tokenizer, split='train', shuffle=False)
    else:
        train_dataloader = R2DataLoader(
            args, tokenizer, split='train', shuffle=True)
    val_dataloader = R2DataLoader(args, tokenizer, split='val', shuffle=False)
    test_dataloader = R2DataLoader(
        args, tokenizer, split='test', shuffle=False)

    # build model architecture
    if args.model_name == 'R2GenModel':
        model = R2GenModel(args, tokenizer)
    elif args.model_name == 'R2GenModel_plus_v1':
        model = R2GenModel_plus_v1(args, tokenizer)
    elif args.model_name == 'R2GenModel_plus_v2':
        model = R2GenModel_plus_v2(args, tokenizer)
    elif args.model_name == 'R2GenModel_plus_v2_1':
        model = R2GenModel_plus_v2_1(args, tokenizer)
    elif args.model_name == 'R2GenModel_plus_v2_2':
        model = R2GenModel_plus_v2_2(args, tokenizer)

    # get function handles of loss and metrics
    criterion = compute_loss
    metrics = compute_scores

    # build optimizer, learning rate scheduler
    optimizer = build_optimizer(args, model)
    lr_scheduler = build_lr_scheduler(args, optimizer)

    # build trainer and start to train
    trainer = Trainer(model, criterion, metrics, rank, optimizer, args,
                      lr_scheduler, train_dataloader, val_dataloader, test_dataloader)
    trainer.train()

    if rank == 0 and args.run == True:
        wandb.finish()

    if args.n_gpu > 1:
        destroy_process_group()


if __name__ == '__main__':
    # parse arguments
    args = parse_agrs()

    if args.n_gpu == 1:
        main(args=args)
    else:
        mp.spawn(main, nprocs=args.n_gpu, args=(args.n_gpu, args))