train_net.py

#!/usr/bin/env python3
# Copyright (c) Facebook, Inc. and its affiliates.
# yr copy from pointrend

"""
Script.

This script is a simplified version of the training script in detectron2/tools.
"""

import os
import torch
import itertools

import detectron2.data.transforms as T
import detectron2.utils.comm as comm
from detectron2.checkpoint import DetectionCheckpointer
from detectron2.config import get_cfg
from detectron2.data import DatasetMapper, MetadataCatalog, build_detection_train_loader
from detectron2.engine import DefaultTrainer, default_argument_parser, default_setup, launch
from detectron2.evaluation import (
    CityscapesInstanceEvaluator,
    CityscapesSemSegEvaluator,
    COCOEvaluator,
    DatasetEvaluators,
    LVISEvaluator,
    SemSegEvaluator,
    verify_results,
)

from detectron2.solver import get_default_optimizer_params
from detectron2.solver.build import maybe_add_gradient_clipping

from modeling import add_boundaryformer_config
from modeling.data import BoxSnakeDatasetMapper


def build_sem_seg_train_aug(cfg):
    augs = [
        T.ResizeShortestEdge(
            cfg.INPUT.MIN_SIZE_TRAIN, cfg.INPUT.MAX_SIZE_TRAIN, cfg.INPUT.MIN_SIZE_TRAIN_SAMPLING
        )
    ]
    if cfg.INPUT.CROP.ENABLED:
        augs.append(
            T.RandomCrop_CategoryAreaConstraint(
                cfg.INPUT.CROP.TYPE,
                cfg.INPUT.CROP.SIZE,
                cfg.INPUT.CROP.SINGLE_CATEGORY_MAX_AREA,
                cfg.MODEL.SEM_SEG_HEAD.IGNORE_VALUE,
            )
        )
    if cfg.INPUT.COLOR_AUG_SSD:
        augs.append(ColorAugSSDTransform(img_format=cfg.INPUT.FORMAT))
    augs.append(T.RandomFlip())
    return augs


class Trainer(DefaultTrainer):
    """
    We use the "DefaultTrainer" which contains a number pre-defined logic for
    standard training workflow. They may not work for you, especially if you
    are working on a new research project. In that case you can use the cleaner
    "SimpleTrainer", or write your own training loop.
    """

    @classmethod
    def build_evaluator(cls, cfg, dataset_name, output_folder=None):
        """
        Create evaluator(s) for a given dataset.
        This uses the special metadata "evaluator_type" associated with each builtin dataset.
        For your own dataset, you can simply create an evaluator manually in your
        script and do not have to worry about the hacky if-else logic here.
        """
        if output_folder is None:
            output_folder = os.path.join(cfg.OUTPUT_DIR, "inference")
        evaluator_list = []
        evaluator_type = MetadataCatalog.get(dataset_name).evaluator_type
        if evaluator_type == "lvis":
            return LVISEvaluator(dataset_name, output_dir=output_folder)
        if evaluator_type == "coco":
            return COCOEvaluator(dataset_name, output_dir=output_folder)
        if evaluator_type == "sem_seg":
            return SemSegEvaluator(
                dataset_name,
                distributed=True,
                output_dir=output_folder,
            )
        if evaluator_type == "cityscapes_instance":
            assert (
                torch.cuda.device_count() > comm.get_rank()
            ), "CityscapesEvaluator currently do not work with multiple machines."
            return CityscapesInstanceEvaluator(dataset_name)
        if evaluator_type == "cityscapes_sem_seg":
            assert (
                torch.cuda.device_count() > comm.get_rank()
            ), "CityscapesEvaluator currently do not work with multiple machines."
            return CityscapesSemSegEvaluator(dataset_name)
        if len(evaluator_list) == 0:
            raise NotImplementedError(
                "no Evaluator for the dataset {} with the type {}".format(
                    dataset_name, evaluator_type
                )
            )
        if len(evaluator_list) == 1:
            return evaluator_list[0]
        return DatasetEvaluators(evaluator_list)

    @classmethod
    def build_train_loader(cls, cfg):
        mapper = None
        if "SemanticSegmentor" in cfg.MODEL.META_ARCHITECTURE:
            mapper = DatasetMapper(cfg, is_train=True, augmentations=build_sem_seg_train_aug(cfg))
        if cfg.MODEL.BOX_SUP.ENABLE:
            mapper = BoxSnakeDatasetMapper(cfg, is_train=True)
        return build_detection_train_loader(cfg, mapper=mapper)

    @classmethod
    def build_optimizer(cls, cfg, model):
        """
        Build an optimizer from config.
        """

        overrides = {}
        if cfg.MODEL.BACKBONE.NAME == "build_swin_fpn_backbone":
            overrides.update({
                "absolute_pos_embed": {"lr": cfg.SOLVER.BASE_LR, "weight_decay": 0.0},
                "relative_position_bias_table": {"lr": cfg.SOLVER.BASE_LR, "weight_decay": 0.0},
                })
        
        params = get_default_optimizer_params(
            model,
            weight_decay=cfg.SOLVER.WEIGHT_DECAY,
            weight_decay_norm=cfg.SOLVER.WEIGHT_DECAY_NORM,
            overrides=overrides
        )

        def maybe_add_full_model_gradient_clipping(optim):
            # detectron2 doesn't have full model gradient clipping now
            clip_norm_val = cfg.SOLVER.CLIP_GRADIENTS.CLIP_VALUE
            enable = (
                cfg.SOLVER.CLIP_GRADIENTS.ENABLED
                and cfg.SOLVER.CLIP_GRADIENTS.CLIP_TYPE == "full_model"
                and clip_norm_val > 0.0
            )

            class FullModelGradientClippingOptimizer(optim):
                def step(self, closure=None):
                    all_params = itertools.chain(*[x["params"] for x in self.param_groups])
                    torch.nn.utils.clip_grad_norm_(all_params, clip_norm_val)
                    super().step(closure=closure)

            return FullModelGradientClippingOptimizer if enable else optim

        optimizer_type = cfg.SOLVER.OPTIMIZER
        if optimizer_type == "SGD":
            optimizer = maybe_add_gradient_clipping(cfg, torch.optim.SGD)(
                params,
                cfg.SOLVER.BASE_LR,
                momentum=cfg.SOLVER.MOMENTUM,
                nesterov=cfg.SOLVER.NESTEROV,
            )
        elif (optimizer_type == "ADAMW" or optimizer_type == "ADAM") and (cfg.MODEL.BACKBONE.NAME != "build_swin_fpn_backbone"):
            optimizer = maybe_add_gradient_clipping(cfg, torch.optim.AdamW)(
                params,
                cfg.SOLVER.BASE_LR
            )  # boundary former optimizer
        elif (optimizer_type == "ADAMW" or optimizer_type == "ADAM") and (cfg.MODEL.BACKBONE.NAME == "build_swin_fpn_backbone"):
            optimizer = maybe_add_full_model_gradient_clipping(torch.optim.AdamW)(
                params, cfg.SOLVER.BASE_LR, betas=(0.9, 0.999), # following mask2former
                weight_decay=cfg.SOLVER.WEIGHT_DECAY,
            )
        else:
            NotImplementedError(f"no optimizer type {optimizer_type}")

        return optimizer
    

def setup(args):
    """
    Create configs and perform basic setups.
    """
    cfg = get_cfg()
    add_boundaryformer_config(cfg)
    
    cfg.merge_from_file(args.config_file)
    cfg.merge_from_list(args.opts)

    # Update the strings (xinlei's)
    cfg.TRAIN_SET_STR = "+".join(cfg.DATASETS.TRAIN)
    if args.config_file:
        # we also want the enclosing directory.
        dir_name = os.path.basename(os.path.dirname(args.config_file))        
        base_name = os.path.basename(args.config_file)
        
        cfg.CFG_FILE_STR, _ = os.path.splitext(base_name)
        cfg.CFG_FILE_STR = os.path.join(dir_name, base_name)

    IGNORE_KEYS = ["MODEL.WEIGHTS", "SOLVER.IMS_PER_BATCH"]
    if args.opts:
        opt_idx = 0
        kvs = []
        while opt_idx < len(args.opts):
            key, value = args.opts[opt_idx:(opt_idx + 2)]
            if key in IGNORE_KEYS:
                opt_idx += 2
                continue

            # no spaces.
            value = value.replace(" ", "_")

            kvs.append("{0}#{1}".format(key, value))
            opt_idx += 2            

        cfg.OPT_STR = "+".join(kvs)

    # compute the train output
    cfg.OUTPUT_DIR = os.path.join(
        cfg.OUTPUT_PREFIX, "train", cfg.TRAIN_SET_STR, cfg.CFG_FILE_STR, cfg.OPT_STR
    )

    cfg.freeze()
    default_setup(cfg, args)
    return cfg
        
def main(args):
    cfg = setup(args)

    if args.eval_only:
        model = Trainer.build_model(cfg)
        DetectionCheckpointer(model, save_dir=cfg.OUTPUT_DIR).resume_or_load(
            cfg.MODEL.WEIGHTS, resume=args.resume
        )
        res = Trainer.test(cfg, model)
        if comm.is_main_process():
            verify_results(cfg, res)
        return res

    trainer = Trainer(cfg)
    trainer.resume_or_load(resume=args.resume)
    return trainer.train()


if __name__ == "__main__":
    args = default_argument_parser().parse_args()
    print("Command Line Args:", args)
    launch(
        main,
        args.num_gpus,
        num_machines=args.num_machines,
        machine_rank=args.machine_rank,
        dist_url=args.dist_url,
        args=(args,),
    )