xcit_nano_12_p8_224.yml

Global:
  checkpoints: null
  pretrained_model: null
  output_dir: "./output/"
  device: "gpu"
  save_interval: 1
  eval_during_train: True
  eval_interval: 1
  epochs: 400
  print_batch_step: 20
  use_visualdl: True
  use_ema: True
  ema_decay: 0.99996


Arch:
  name: XCiT_nano_12_p8
  class_num: 1000


Loss:
  Train:
    - CELoss:
        epsilon: 0.1
        weight: 1.0
  Eval:
    - CELoss:
        weight: 1.0

Optimizer:
  name: AdamW
  weight_decay: 0.05
  lr: 
    name: Cosine
    learning_rate: 0.0005
    warmup_start_lr: 0.000001
    warmup_epoch: 5
    eta_min: 0.00001

DataLoader:
  Train:
    dataset:
      name: ImageNetDataset
      image_root: "data/ILSVRC2012/"
      cls_label_path: "data/ILSVRC2012/train_list.txt"
      transform_ops:
        - DecodeImage:
            to_rgb: True
            channel_first: False
        - RandCropImage:
            size: 224
            backend: "pil"
            interpolation: "bicubic"
        - RandFlipImage:
            flip_code: 1
        - TimmAutoAugment:
            config_str: "rand-m9-mstd0.5-inc1"
            img_size: 224
        - NormalizeImage:
            scale: 0.00392157
            mean: [0.485, 0.456, 0.406]
            std: [0.229, 0.224, 0.225]
            order: ''
        - RandomErasing:
            EPSILON: 0.25
            mode: "pixel"
            attempt: 1
    sampler:
        name: DistributedBatchSampler
        batch_size: 64
        drop_last: False
        shuffle: True
    loader:
        num_workers: 6
        use_shared_memory: False
  Eval:
    dataset:
      name: ImageNetDataset
      image_root: "data/ILSVRC2012/"
      cls_label_path: "data/ILSVRC2012/val_list.txt"
      transform_ops: 
        - DecodeImage:
            to_rgb: True
            channel_first: False
        - ResizeImage:
            resize_short: 224
            interpolation: "bicubic"
            backend: "pil"
        - CropImage:
            size: 224
        - NormalizeImage:
            scale: 0.00392157
            mean: [0.485, 0.456, 0.406]
            std: [0.229, 0.224, 0.225]
            order: ''
    sampler:
        name: BatchSampler
        batch_size: 96
        drop_last: False
        shuffle: False
    loader:
        num_workers: 6
        use_shared_memory: False


Metric:
  Train: 
    - TopkAcc:
        topk: [1, 5]
  Eval:
    - TopkAcc:
        topk: [1, 5]