open-mmlab · xvjiarui · Jun 23, 2021 · Apr 28, 2021 · Apr 28, 2021 · Apr 28, 2021
diff --git a/configs/_base_/datasets/cityscapes_768x768.py b/configs/_base_/datasets/cityscapes_768x768.py
@@ -0,0 +1,35 @@
+_base_ = './cityscapes.py'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
+crop_size = (768, 768)
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadAnnotations'),
+    dict(type='Resize', img_scale=(2049, 1025), ratio_range=(0.5, 2.0)),
+    dict(type='RandomCrop', crop_size=crop_size, cat_max_ratio=0.75),
+    dict(type='RandomFlip', flip_ratio=0.5),
+    dict(type='PhotoMetricDistortion'),
+    dict(type='Normalize', **img_norm_cfg),
+    dict(type='Pad', size=crop_size, pad_val=0, seg_pad_val=255),
+    dict(type='DefaultFormatBundle'),
+    dict(type='Collect', keys=['img', 'gt_semantic_seg']),
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(2049, 1025),
+        # img_ratios=[0.5, 0.75, 1.0, 1.25, 1.5, 1.75],
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(type='RandomFlip'),
+            dict(type='Normalize', **img_norm_cfg),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img']),
+        ])
+]
+data = dict(
+    train=dict(pipeline=train_pipeline),
+    val=dict(pipeline=test_pipeline),
+    test=dict(pipeline=test_pipeline))
diff --git a/configs/_base_/models/setr_mla.py b/configs/_base_/models/setr_mla.py
@@ -0,0 +1,90 @@
+# model settings
+backbone_norm_cfg = dict(type='LN', eps=1e-6, requires_grad=True)
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained=\
+    'https://github.com/rwightman/pytorch-image-models/releases/download/v0.1-vitjx/jx_vit_large_p16_384-b3be5167.pth',  # noqa
+    backbone=dict(
+        type='VisionTransformer',
+        img_size=(768, 768),
+        patch_size=16,
+        in_channels=3,
+        embed_dim=1024,
+        depth=24,
+        num_heads=16,
+        out_indices=(5, 11, 17, 23),
+        drop_rate=0.1,
+        norm_cfg=backbone_norm_cfg,
+        out_shape='NCHW',
+        with_cls_token=False,
+        interpolate_mode='bilinear',
+    ),
+    neck=dict(
+        type='MLA',
+        in_channels=[1024, 1024, 1024, 1024],
+        out_channels=256,
+        norm_cfg=norm_cfg,
+        act_cfg=dict(type='ReLU'),
+    ),
+    decode_head=dict(
+        type='SETRMLAHead',
+        in_channels=(1024, 1024, 1024, 1024),
+        channels=512,
+        in_index=(0, 1, 2, 3),
+        img_size=(768, 768),
+        mla_channels=256,
+        mlahead_channels=128,
+        num_classes=19,
+        norm_cfg=norm_cfg,
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    auxiliary_head=[
+        dict(
+            type='SETRMLAAUXHead',
+            in_channels=256,
+            channels=512,
+            in_index=0,
+            img_size=(768, 768),
+            mla_channels=256,
+            num_classes=19,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+        dict(
+            type='SETRMLAAUXHead',
+            in_channels=256,
+            channels=512,
+            in_index=1,
+            img_size=(768, 768),
+            mla_channels=256,
+            num_classes=19,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+        dict(
+            type='SETRMLAAUXHead',
+            in_channels=256,
+            channels=512,
+            in_index=2,
+            img_size=(768, 768),
+            mla_channels=256,
+            num_classes=19,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+        dict(
+            type='SETRMLAAUXHead',
+            in_channels=256,
+            channels=512,
+            in_index=3,
+            img_size=(768, 768),
+            mla_channels=256,
+            num_classes=19,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4))
+    ],
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
diff --git a/configs/_base_/models/setr_naive.py b/configs/_base_/models/setr_naive.py
@@ -0,0 +1,90 @@
+# model settings
+backbone_norm_cfg = dict(type='LN', eps=1e-6, requires_grad=True)
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained=\
+    'https://github.com/rwightman/pytorch-image-models/releases/download/v0.1-vitjx/jx_vit_large_p16_384-b3be5167.pth',  # noqa
+    backbone=dict(
+        type='VisionTransformer',
+        img_size=(768, 768),
+        patch_size=16,
+        in_channels=3,
+        embed_dim=1024,
+        depth=24,
+        num_heads=16,
+        out_indices=(9, 14, 19, 23),
+        drop_rate=0.1,
+        norm_cfg=backbone_norm_cfg,
+        out_shape='NCHW',
+        with_cls_token=True,
+        interpolate_mode='bilinear',
+    ),
+    decode_head=dict(
+        type='SETRUPHead',
+        in_channels=1024,
+        channels=512,
+        in_index=3,
+        img_size=(768, 768),
+        embed_dim=1024,
+        num_classes=19,
+        norm_cfg=norm_cfg,
+        num_convs=2,
+        up_mode='bilinear',
+        num_up_layer=1,
+        conv3x3_conv1x1=False,
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    auxiliary_head=[
+        dict(
+            type='SETRUPHead',
+            in_channels=1024,
+            channels=512,
+            in_index=0,
+            img_size=(768, 768),
+            embed_dim=1024,
+            num_classes=19,
+            norm_cfg=norm_cfg,
+            num_convs=2,
+            up_mode='bilinear',
+            num_up_layer=1,
+            conv3x3_conv1x1=False,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+        dict(
+            type='SETRUPHead',
+            in_channels=1024,
+            channels=512,
+            in_index=1,
+            img_size=(768, 768),
+            embed_dim=1024,
+            num_classes=19,
+            norm_cfg=norm_cfg,
+            num_convs=2,
+            up_mode='bilinear',
+            num_up_layer=1,
+            conv3x3_conv1x1=False,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+        dict(
+            type='SETRUPHead',
+            in_channels=1024,
+            channels=512,
+            in_index=2,
+            img_size=(768, 768),
+            embed_dim=1024,
+            num_classes=19,
+            norm_cfg=norm_cfg,
+            num_convs=2,
+            up_mode='bilinear',
+            num_up_layer=1,
+            conv3x3_conv1x1=False,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4))
+    ],
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
diff --git a/configs/_base_/models/setr_pup.py b/configs/_base_/models/setr_pup.py
@@ -0,0 +1,106 @@
+# model settings
+backbone_norm_cfg = dict(type='LN', eps=1e-6, requires_grad=True)
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    type='EncoderDecoder',
+    pretrained=\
+    'https://github.com/rwightman/pytorch-image-models/releases/download/v0.1-vitjx/jx_vit_large_p16_384-b3be5167.pth',  # noqa
+    backbone=dict(
+        type='VisionTransformer',
+        img_size=(768, 768),
+        patch_size=16,
+        in_channels=3,
+        embed_dim=1024,
+        depth=24,
+        num_heads=16,
+        out_indices=(9, 14, 19, 23),
+        drop_rate=0.1,
+        norm_cfg=backbone_norm_cfg,
+        out_shape='NCHW',
+        with_cls_token=True,
+        interpolate_mode='bilinear',
+    ),
+    decode_head=dict(
+        type='SETRUPHead',
+        in_channels=1024,
+        channels=512,
+        in_index=3,
+        img_size=(768, 768),
+        embed_dim=1024,
+        num_classes=19,
+        norm_cfg=norm_cfg,
+        num_convs=4,
+        up_mode='bilinear',
+        num_up_layer=4,
+        conv3x3_conv1x1=True,
+        align_corners=False,
+        loss_decode=dict(
+            type='CrossEntropyLoss', use_sigmoid=False, loss_weight=1.0)),
+    auxiliary_head=[
+        dict(
+            type='SETRUPHead',
+            in_channels=1024,
+            channels=512,
+            in_index=0,
+            img_size=(768, 768),
+            embed_dim=1024,
+            num_classes=19,
+            norm_cfg=norm_cfg,
+            num_convs=2,
+            up_mode='bilinear',
+            num_up_layer=2,
+            conv3x3_conv1x1=True,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+        dict(
+            type='SETRUPHead',
+            in_channels=1024,
+            channels=512,
+            in_index=1,
+            img_size=(768, 768),
+            embed_dim=1024,
+            num_classes=19,
+            norm_cfg=norm_cfg,
+            num_convs=2,
+            up_mode='bilinear',
+            num_up_layer=2,
+            conv3x3_conv1x1=True,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+        dict(
+            type='SETRUPHead',
+            in_channels=1024,
+            channels=512,
+            in_index=2,
+            img_size=(768, 768),
+            embed_dim=1024,
+            num_classes=19,
+            norm_cfg=norm_cfg,
+            num_convs=2,
+            up_mode='bilinear',
+            num_up_layer=2,
+            conv3x3_conv1x1=True,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+        dict(
+            type='SETRUPHead',
+            in_channels=1024,
+            channels=512,
+            in_index=3,
+            img_size=(768, 768),
+            embed_dim=1024,
+            num_classes=19,
+            norm_cfg=norm_cfg,
+            num_convs=2,
+            up_mode='bilinear',
+            num_up_layer=2,
+            conv3x3_conv1x1=True,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4))
+    ],
+    train_cfg=dict(),
+    test_cfg=dict(mode='whole'))
diff --git a/configs/setr/setr_mla_480x480_80k_pascal_context_bs_16.py b/configs/setr/setr_mla_480x480_80k_pascal_context_bs_16.py
@@ -0,0 +1,3 @@
+_base_ = ['./setr_mla_480x480_80k_pascal_context_bs_8.py']
+
+data = dict(samples_per_gpu=2)
diff --git a/configs/setr/setr_mla_480x480_80k_pascal_context_bs_8.py b/configs/setr/setr_mla_480x480_80k_pascal_context_bs_8.py
@@ -0,0 +1,62 @@
+_base_ = [
+    '../_base_/models/setr_mla.py', '../_base_/datasets/pascal_context.py',
+    '../_base_/default_runtime.py', '../_base_/schedules/schedule_80k.py'
+]
+norm_cfg = dict(type='SyncBN', requires_grad=True)
+model = dict(
+    backbone=dict(img_size=(480, 480), drop_rate=0),
+    decode_head=dict(img_size=(480, 480), num_classes=60),
+    auxiliary_head=[
+        dict(
+            type='SETRMLAAUXHead',
+            in_channels=256,
+            channels=512,
+            in_index=0,
+            img_size=(480, 480),
+            mla_channels=256,
+            num_classes=60,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+        dict(
+            type='SETRMLAAUXHead',
+            in_channels=256,
+            channels=512,
+            in_index=1,
+            img_size=(480, 480),
+            mla_channels=256,
+            num_classes=60,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+        dict(
+            type='SETRMLAAUXHead',
+            in_channels=256,
+            channels=512,
+            in_index=2,
+            img_size=(480, 480),
+            mla_channels=256,
+            num_classes=60,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4)),
+        dict(
+            type='SETRMLAAUXHead',
+            in_channels=256,
+            channels=512,
+            in_index=3,
+            img_size=(480, 480),
+            mla_channels=256,
+            num_classes=19,
+            align_corners=False,
+            loss_decode=dict(
+                type='CrossEntropyLoss', use_sigmoid=False, loss_weight=0.4))
+    ],
+    test_cfg=dict(mode='slide', crop_size=(480, 480), stride=(320, 320)))
+
+optimizer = dict(
+    lr=0.001,
+    weight_decay=0.0,
+    paramwise_cfg=dict(custom_keys={'head': dict(lr_mult=10.)}))
+
+data = dict(samples_per_gpu=1)
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1,3 @@
		_base_ = ['./setr_mla_480x480_80k_pascal_context_bs_8.py']
Copy link Collaborator xvjiarui May 18, 2021 Choose a reason for hiding this comment The reason will be displayed to describe this comment to others. Learn more. We may add this in future PR.

		data = dict(samples_per_gpu=2)