open-mmlab · JingweiZhang12 · May 25, 2023 · Apr 18, 2023 · Apr 18, 2023 · Apr 19, 2023
diff --git a/configs/_base_/models/minkunet.py b/configs/_base_/models/minkunet.py
@@ -4,19 +4,24 @@
  type='Det3DDataPreprocessor',
  voxel=True,
  voxel_type='minkunet',
+ batch_first=False,
+ max_voxels=80000,
  voxel_layer=dict(
  max_num_points=-1,
  point_cloud_range=[-100, -100, -20, 100, 100, 20],
  voxel_size=[0.05, 0.05, 0.05],
- max_voxels=(-1, -1)),
- max_voxels=80000),
+ max_voxels=(-1, -1))),
  backbone=dict(
  type='MinkUNetBackbone',
  in_channels=4,
- base_channels=32,
  num_stages=4,
+ base_channels=32,
  encoder_channels=[32, 64, 128, 256],
- decoder_channels=[256, 128, 96, 96]),
+ encoder_blocks=[2, 2, 2, 2],
+ decoder_channels=[256, 128, 96, 96],
+ decoder_blocks=[2, 2, 2, 2],
+ block_type='basic',
+ sparseconv_backend='torchsparse'),
  decode_head=dict(
  type='MinkUNetHead',
  channels=96,

diff --git a/configs/_base_/models/spvcnn.py b/configs/_base_/models/spvcnn.py
@@ -4,19 +4,24 @@
  type='Det3DDataPreprocessor',
  voxel=True,
  voxel_type='minkunet',
+ batch_first=False,
+ max_voxels=80000,
  voxel_layer=dict(
  max_num_points=-1,
  point_cloud_range=[-100, -100, -20, 100, 100, 20],
  voxel_size=[0.05, 0.05, 0.05],
- max_voxels=(-1, -1)),
- max_voxels=80000),
+ max_voxels=(-1, -1))),
  backbone=dict(
  type='SPVCNNBackbone',
  in_channels=4,
- base_channels=32,
  num_stages=4,
+ base_channels=32,
  encoder_channels=[32, 64, 128, 256],
+ encoder_blocks=[2, 2, 2, 2],
  decoder_channels=[256, 128, 96, 96],
+ decoder_blocks=[2, 2, 2, 2],
+ block_type='basic',
+ sparseconv_backend='torchsparse',
  drop_ratio=0.3),
  decode_head=dict(
  type='MinkUNetHead',

diff --git a/configs/_base_/schedules/schedule-3x.py b/configs/_base_/schedules/schedule-3x.py
@@ -8,7 +8,7 @@
  clip_grad=dict(max_norm=10, norm_type=2),
 )
 
-# training schedule for 1x
+# training schedule for 3x
 train_cfg = dict(type='EpochBasedTrainLoop', max_epochs=36, val_interval=1)
 val_cfg = dict(type='ValLoop')
 test_cfg = dict(type='TestLoop')

diff --git a/...der3d/cylinder3d_4xb4_3x_semantickitti.py → ...der3d/cylinder3d_4xb4-3x_semantickitti.py b/...der3d/cylinder3d_4xb4_3x_semantickitti.py → ...der3d/cylinder3d_4xb4-3x_semantickitti.py
@@ -4,7 +4,6 @@
 ]
 
 # optimizer
-# This schedule is mainly used by models on nuScenes dataset
 lr = 0.001
 optim_wrapper = dict(
  type='OptimWrapper',

diff --git a/configs/cylinder3d/cylinder3d_8xb2-laser-polar-mix-3x_semantickitti.py b/configs/cylinder3d/cylinder3d_8xb2-laser-polar-mix-3x_semantickitti.py
@@ -0,0 +1,80 @@
+_base_ = [
+ '../_base_/datasets/semantickitti.py', '../_base_/models/cylinder3d.py',
+ '../_base_/schedules/schedule-3x.py', '../_base_/default_runtime.py'
+]
+
+train_pipeline = [
+ dict(type='LoadPointsFromFile', coord_type='LIDAR', load_dim=4, use_dim=4),
+ dict(
+ type='LoadAnnotations3D',
+ with_bbox_3d=False,
+ with_label_3d=False,
+ with_seg_3d=True,
+ seg_3d_dtype='np.int32',
+ seg_offset=2**16,
+ dataset_type='semantickitti'),
+ dict(type='PointSegClassMapping'),
+ dict(
+ type='RandomChoice',
+ transforms=[
+ [
+ dict(
+ type='LaserMix',
+ num_areas=[3, 4, 5, 6],
+ pitch_angles=[-25, 3],
+ pre_transform=[
+ dict(
+ type='LoadPointsFromFile',
+ coord_type='LIDAR',
+ load_dim=4,
+ use_dim=4),
+ dict(
+ type='LoadAnnotations3D',
+ with_bbox_3d=False,
+ with_label_3d=False,
+ with_seg_3d=True,
+ seg_3d_dtype='np.int32',
+ seg_offset=2**16,
+ dataset_type='semantickitti'),
+ dict(type='PointSegClassMapping')
+ ],
+ prob=1)
+ ],
+ [
+ dict(
+ type='PolarMix',
+ instance_classes=[0, 1, 2, 3, 4, 5, 6, 7],
+ swap_ratio=0.5,
+ rotate_paste_ratio=1.0,
+ pre_transform=[
+ dict(
+ type='LoadPointsFromFile',
+ coord_type='LIDAR',
+ load_dim=4,
+ use_dim=4),
+ dict(
+ type='LoadAnnotations3D',
+ with_bbox_3d=False,
+ with_label_3d=False,
+ with_seg_3d=True,
+ seg_3d_dtype='np.int32',
+ seg_offset=2**16,
+ dataset_type='semantickitti'),
+ dict(type='PointSegClassMapping')
+ ],
+ prob=1)
+ ],
+ ],
+ prob=[0.5, 0.5]),
+ dict(
+ type='GlobalRotScaleTrans',
+ rot_range=[0., 6.28318531],
+ scale_ratio_range=[0.95, 1.05],
+ translation_std=[0, 0, 0],
+ ),
+ dict(type='Pack3DDetInputs', keys=['points', 'pts_semantic_mask'])
+]
+
+train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
+
+default_hooks = dict(checkpoint=dict(type='CheckpointHook', interval=1))
diff --git a/...et/minkunet_w16_8xb2-15e_semantickitti.py → ...torchsparse_8xb2-amp-15e_semantickitti.py b/...et/minkunet_w16_8xb2-15e_semantickitti.py → ...torchsparse_8xb2-amp-15e_semantickitti.py
diff --git a/...et/minkunet_w20_8xb2-15e_semantickitti.py → ...torchsparse_8xb2-amp-15e_semantickitti.py b/...et/minkunet_w20_8xb2-15e_semantickitti.py → ...torchsparse_8xb2-amp-15e_semantickitti.py
diff --git a/...et/minkunet_w32_8xb2-15e_semantickitti.py → ...torchsparse_8xb2-amp-15e_semantickitti.py b/...et/minkunet_w32_8xb2-15e_semantickitti.py → ...torchsparse_8xb2-amp-15e_semantickitti.py
diff --git a/configs/minkunet/minkunet34_w32_minkowski_8xb2-laser-polar-mix-3x_semantickitti.py b/configs/minkunet/minkunet34_w32_minkowski_8xb2-laser-polar-mix-3x_semantickitti.py
@@ -0,0 +1,7 @@
+_base_ = [
+ './minkunet34_w32_torchsparse_8xb2-laser-polar-mix-3x_semantickitti.py'
+]
+
+model = dict(
+ data_preprocessor=dict(batch_first=True),
+ backbone=dict(sparseconv_backend='minkowski'))
diff --git a/configs/minkunet/minkunet34_w32_spconv_8xb2-amp-laser-polar-mix-3x_semantickitti.py b/configs/minkunet/minkunet34_w32_spconv_8xb2-amp-laser-polar-mix-3x_semantickitti.py
@@ -0,0 +1,9 @@
+_base_ = [
+ './minkunet34_w32_torchsparse_8xb2-laser-polar-mix-3x_semantickitti.py'
+]
+
+model = dict(
+ data_preprocessor=dict(batch_first=True),
+ backbone=dict(sparseconv_backend='spconv'))
+
+optim_wrapper = dict(type='AmpOptimWrapper', loss_scale='dynamic')
diff --git a/configs/minkunet/minkunet34_w32_spconv_8xb2-laser-polar-mix-3x_semantickitti.py b/configs/minkunet/minkunet34_w32_spconv_8xb2-laser-polar-mix-3x_semantickitti.py
@@ -0,0 +1,7 @@
+_base_ = [
+ './minkunet34_w32_torchsparse_8xb2-laser-polar-mix-3x_semantickitti.py'
+]
+
+model = dict(
+ data_preprocessor=dict(batch_first=True),
+ backbone=dict(sparseconv_backend='spconv'))
diff --git a/configs/minkunet/minkunet34_w32_torchsparse_8xb2-amp-laser-polar-mix-3x_semantickitti.py b/configs/minkunet/minkunet34_w32_torchsparse_8xb2-amp-laser-polar-mix-3x_semantickitti.py
@@ -0,0 +1,5 @@
+_base_ = [
+ './minkunet34_w32_torchsparse_8xb2-laser-polar-mix-3x_semantickitti.py'
+]
+
+optim_wrapper = dict(type='AmpOptimWrapper', loss_scale='dynamic')
diff --git a/configs/minkunet/minkunet34_w32_torchsparse_8xb2-laser-polar-mix-3x_semantickitti.py b/configs/minkunet/minkunet34_w32_torchsparse_8xb2-laser-polar-mix-3x_semantickitti.py
@@ -0,0 +1,84 @@
+_base_ = [
+ '../_base_/datasets/semantickitti.py', '../_base_/models/minkunet.py',
+ '../_base_/schedules/schedule-3x.py', '../_base_/default_runtime.py'
+]
+
+model = dict(
+ data_preprocessor=dict(max_voxels=None),
+ backbone=dict(encoder_blocks=[2, 3, 4, 6]))
+
+train_pipeline = [
+ dict(type='LoadPointsFromFile', coord_type='LIDAR', load_dim=4, use_dim=4),
+ dict(
+ type='LoadAnnotations3D',
+ with_bbox_3d=False,
+ with_label_3d=False,
+ with_seg_3d=True,
+ seg_3d_dtype='np.int32',
+ seg_offset=2**16,
+ dataset_type='semantickitti'),
+ dict(type='PointSegClassMapping'),
+ dict(
+ type='RandomChoice',
+ transforms=[
+ [
+ dict(
+ type='LaserMix',
+ num_areas=[3, 4, 5, 6],
+ pitch_angles=[-25, 3],
+ pre_transform=[
+ dict(
+ type='LoadPointsFromFile',
+ coord_type='LIDAR',
+ load_dim=4,
+ use_dim=4),
+ dict(
+ type='LoadAnnotations3D',
+ with_bbox_3d=False,
+ with_label_3d=False,
+ with_seg_3d=True,
+ seg_3d_dtype='np.int32',
+ seg_offset=2**16,
+ dataset_type='semantickitti'),
+ dict(type='PointSegClassMapping')
+ ],
+ prob=1)
+ ],
+ [
+ dict(
+ type='PolarMix',
+ instance_classes=[0, 1, 2, 3, 4, 5, 6, 7],
+ swap_ratio=0.5,
+ rotate_paste_ratio=1.0,
+ pre_transform=[
+ dict(
+ type='LoadPointsFromFile',
+ coord_type='LIDAR',
+ load_dim=4,
+ use_dim=4),
+ dict(
+ type='LoadAnnotations3D',
+ with_bbox_3d=False,
+ with_label_3d=False,
+ with_seg_3d=True,
+ seg_3d_dtype='np.int32',
+ seg_offset=2**16,
+ dataset_type='semantickitti'),
+ dict(type='PointSegClassMapping')
+ ],
+ prob=1)
+ ],
+ ],
+ prob=[0.5, 0.5]),
+ dict(
+ type='GlobalRotScaleTrans',
+ rot_range=[0., 6.28318531],
+ scale_ratio_range=[0.95, 1.05],
+ translation_std=[0, 0, 0],
+ ),
+ dict(type='Pack3DDetInputs', keys=['points', 'pts_semantic_mask'])
+]
+
+train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
+
+default_hooks = dict(checkpoint=dict(type='CheckpointHook', interval=1))
diff --git a/configs/minkunet/minkunet34v2_w32_torchsparse_8xb2-amp-laser-polar-mix-3x_semantickitti.py b/configs/minkunet/minkunet34v2_w32_torchsparse_8xb2-amp-laser-polar-mix-3x_semantickitti.py
@@ -0,0 +1,10 @@
+_base_ = [
+ './minkunet34_w32_torchsparse_8xb2-amp-laser-polar-mix-3x_semantickitti.py'
+]
+
+model = dict(
+ backbone=dict(type='MinkUNetBackboneV2'),
+ decode_head=dict(channels=256 + 128 + 96))
+
+randomness = dict(seed=None, deterministic=False, diff_rank_seed=True)
+env_cfg = dict(cudnn_benchmark=True)
diff --git a/...vcnn/spvcnn_w16_8xb2-15e_semantickitti.py → .../spvcnn_w16_8xb2-amp-15e_semantickitti.py b/...vcnn/spvcnn_w16_8xb2-15e_semantickitti.py → .../spvcnn_w16_8xb2-amp-15e_semantickitti.py
diff --git a/...vcnn/spvcnn_w20_8xb2-15e_semantickitti.py → .../spvcnn_w20_8xb2-amp-15e_semantickitti.py b/...vcnn/spvcnn_w20_8xb2-15e_semantickitti.py → .../spvcnn_w20_8xb2-amp-15e_semantickitti.py
diff --git a/...vcnn/spvcnn_w32_8xb2-15e_semantickitti.py → .../spvcnn_w32_8xb2-amp-15e_semantickitti.py b/...vcnn/spvcnn_w32_8xb2-15e_semantickitti.py → .../spvcnn_w32_8xb2-amp-15e_semantickitti.py
diff --git a/configs/spvcnn/spvcnn_w32_8xb2-amp-laser-polar-mix-3x_semantickitti.py b/configs/spvcnn/spvcnn_w32_8xb2-amp-laser-polar-mix-3x_semantickitti.py
@@ -0,0 +1,86 @@
+_base_ = [
+ '../_base_/datasets/semantickitti.py', '../_base_/models/spvcnn.py',
+ '../_base_/schedules/schedule-3x.py', '../_base_/default_runtime.py'
+]
+
+model = dict(data_preprocessor=dict(max_voxels=None))
+
+train_pipeline = [
+ dict(type='LoadPointsFromFile', coord_type='LIDAR', load_dim=4, use_dim=4),
+ dict(
+ type='LoadAnnotations3D',
+ with_bbox_3d=False,
+ with_label_3d=False,
+ with_seg_3d=True,
+ seg_3d_dtype='np.int32',
+ seg_offset=2**16,
+ dataset_type='semantickitti'),
+ dict(type='PointSegClassMapping'),
+ dict(
+ type='RandomChoice',
+ transforms=[
+ [
+ dict(
+ type='LaserMix',
+ num_areas=[3, 4, 5, 6],
+ pitch_angles=[-25, 3],
+ pre_transform=[
+ dict(
+ type='LoadPointsFromFile',
+ coord_type='LIDAR',
+ load_dim=4,
+ use_dim=4),
+ dict(
+ type='LoadAnnotations3D',
+ with_bbox_3d=False,
+ with_label_3d=False,
+ with_seg_3d=True,
+ seg_3d_dtype='np.int32',
+ seg_offset=2**16,
+ dataset_type='semantickitti'),
+ dict(type='PointSegClassMapping')
+ ],
+ prob=1)
+ ],
+ [
+ dict(
+ type='PolarMix',
+ instance_classes=[0, 1, 2, 3, 4, 5, 6, 7],
+ swap_ratio=0.5,
+ rotate_paste_ratio=1.0,
+ pre_transform=[
+ dict(
+ type='LoadPointsFromFile',
+ coord_type='LIDAR',
+ load_dim=4,
+ use_dim=4),
+ dict(
+ type='LoadAnnotations3D',
+ with_bbox_3d=False,
+ with_label_3d=False,
+ with_seg_3d=True,
+ seg_3d_dtype='np.int32',
+ seg_offset=2**16,
+ dataset_type='semantickitti'),
+ dict(type='PointSegClassMapping')
+ ],
+ prob=1)
+ ],
+ ],
+ prob=[0.5, 0.5]),
+ dict(
+ type='GlobalRotScaleTrans',
+ rot_range=[0., 6.28318531],
+ scale_ratio_range=[0.95, 1.05],
+ translation_std=[0, 0, 0],
+ ),
+ dict(type='Pack3DDetInputs', keys=['points', 'pts_semantic_mask'])
+]
+
+train_dataloader = dict(dataset=dict(pipeline=train_pipeline))
+
+optim_wrapper = dict(type='AmpOptimWrapper', loss_scale='dynamic')
+
+default_hooks = dict(checkpoint=dict(type='CheckpointHook', interval=1))
+randomness = dict(seed=0, deterministic=False, diff_rank_seed=True)
+env_cfg = dict(cudnn_benchmark=True)