Optimize nchw MaxPooling #7426

MARD1NO · 2022-02-07T05:47:17Z

测试平台：

A100，cuda11.4

pool type	shape	of time	torch time
maxpool1d forward	32 * 64 * (112 * 112)	196.19us	253.92us
maxpool1d backward	32 * 64 * (112 * 112)	275.3us	694.69us
maxpool2d forward	32 * 64 * 112 * 112	204.03us	206.34us
maxpool2d backward	32 * 64 * 112 * 112	211.68us	851.74us
maxpool3d forward	32 * 32 * 64 * 32 * 64	1210us	1450us
maxpool3d backward	32 * 32 * 64 * 32 * 64	747.3us	718.75us

backward这里，torch在1d/2d均采用自己的一套reduce操作，3d使用的是atomic_add。
而我们使用的都是atomic_add，所以这里3d情况下差距不大

TODO：NHWC的优化

liufengwei0103 · 2022-02-10T08:48:40Z

oneflow/user/kernels/pooling_kernel.cpp

@@ -289,20 +294,39 @@ class MaxPool2dKernel final : public user_op::OpKernel {
    const MaxPoolingParams3D& params_3d = pooling_cache->GetParams3D();

    const int64_t elem_num = y->shape().elem_cnt();
+    // const int32_t elem_num = y->shape().elem_cnt();


这个注释还要吗？

liufengwei0103 · 2022-02-10T09:17:05Z

oneflow/user/kernels/pooling_kernel_util.h

@@ -50,6 +54,12 @@ struct DeviceAdd {
  };
 };

+#ifdef WITH_CUDA
+
+OF_DEVICE_FUNC int32_t device_min(int32_t a, int32_t b) { return a <= b ? a : b; }


这个函数在这个pr用了吗？

device_min好像没用到？

github-actions · 2022-02-21T17:31:10Z

Speed stats:

GPU Name: GeForce GTX 1080 

✔️ OneFlow resnet50 time: 128.5ms (= 12852.3ms / 100, input_shape=[16, 3, 224, 224])
PyTorch resnet50 time: 139.3ms (= 13928.0ms / 100, input_shape=[16, 3, 224, 224])
✔️ Relative speed: 1.08 (= 139.3ms / 128.5ms)

✔️ OneFlow resnet50 time: 78.0ms (= 7802.0ms / 100, input_shape=[8, 3, 224, 224])
PyTorch resnet50 time: 84.3ms (= 8431.8ms / 100, input_shape=[8, 3, 224, 224])
✔️ Relative speed: 1.08 (= 84.3ms / 78.0ms)

OneFlow resnet50 time: 51.9ms (= 10387.4ms / 200, input_shape=[4, 3, 224, 224])
PyTorch resnet50 time: 54.0ms (= 10801.9ms / 200, input_shape=[4, 3, 224, 224])
✔️ Relative speed: 1.04 (= 54.0ms / 51.9ms)

OneFlow resnet50 time: 43.1ms (= 8617.1ms / 200, input_shape=[2, 3, 224, 224])
PyTorch resnet50 time: 47.0ms (= 9396.0ms / 200, input_shape=[2, 3, 224, 224])
✔️ Relative speed: 1.09 (= 47.0ms / 43.1ms)

OneFlow resnet50 time: 39.6ms (= 7927.2ms / 200, input_shape=[1, 3, 224, 224])
PyTorch resnet50 time: 38.4ms (= 7682.3ms / 200, input_shape=[1, 3, 224, 224])
✔️ Relative speed: 0.97 (= 38.4ms / 39.6ms)

✔️ OneFlow resnet50 time: 140.8ms (= 14084.2ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 160.3ms (= 16034.0ms / 100, input_shape=[16, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.14 (= 160.3ms / 140.8ms)

OneFlow resnet50 time: 88.4ms (= 8844.0ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 102.4ms (= 10243.7ms / 100, input_shape=[8, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.16 (= 102.4ms / 88.4ms)

OneFlow resnet50 time: 62.2ms (= 12446.2ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 76.2ms (= 15232.0ms / 200, input_shape=[4, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.22 (= 76.2ms / 62.2ms)

OneFlow resnet50 time: 51.9ms (= 10387.2ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 63.2ms (= 12638.9ms / 200, input_shape=[2, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.22 (= 63.2ms / 51.9ms)

OneFlow resnet50 time: 47.7ms (= 9544.2ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
PyTorch resnet50 time: 58.9ms (= 11785.0ms / 200, input_shape=[1, 3, 224, 224], ddp, world size=2)
✔️ Relative speed: 1.23 (= 58.9ms / 47.7ms)

* first debug * fix maxpool * fix bug * remove redundant code * remove redundant read * remove redundant data_ptr offset * use int32 to describe x shape * Fix cuda input params for maxpool2d * just for debug * just for profile * reduce div * use int32_t indice * revert back to use int64_t * fix maxpool1d 3d * optimize backward * fix all optimize. TODO: NHWC * fix comment Co-authored-by: oneflow-ci-bot <69100618+oneflow-ci-bot@users.noreply.github.com>

MARD1NO added 14 commits February 4, 2022 16:43

first debug

7c2d1af

fix maxpool

f2375f7

fix bug

79ff4db

remove redundant code

14c9fd6

remove redundant read

4f5e6f4

remove redundant data_ptr offset

d9fb335

use int32 to describe x shape

3b79ba8

Fix cuda input params for maxpool2d

4f8bba5

just for debug

6b6a8e3

just for profile

385c962

reduce div

1c39ee2

use int32_t indice

5495891

revert back to use int64_t

f62ac8f

fix maxpool1d 3d

1d8843f

MARD1NO linked an issue Feb 9, 2022 that may be closed by this pull request

Optimize Pooling NCHW Kernel #7412

Closed

MARD1NO added 2 commits February 9, 2022 10:37

optimize backward

36a6fc8

fix all optimize. TODO: NHWC

97cbec0

MARD1NO marked this pull request as ready for review February 9, 2022 03:49

MARD1NO requested review from guo-ran and liujuncheng as code owners February 9, 2022 03:49

MARD1NO added bug enhancement op labels Feb 9, 2022

lixiang007666 approved these changes Feb 10, 2022

View reviewed changes

liufengwei0103 reviewed Feb 10, 2022

View reviewed changes

simonJJJ approved these changes Feb 14, 2022

View reviewed changes

Flowingsun007 approved these changes Feb 15, 2022

View reviewed changes

MARD1NO and others added 2 commits February 21, 2022 13:48

fix comment

cc31a14

Merge branch 'master' into optimize_nchw_pool

83e0c98

MARD1NO requested a review from oneflow-ci-bot February 21, 2022 05:48

MARD1NO added the automerge label Feb 21, 2022

oneflow-ci-bot removed their request for review February 21, 2022 06:43

Merge branch 'master' into optimize_nchw_pool

46a298d

oneflow-ci-bot requested review from oneflow-ci-bot and removed request for oneflow-ci-bot February 21, 2022 07:17

Merge branch 'master' into optimize_nchw_pool

80344d4

oneflow-ci-bot requested review from oneflow-ci-bot and removed request for oneflow-ci-bot February 21, 2022 09:55

Merge branch 'master' into optimize_nchw_pool

5d09693

oneflow-ci-bot self-requested a review February 21, 2022 14:46

oneflow-ci-bot merged commit 95983ff into master Feb 21, 2022

oneflow-ci-bot deleted the optimize_nchw_pool branch February 21, 2022 17:57

oneflow-ci-bot removed their request for review February 21, 2022 17:57

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Optimize nchw MaxPooling #7426

Optimize nchw MaxPooling #7426

MARD1NO commented Feb 7, 2022 •

edited

Loading

liufengwei0103 Feb 10, 2022

MARD1NO Feb 21, 2022

liufengwei0103 Feb 10, 2022

Flowingsun007 Feb 15, 2022

MARD1NO Feb 21, 2022

github-actions bot commented Feb 21, 2022

Optimize nchw MaxPooling #7426

Optimize nchw MaxPooling #7426

Conversation

MARD1NO commented Feb 7, 2022 • edited Loading

测试平台：

liufengwei0103 Feb 10, 2022

Choose a reason for hiding this comment

MARD1NO Feb 21, 2022

Choose a reason for hiding this comment

liufengwei0103 Feb 10, 2022

Choose a reason for hiding this comment

Flowingsun007 Feb 15, 2022

Choose a reason for hiding this comment

MARD1NO Feb 21, 2022

Choose a reason for hiding this comment

github-actions bot commented Feb 21, 2022

MARD1NO commented Feb 7, 2022 •

edited

Loading