Optimize Pooling NCHW Kernel #7412

MARD1NO · 2022-01-30T07:57:35Z

No description provided.

MARD1NO · 2022-02-07T04:12:14Z

问题定位到是使用int64_t作为索引计算，其中涉及到大量的除法取余，解决方案是dispatch，根据elem_cnt来分发到int32/int64的分支

simonJJJ · 2022-02-07T04:16:46Z

感觉大部分kernel都不会用到int64_t索引？往往都是CUDA_1D_KERNEL_LOOP里的int32_t的索引来做一系列推导

MARD1NO · 2022-02-09T01:36:39Z

感觉大部分kernel都不会用到int64_t索引？往往都是CUDA_1D_KERNEL_LOOP里的int32_t的索引来做一系列推导

嗯没特殊情况就直接int32吧

MARD1NO linked a pull request Feb 9, 2022 that will close this issue

Optimize nchw MaxPooling #7426

Merged

oneflow-ci-bot closed this as completed in #7426 Feb 21, 2022

Provide feedback