Fix bug when dtype=fp16 in deformable conv #46975

Rayman96 · 2022-10-13T04:22:49Z

PR types

New features

PR changes

OPs

Describe

修复FP16中dx精度bug，基于#46111

paddle-bot · 2022-10-13T04:22:53Z

你的PR提交成功，感谢你对开源项目的贡献!
请关注后续CI自动化测试结果，详情请参考Paddle-CI手册。
Your PR has been submitted. Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

Rayman96 · 2022-10-13T08:36:12Z

paddle/phi/kernels/impl/deformable_conv_grad_kernel_impl.h

+      DenseTensor mt_dx = phi::EmptyLike<MT, Context>(dev_ctx, *dx);
+      MT* mt_dx_ptr = (x.dtype() == DataType::FLOAT16)
+                          ? (dev_ctx.template Alloc<MT>(&mt_dx))
+                          : (dev_ctx.template Alloc<MT>(dx));


@zhangting2020 这里已修改从L305 ~ L324，对于fp16的情况做了结果转换。本地测试结果符合预期

Rayman96 · 2022-10-14T07:09:56Z

由于前向加速的先合入了，导致这个代码有一行conflict。已修复重新跑CI流程

zhangting2020 · 2022-10-14T07:24:40Z

目前这个实现方式你创建了一个新的tensor，会增加内存，同时又插入了一个cast op，也会引入额外的代价。这个方案需要再斟酌，你可以借鉴下lookup_table_v2算子的梯度实现，其中也使用了原子操作，但我们过去也为它做了fp16的优化。

Rayman96 · 2022-10-14T08:01:08Z

目前这个实现方式你创建了一个新的tensor，会增加内存，同时又插入了一个cast op，也会引入额外的代价。这个方案需要再斟酌，你可以借鉴下lookup_table_v2算子的梯度实现，其中也使用了原子操作，但我们过去也为它做了fp16的优化。

好的我参考下实现，试一下速度是否可以满足要求

Rayman96 · 2022-10-14T08:28:03Z

@zhangting2020 paddle/fluid/operators/lookup_table_v2_op.cu

是这个paddle::platform::VectorizedAtomicAddPerBlock为fp16做过优化吗？
其他类似的操作找到比如paddle::platform::fastAtomicAdd我尝试过速度会很慢

Rayman96 · 2022-10-14T08:35:36Z

@zhangting2020 paddle/fluid/operators/lookup_table_v2_op.cu 是这个paddle::platform::VectorizedAtomicAddPerBlock为fp16做过优化吗？其他类似的操作找到比如paddle::platform::fastAtomicAdd我尝试过速度会很慢

VectorizedAtomicAddPerBlock看了下实现也是调用了CudaAtomicAdd，在fp16时速度和fp32差距还是会比较大。

Rayman96 · 2022-10-14T08:57:35Z

@zhangting2020 现在的代码会在fp32和fp64的时候也多增加一个新的tensor内存，这部分确实是浪费的。如果只在fp16是增加新的tensor和Cast_op，这样用内存换时间是可以接受的吗？
目前已这样修改

Rayman96 · 2022-10-15T15:08:57Z

lookup_table_v2的优化方式我理解是在将AtomAdd的过程单独作为一个kernel，且总数据量是偶数时，将两个数据构造为__half2，利用一次计算实现。
这个思路对于deform的dx计算不太适用，dx_grad的每个位置目前都是增加了一个在kernel中计算的weight结果，在每个thread中只需要有一个 sizeof(T) 的大小占用。而如果使用“将两个数据构造为__half2”的方式，需要单独再开辟一块儿内存将全部weight的值存下来（无法消除新的内存使用），并且将weight的计算和Atomadd的过程拆离成两个kernel。
另外由于理论上使用__half2会降低至多一半的时间，但目前测试使用fp16的atomAdd的速度会比fp32的二倍加cast的速度慢。（无法提高速度）
所以觉得使用当前实现是目前较优解。

zhangting2020 · 2022-10-17T08:22:53Z

lookup_table_v2的优化方式我理解是在将AtomAdd的过程单独作为一个kernel，且总数据量是偶数时，将两个数据构造为__half2，利用一次计算实现。这个思路对于deform的dx计算不太适用，dx_grad的每个位置目前都是增加了一个在kernel中计算的weight结果，在每个thread中只需要有一个 sizeof(T) 的大小占用。而如果使用“将两个数据构造为__half2”的方式，需要单独再开辟一块儿内存将全部weight的值存下来（无法消除新的内存使用），并且将weight的计算和Atomadd的过程拆离成两个kernel。另外由于理论上使用__half2会降低至多一半的时间，但目前测试使用fp16的atomAdd的速度会比fp32的二倍加cast的速度慢。（无法提高速度）所以觉得使用当前实现是目前较优解。

在Paddle框架中混合精度训练机制会在算子计算前将输入cast到fp32，计算用fp32，计算结果cast为fp16，但这样会引入额外的cast算子的开销，并且fp16相比fp32没有显著加速。正是为了提升混合精度训练的性能，才会设计这项任务。目前这版的方案恐怕无法满足预期，因为这个任务的重点之一就是对fp16性能完成优化

Rayman96 · 2022-10-17T08:43:17Z

lookup_table_v2的优化方式我理解是在将AtomAdd的过程单独作为一个kernel，且总数据量是偶数时，将两个数据构造为__half2，利用一次计算实现。这个思路对于deform的dx计算不太适用，dx_grad的每个位置目前都是增加了一个在kernel中计算的weight结果，在每个thread中只需要有一个 sizeof(T) 的大小占用。而如果使用“将两个数据构造为__half2”的方式，需要单独再开辟一块儿内存将全部weight的值存下来（无法消除新的内存使用），并且将weight的计算和Atomadd的过程拆离成两个kernel。另外由于理论上使用__half2会降低至多一半的时间，但目前测试使用fp16的atomAdd的速度会比fp32的二倍加cast的速度慢。（无法提高速度）所以觉得使用当前实现是目前较优解。

在Paddle框架中混合精度训练机制会在算子计算前将输入cast到fp32，计算用fp32，计算结果cast为fp16，但这样会引入额外的cast算子的开销，并且fp16相比fp32没有显著加速。正是为了提升混合精度训练的性能，才会设计这项任务。目前这版的方案恐怕无法满足预期，因为这个任务的重点之一就是对fp16性能完成优化

这项任务总共设计四部分计算，前向output使用fp16速度有提升，后向grad_offset, grad_filter的速度和fp32持平，只有grad_input由于计算的特殊引入cast增加了大概1.6%的计算时间。四部分整体上是和fp32持平的，测试中各有胜负，当时题目中要求也是性能不差于fp32。

Rayman96 · 2022-10-17T09:13:31Z

benchmark中例子速度基本一致，但我换用更大的测试用例后cast过程确实很耗时无法忽略

Rayman96 · 2022-10-17T09:26:38Z

@zhangting2020 之前只依赖benchmark中唯一的例子我以为cast的开销是很小的，换更大用例后发现还是挺高的。dx这里的计算我后边再继续想想办法，参考其他算子只使用更快的atomAdd也无法满足优于fp32的需要，可能需要改下dx的计算过程，今天比赛截止前应该无法满足更优实现。
目前这个题应该只有我提交，除dx外其余部分应该没什么问题，如果这道题可以算点分的话就更好了😂

modify when type is fp16

5a21316

paddle-bot bot added contributor External developers status: proposed labels Oct 13, 2022

Rayman96 mentioned this pull request Oct 13, 2022

【Hackathon No.56&38】deformable_conv_v1 算子实现 float16 数据类型支持&前向运行加速 #46111

Merged

codestyle check

6ab7413

Rayman96 force-pushed the for_deform_bugfix branch from 2ce33ef to 6ab7413 Compare October 13, 2022 04:48

Rayman96 added 4 commits October 13, 2022 12:52

codestyle

25a0f16

codestyle

39c9eaa

modify coverage

0d1bb61

modify test

7d68755

Rayman96 marked this pull request as ready for review October 13, 2022 06:09

Rayman96 commented Oct 13, 2022

View reviewed changes

luotao1 assigned luotao1 and zhangting2020 Oct 13, 2022

codestyle

630d8be

Ligoml mentioned this pull request Oct 14, 2022

【PaddlePaddle Hackathon 第三期】任务总览 #43938

Closed

remove useless tensor for fp32&fp64

c6eed8e

Ligoml removed the status: proposed label Aug 28, 2023

luotao1 closed this Dec 6, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix bug when dtype=fp16 in deformable conv #46975

Fix bug when dtype=fp16 in deformable conv #46975

Rayman96 commented Oct 13, 2022

paddle-bot bot commented Oct 13, 2022

Rayman96 Oct 13, 2022

Rayman96 commented Oct 14, 2022

zhangting2020 commented Oct 14, 2022

Rayman96 commented Oct 14, 2022

Rayman96 commented Oct 14, 2022

Rayman96 commented Oct 14, 2022

Rayman96 commented Oct 14, 2022 •

edited

Loading

Rayman96 commented Oct 15, 2022 •

edited

Loading

zhangting2020 commented Oct 17, 2022

Rayman96 commented Oct 17, 2022

Rayman96 commented Oct 17, 2022

Rayman96 commented Oct 17, 2022

Fix bug when dtype=fp16 in deformable conv #46975

Fix bug when dtype=fp16 in deformable conv #46975

Conversation

Rayman96 commented Oct 13, 2022

PR types

PR changes

Describe

paddle-bot bot commented Oct 13, 2022

Rayman96 Oct 13, 2022

Choose a reason for hiding this comment

Rayman96 commented Oct 14, 2022

zhangting2020 commented Oct 14, 2022

Rayman96 commented Oct 14, 2022

Rayman96 commented Oct 14, 2022

Rayman96 commented Oct 14, 2022

Rayman96 commented Oct 14, 2022 • edited Loading

Rayman96 commented Oct 15, 2022 • edited Loading

zhangting2020 commented Oct 17, 2022

Rayman96 commented Oct 17, 2022

Rayman96 commented Oct 17, 2022

Rayman96 commented Oct 17, 2022

Rayman96 commented Oct 14, 2022 •

edited

Loading

Rayman96 commented Oct 15, 2022 •

edited

Loading