fix FusedResidualDropoutBias nan in v100 #42344

wangxicoding · 2022-04-28T03:54:37Z

PR types

Bug fixes

PR changes

Others

Describe

问题定位

在V100上测试千亿ERNIE，发现精度对不齐，具体定位发现FusedResidualDropoutBias kernel运算的结果不对。
再进一步定位，发现kernel实现没问题，不过在ERNIE千亿场景下，跑fp16启动kernel线程数会设置为1024，由于FusedResidualDropoutBias每个线程占用的寄存器数比较多，就出现了如下错误。
也就是launch kernel时，block使用的寄存器超过了限制，导致kernel未被launch，最终没有执行。训练精度出现问题

问题解决

先将最大线程数简单设置为512(这个值足够SM使用，理论应该不会影响性能，大部分场景可能256好一些)，来规避超出寄存器资源的问题。
当然后续可以对FusedResidualDropoutBias优化，减少线程对寄存器的使用。

paddle-bot-old · 2022-04-28T03:55:21Z

你的PR提交成功，感谢你对开源项目的贡献!
请关注后续CI自动化测试结果，详情请参考Paddle-CI手册。
Your PR has been submitted. Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

FeixLiu

LTGM

…rray gc (#42398) * fix FusedResidualDropoutBias nan in v100 (#42344) * fix lod_tensor_array gc (#42377)

fix FusedResidualDropoutBias nan in v100

8e57530

wangxicoding requested review from zkh2016 and FeixLiu April 28, 2022 07:33

FeixLiu approved these changes Apr 28, 2022

View reviewed changes

zkh2016 approved these changes Apr 28, 2022

View reviewed changes

wangxicoding merged commit 687219f into PaddlePaddle:develop Apr 28, 2022

wangxicoding deleted the fix_FusedResidualDropoutBias_nan_in_v100 branch April 28, 2022 08:05

wangxicoding added a commit to wangxicoding/Paddle that referenced this pull request Apr 29, 2022

fix FusedResidualDropoutBias nan in v100 (PaddlePaddle#42344)

e4f993e

wangxicoding mentioned this pull request Apr 29, 2022

[cherry-pick 2.3] fix FusedResidualDropoutBias nan & fix lod_tensor_array gc #42398

Merged

fuyinno4 pushed a commit that referenced this pull request Apr 29, 2022

[cherry-pick 2.3] fix FusedResidualDropoutBias nan & fix lod_tensor_a…

3b2bc0a

…rray gc (#42398) * fix FusedResidualDropoutBias nan in v100 (#42344) * fix lod_tensor_array gc (#42377)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix FusedResidualDropoutBias nan in v100 #42344

fix FusedResidualDropoutBias nan in v100 #42344

wangxicoding commented Apr 28, 2022

paddle-bot-old bot commented Apr 28, 2022

FeixLiu left a comment

fix FusedResidualDropoutBias nan in v100 #42344

fix FusedResidualDropoutBias nan in v100 #42344

Conversation

wangxicoding commented Apr 28, 2022

PR types

PR changes

Describe

问题定位

问题解决

paddle-bot-old bot commented Apr 28, 2022

FeixLiu left a comment

Choose a reason for hiding this comment