【PFCC算子性能优化】 SeluKernel Optimization #44490

carryyu · 2022-07-20T14:39:59Z

PR types

Performance optimization

PR changes

OPs

Describe

[PFCC算子性能优化] Selu Kernel性能优化，抛弃原有Eigen写法，放入activation_kernel文件中。
优化文档PR链接：PaddlePaddle/community#169

当前性能如下表：

Case No.	device	input_shape	input_type	Paddle Perf(ms)
1	Tesla T4	[8, 1024, 3072]	float32	0.9122
2	Tesla T4	[8, 1024, 3072]	float64	5.2592

PyTorch性能如下：

Case No.	device	input_shape	input_type	Pytorch Perf(ms)
1	Tesla T4	[8, 1024, 3072]	float32	0.8349
2	Tesla T4	[8, 1024, 3072]	float64	5.4939

通过使用飞桨内部的Elementwise Kernel来进行计算。通过向量化读取、向量化写入以及gpu_launch_config.h中的线程配置方法对算子进行优化。

完成优化后，Paddle与优化前的Paddle的性能对比效果如下，达到了预期性能提升效果（提升>=5%）：

Case No.	device	input_shape	input_type	Paddle Perf(ms)	Old-Paddle Perf(ms)	diff
1	Tesla T4	[8, 1024, 3072]	float32	0.8277	0.9122	faster than 9.26%
2	Tesla T4	[8, 1024, 3072]	float64	4.5655	5.2592	faster than 13.19%

完成优化后，Paddle与Pytorch的性能对比效果如下，在fp32情况下基本与Pytorch持平，在fp64情况下提升较大：

Case No.	device	input_shape	input_type	Paddle Perf(ms)	Pytorch Perf(ms)	diff
1	Tesla T4	[8, 1024, 3072]	float32	0.8277	0.8349	faster than 0.86%
2	Tesla T4	[8, 1024, 3072]	float64	4.5655	5.4939	faster than 16.89%

paddle-bot · 2022-07-20T14:40:04Z

你的PR提交成功，感谢你对开源项目的贡献!
请关注后续CI自动化测试结果，详情请参考Paddle-CI手册。
Your PR has been submitted. Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

JamesLim-sy · 2022-08-01T10:40:30Z

paddle/phi/kernels/funcs/activation_functor.h

+  float scale;
+  float alpha;
+  double zero = static_cast<double>(0.0f);
+


对于以下内置变量可以用private关键字标注下：

private : float scale; float alpha; double zero = static_cast<double>(0.0f);

JamesLim-sy · 2022-08-01T10:40:37Z

paddle/phi/kernels/funcs/activation_functor.h

+  float scale;
+  float alpha;
+  T zero = static_cast<T>(0.0f);
+


JamesLim-sy · 2022-08-02T04:50:45Z

代码上没啥问题了，按照这个链接中的表述，简单在PR Comment里面补充描述下吧：
https://www.paddlepaddle.org.cn/documentation/docs/zh/develop/dev_guides/op_optimization/op_optimization_accpetance_criteria_cn.html#pr

carryyu · 2022-08-02T05:18:52Z

代码上没啥问题了，按照这个链接中的表述，简单在PR Comment里面补充描述下吧： https://www.paddlepaddle.org.cn/documentation/docs/zh/develop/dev_guides/op_optimization/op_optimization_accpetance_criteria_cn.html#pr

已修改

JamesLim-sy

LGTM

carryyu added 2 commits July 20, 2022 13:12

[PFCC] SeluKernel Optimization

b71b24d

selu kernel optimization

58fd1b6

Merge branch 'PaddlePaddle:develop' into my_selu

9931653

carryyu requested a review from JamesLim-sy August 1, 2022 05:57

JamesLim-sy reviewed Aug 1, 2022

View reviewed changes

carryyu added 2 commits August 1, 2022 11:10

add private

330e6e7

Merge branch 'my_selu' of github.com:carryyu/Paddle into my_selu

4568e1e

JamesLim-sy approved these changes Aug 2, 2022

View reviewed changes

JamesLim-sy merged commit 859c407 into PaddlePaddle:develop Aug 2, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

【PFCC算子性能优化】 SeluKernel Optimization #44490

【PFCC算子性能优化】 SeluKernel Optimization #44490

carryyu commented Jul 20, 2022 •

edited

Loading

paddle-bot bot commented Jul 20, 2022

JamesLim-sy Aug 1, 2022

JamesLim-sy Aug 1, 2022

JamesLim-sy commented Aug 2, 2022

carryyu commented Aug 2, 2022

JamesLim-sy left a comment

【PFCC算子性能优化】 SeluKernel Optimization #44490

【PFCC算子性能优化】 SeluKernel Optimization #44490

Conversation

carryyu commented Jul 20, 2022 • edited Loading

PR types

PR changes

Describe

paddle-bot bot commented Jul 20, 2022

JamesLim-sy Aug 1, 2022

Choose a reason for hiding this comment

JamesLim-sy Aug 1, 2022

Choose a reason for hiding this comment

JamesLim-sy commented Aug 2, 2022

carryyu commented Aug 2, 2022

JamesLim-sy left a comment

Choose a reason for hiding this comment

carryyu commented Jul 20, 2022 •

edited

Loading