You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
a. tech.mlsql.plugins.mllib.ets.fe.SQLDataSummary#getQuantileNum
for each schema 调用了 data.isEmpty() && computePercentile
b. tech.mlsql.plugins.mllib.ets.fe.SQLDataSummary#computePercentile
内部逻辑里面执行了count和index.lookup
同时这个被顺序调用了3次,改成并发
k < c时,index.lookup 触发了3次
c. tech.mlsql.plugins.mllib.ets.fe.SQLDataSummary#getModeNum
! dfWithoutNa.isEmpty 时,for each schema 调用了count
tech.mlsql.plugins.mllib.ets.fe.SQLPatternDistribution#train
for each schema 执行了 pattern_group_df.count()
目标: SQLDataSummary SQLPatternDistribution ET 性能优化
现状:
当前执行SQLDataSummary ET过程中会发现整个过程中触发了很多Job,同时这些job中部分是串行触发的,无法充分利用spark集群的并发度,可以作为一个优化的点,
已经发现的包括:
tech.mlsql.plugins.mllib.ets.fe.SQLDataSummary#train
for each schema 执行了 pattern_group_df.count()
注意点:
以上并不一定是全部,研发实际开发调优过程中发现新的点 也一起更新到这个issue,或关联进来。
补充一点:
@hellozepp 通过df 的 cache发现性能提升明显,所以ET侧的cache也是一个点
The text was updated successfully, but these errors were encountered: