etl experiment report #1360

wycccccc · 2022-12-28T17:23:07Z

#1296
這份報告我沒有把架構加進來，感覺應該放到etl readme中。我會再發一隻pr把etl的文檔也順便一起寫掉。

docs/etl/experiments/etl_1.md

docs/etl/README.md

docs/etl/experiments/etl_1.md

…xperiment

wycccccc · 2022-12-29T17:06:48Z

上述問題已經都被訂正

chia7712 · 2022-12-30T07:02:21Z

@wycccccc 後來數據有再更新嗎

wycccccc · 2022-12-30T07:22:07Z

@chia7712 那段話是我半夜腦子短路了所以我偷偷刪掉了，實驗過後，實驗數據沒有問題。

chia7712 · 2022-12-30T07:24:40Z

docs/etl/experiments/etl_1.md

+
+### 不平衡情景
+
+在該情景下會用到上述的全部六臺機器，同時B1， B2， B3的網路頻寬將被設置爲2.5G以確保etl效能的變化在叢集高負載的情況下會有較明顯的體現。 


我們可能需要呈現一下“問題”，也就是當有一個節點不穩或是忙碌時，其吞吐量的表現。例如我們可以將各節點拿到的資料量和頻寬呈現出來，說明當某個節點已經很忙很不穩了，default partitioner 依然嘗試放這麼多資料過去

好已添加對比實驗來說明這一問題

chia7712

@wycccccc 感謝持續修改報告，剩一個建議調整完就可合併了

chia7712 · 2022-12-30T19:29:15Z

docs/etl/experiments/etl_1.md

+
+在普通情景下，擁有兩個worker的spark cluster中，使用standalone mode 啓動 astraea etl ，處理資料的平均速率爲58.5MB/s。
+
+在不平衡情境下，替換partitioner後的效能對比。


上面有提到不平衡的叢集造成的效能下降，麻煩在結論也要提到

感謝建議，已經修改完畢

chia7712 · 2022-12-31T10:57:05Z

docs/etl/experiments/etl_1.md

+
+圖中左側爲不平衡情景，右側爲普通情景,方便直觀感受差別
+
+左側實驗開始時先向costTopic發送資料，使其到達節點的頻寬上線。在一段時間後啓動etl，可以看到因爲etl發送資料分走了原先costTopic所佔據的頻寬，造成其效能下降。等到etl運行完畢costTopic的效能恢復到開始狀態。


想再確認一下情境，這段話主要目的是要說當發送的節點中有一個較忙碌時，預設的 partitioner 並不會跳過該節點，一樣有可能朝該節點推送資料，導致整體吞吐量/延遲受到影響。

因此我想確認一下costTopic和testTopic各自的分佈是什麼？另外圖下方的三個不同顏色的testTopic代表什麼意思？

costTopic 接受使一個節點較忙碌的資料。它只分布在B1上。
testTopic etl產生的資料會發往該topic。他分布在B1 B2 B3上。
testTopic有三個是因為它顯示了該topic在三個節點中各自的流量。
而costTopic之所以只有一個是因為只有B1一個節點接收到資料。

@wycccccc 感謝回應，可否把這段文字也加上去？

好已經添加上去了

etl experiment

f1f0a0e

wycccccc requested a review from chia7712 December 28, 2022 17:23

chia7712 reviewed Dec 28, 2022

View reviewed changes

docs/etl/experiments/etl_1.md Show resolved Hide resolved

chia7712 reviewed Dec 28, 2022

View reviewed changes

docs/etl/experiments/etl_1.md Outdated Show resolved Hide resolved

chia7712 reviewed Dec 28, 2022

View reviewed changes

docs/etl/experiments/etl_1.md Show resolved Hide resolved

chia7712 reviewed Dec 28, 2022

View reviewed changes

docs/etl/experiments/etl_1.md Outdated Show resolved Hide resolved

chia7712 reviewed Dec 28, 2022

View reviewed changes

docs/etl/experiments/etl_1.md Outdated Show resolved Hide resolved

chia7712 reviewed Dec 28, 2022

View reviewed changes

docs/etl/experiments/etl_1.md Outdated Show resolved Hide resolved

chia7712 reviewed Dec 28, 2022

View reviewed changes

docs/etl/experiments/etl_1.md Outdated Show resolved Hide resolved

add etl_README

fb094f4

wycccccc mentioned this pull request Dec 29, 2022

在叢集不平衡的情況下，etl替換strict dispatch後反而導致效能下降 #1366

Open