vllm-project
diff --git a/‎examples/online_serving/separated_encode/api_server/api_server_1e1pd.py‎
Lines changed: 0 additions & 220 deletions b/‎examples/online_serving/separated_encode/api_server/api_server_1e1pd.py‎
Lines changed: 0 additions & 220 deletions
diff --git a/‎examples/online_serving/separated_encode/launch_epd_serve_separated.sh‎ renamed to ‎examples/online_serving/separated_encode/launch_1e1pd.sh‎
Lines changed: 12 additions & 10 deletions b/‎examples/online_serving/separated_encode/launch_epd_serve_separated.sh‎ renamed to ‎examples/online_serving/separated_encode/launch_1e1pd.sh‎
Lines changed: 12 additions & 10 deletions
diff --git a/‎examples/online_serving/separated_encode/launch_1e2pd.sh‎
Lines changed: 72 additions & 0 deletions b/‎examples/online_serving/separated_encode/launch_1e2pd.sh‎
Lines changed: 72 additions & 0 deletions
@@ -12,10 +12,12 @@ wait_for_server() {
 MODEL="/workspace/helper/Qwen2.5-VL-3B-Instruct" 
 LOG_PATH=$LOG_PATH
 ENCODE_PORT=19534
+ENCODE_RANK=0
 PREFILL_DECODE_PORT=19535
+PREFILL_DECODE_RANK=1
 PROXY_PORT=10001
-GPU_E="6"
-GPU_PD="7"
+GPU_E="4"
+GPU_PD="5"
 
 START_TIME=$(date +"%Y%m%d_%H%M%S")
 
@@ -28,9 +30,8 @@ CUDA_VISIBLE_DEVICES="$GPU_E" vllm serve "$MODEL" \
     --max-num-seqs 128 \
     --instance-type "encode" \
     --connector-workers-num 8 \
-    --epd-rank 0 &
+    --epd-rank "$ENCODE_RANK" &
 
-wait_for_server $ENCODE_PORT
 
 CUDA_VISIBLE_DEVICES="$GPU_PD" vllm serve "$MODEL" \
     --gpu-memory-utilization 0.9 \
@@ -39,16 +40,17 @@ CUDA_VISIBLE_DEVICES="$GPU_PD" vllm serve "$MODEL" \
     --max-num-seqs 128 \
     --instance-type "prefill+decode" \
     --connector-workers-num 8 \
-    --epd-rank 1 &
+    --epd-rank "$PREFILL_DECODE_RANK" &
 
+wait_for_server $ENCODE_PORT
 wait_for_server $PREFILL_DECODE_PORT
 
-python examples/online_serving/separated_encode/proxy/proxy1e1pd_aiohttp.py \
+python examples/online_serving/separated_encode/proxy/proxy_aiohttp.py \
     --host "0.0.0.0" \
     --port "$PROXY_PORT" \
-    --encode-server-url "http://localhost:$ENCODE_PORT" \
-    --prefill-decode-server-url "http://localhost:$PREFILL_DECODE_PORT" \
-    --e-rank 0 \
-    --pd-rank 1 &
+    --encode-servers-urls "http://localhost:$ENCODE_PORT" \
+    --prefill-decode-servers-urls "http://localhost:$PREFILL_DECODE_PORT" \
+    --encode-servers-ranks "$ENCODE_RANK" \
+    --prefill-decode-servers-ranks "$PREFILL_DECODE_RANK" &
 
 wait_for_server $PROXY_PORT
@@ -0,0 +1,72 @@
+#!/bin/bash
+
+
+wait_for_server() {
+    local port=$1
+    timeout 12000 bash -c "
+        until curl -s localhost:$port/v1/chat/completions > /dev/null; do
+            sleep 1
+        done" && return 0 || return 1
+}
+
+MODEL="/workspace/helper/Qwen2.5-VL-3B-Instruct" 
+LOG_PATH=$LOG_PATH
+
+ENCODE_PORT=19534
+PREFILL_DECODE_PORT_F=19535
+PREFILL_DECODE_PORT_S=19536
+
+ENCODE_RANK=0
+PREFILL_DECODE_RANK_F=1
+PREFILL_DECODE_RANK_S=2
+
+GPU_E="3"
+GPU_PD_F="4"
+GPU_PD_S="5"
+
+PROXY_PORT=10001
+
+START_TIME=$(date +"%Y%m%d_%H%M%S")
+
+redis-server &
+
+CUDA_VISIBLE_DEVICES="$GPU_E" vllm serve "$MODEL" \
+    --gpu-memory-utilization 0.9 \
+    --port "$ENCODE_PORT" \
+    --enable-request-id-headers \
+    --max-num-seqs 128 \
+    --instance-type "encode" \
+    --connector-workers-num 8 \
+    --epd-rank "$ENCODE_RANK" &
+
+CUDA_VISIBLE_DEVICES="$GPU_PD_F" vllm serve "$MODEL" \
+    --gpu-memory-utilization 0.9 \
+    --port "$PREFILL_DECODE_PORT_F" \
+    --enable-request-id-headers \
+    --max-num-seqs 128 \
+    --instance-type "prefill+decode" \
+    --connector-workers-num 8 \
+    --epd-rank "$PREFILL_DECODE_RANK_F" &
+
+CUDA_VISIBLE_DEVICES="$GPU_PD_S" vllm serve "$MODEL" \
+    --gpu-memory-utilization 0.9 \
+    --port "$PREFILL_DECODE_PORT_S" \
+    --enable-request-id-headers \
+    --max-num-seqs 128 \
+    --instance-type "prefill+decode" \
+    --connector-workers-num 8 \
+    --epd-rank "$PREFILL_DECODE_RANK_S" &
+
+wait_for_server $ENCODE_PORT
+wait_for_server $PREFILL_DECODE_PORT_F
+wait_for_server $PREFILL_DECODE_PORT_S
+
+python examples/online_serving/separated_encode/proxy/proxy_aiohttp.py \
+    --host "0.0.0.0" \
+    --port "$PROXY_PORT" \
+    --encode-servers-urls "http://localhost:$ENCODE_PORT" \
+    --prefill-decode-servers-urls "http://localhost:$PREFILL_DECODE_PORT_F,http://localhost:$PREFILL_DECODE_PORT_S" \
+    --encode-servers-ranks "$ENCODE_RANK" \
+    --prefill-decode-servers-ranks "$PREFILL_DECODE_RANK_F,$PREFILL_DECODE_RANK_S" &
+
+wait_for_server $PROXY_PORT