test: Add deepep test for vllm (#2534)

krishung5 · nv-anants · commit 6ffc098b0742 · 2025-08-28T09:09:51.000-07:00
diff --git a/components/backends/vllm/launch/dsr1_dep.sh b/components/backends/vllm/launch/dsr1_dep.sh
@@ -10,6 +10,7 @@ NODE_RANK=""
 GPUS_PER_NODE=""
 MASTER_ADDR="localhost"
 LOG_DIR="./logs"
+MODEL="deepseek-ai/DeepSeek-R1"
 
 # Parse command line arguments
 while [[ $# -gt 0 ]]; do
@@ -34,6 +35,10 @@ while [[ $# -gt 0 ]]; do
             LOG_DIR="$2"
             shift 2
             ;;
+        --model)
+            MODEL="$2"
+            shift 2
+            ;;
         -h|--help)
             echo "Usage: $0 [OPTIONS]"
             echo "Options:"
@@ -42,6 +47,7 @@ while [[ $# -gt 0 ]]; do
             echo "  --gpus-per-node L     Number of GPUs per node (required, int)"
             echo "  --master-addr ADDR    Master node address (default: localhost)"
             echo "  --log-dir DIR         Directory for log files (default: ./logs)"
+            echo "  --model MODEL    Model name to use (default: deepseek-ai/DeepSeek-R1)"
             echo "  -h, --help           Show this help message"
             exit 0
             ;;
@@ -71,6 +77,7 @@ echo "  GPUs per node: $GPUS_PER_NODE"
 echo "  Data parallel size: $DATA_PARALLEL_SIZE"
 echo "  Master address: $MASTER_ADDR"
 echo "  Log directory: $LOG_DIR"
+echo "  Model name: $MODEL"
 
 trap 'echo Cleaning up...; kill 0' EXIT
 
@@ -90,7 +97,7 @@ for ((i=0; i<GPUS_PER_NODE; i++)); do
         VLLM_USE_DEEP_GEMM=1 \
         VLLM_RANDOMIZE_DP_DUMMY_INPUTS=1 \
         python3 -m dynamo.vllm \
-        --model deepseek-ai/DeepSeek-R1 \
+        --model $MODEL \
         --data_parallel_size $DATA_PARALLEL_SIZE \
         --data-parallel-rank $dp_rank \
         --enable-expert-parallel \
diff --git a/pyproject.toml b/pyproject.toml
@@ -175,6 +175,7 @@ markers = [
     "trtllm_marker: marks tests as requiring trtllm",
     "sglang: marks tests as requiring sglang",
     "slow: marks tests as known to be slow",
+    "h100: marks tests to run on H100",
     "kvbm: marks tests for KV behavior and model determinism"
 ]
 
diff --git a/tests/serve/test_vllm.py b/tests/serve/test_vllm.py
@@ -260,6 +260,30 @@ def wait_for_ready(self, payload, logger=logging.getLogger()):
         model="Qwen/Qwen3-0.6B",
         delayed_start=45,
     ),
+    "deepep": VLLMConfig(
+        name="deepep",
+        directory="/workspace/components/backends/vllm",
+        script_name="dsr1_dep.sh",
+        marks=[pytest.mark.gpu_2, pytest.mark.vllm, pytest.mark.h100],
+        endpoints=["v1/chat/completions", "v1/completions"],
+        response_handlers=[
+            chat_completions_response_handler,
+            completions_response_handler,
+        ],
+        model="deepseek-ai/DeepSeek-V2-Lite",
+        delayed_start=45,
+        args=[
+            "--model",
+            "deepseek-ai/DeepSeek-V2-Lite",
+            "--num-nodes",
+            "1",
+            "--node-rank",
+            "0",
+            "--gpus-per-node",
+            "2",
+        ],
+        timeout=300,
+    ),
     "multimodal_agg": VLLMConfig(
         name="multimodal_agg",
         directory="/workspace/examples/multimodal",

Original file line number	Diff line number	Diff line change
`@@ -175,6 +175,7 @@ markers = [`
`175`	`175`	`"trtllm_marker: marks tests as requiring trtllm",`
`176`	`176`	`"sglang: marks tests as requiring sglang",`
`177`	`177`	`"slow: marks tests as known to be slow",`
	`178`	`+ "h100: marks tests to run on H100",`
`178`	`179`	`"kvbm: marks tests for KV behavior and model determinism"`
`179`	`180`	`]`
`180`	`181`