ai-dynamo
diff --git a/‎benchmarks/profiler/deploy/profile_sla_moe_job.yaml‎
Lines changed: 61 additions & 0 deletions b/‎benchmarks/profiler/deploy/profile_sla_moe_job.yaml‎
Lines changed: 61 additions & 0 deletions
diff --git a/‎benchmarks/profiler/profile_endpoint.py‎
Lines changed: 8 additions & 0 deletions b/‎benchmarks/profiler/profile_endpoint.py‎
Lines changed: 8 additions & 0 deletions
@@ -0,0 +1,61 @@
+# SPDX-FileCopyrightText: Copyright (c) 2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+apiVersion: batch/v1
+kind: Job
+metadata:
+  name: profile-sla
+  namespace: ${NAMESPACE}
+spec:
+  template:
+    spec:
+      serviceAccountName: dynamo-sa
+      containers:
+      - name: profile-sla
+        image: ${DOCKER_IMAGE}
+        resources:
+          requests:
+            cpu: "32"
+            memory: "50Gi"
+        env:
+          - name: HUGGING_FACE_HUB_TOKEN
+            valueFrom:
+              secretKeyRef:
+                name: hf-token-secret
+                key: HF_TOKEN
+          - name: NATS_SERVER
+            value: nats://${NAMESPACE}-nats:4222
+          - name: ETCD_ENDPOINTS
+            value: ${NAMESPACE}-etcd:2379
+        workingDir: /sgl-workspace/dynamo
+        command: ["python", "-m", "benchmarks.profiler.profile_sla"]
+        args:
+          - --config
+          - /sgl-workspace/dynamo/recipes/deepseek-r1/sglang-wideep/tep16p-dep16d-disagg.yaml
+          - --output-dir
+          - /data/profiling_results
+          - --namespace
+          - ${NAMESPACE}
+          - --backend
+          - sglang
+          - --is-moe-model
+          - --min-num-gpus-per-engine
+          - "8"
+          - --max-num-gpus-per-engine
+          - "16"
+          - --isl
+          - "3000"
+          - --osl
+          - "150"
+          - --ttft
+          - "200"
+          - --itl
+          - "20"
+        volumeMounts:
+          - name: output-volume
+            mountPath: /data
+      restartPolicy: Never
+      volumes:
+        - name: output-volume
+          persistentVolumeClaim:
+            claimName: dynamo-pvc
+  backoffLimit: 0
@@ -22,6 +22,7 @@
     parser = argparse.ArgumentParser(
         description="profile a given endpoint's performance for prefill or decode"
     )
+    # TODO: use kebab case
     parser.add_argument(
         "--mode",
         type=str,
@@ -79,6 +80,12 @@
         default=8,
         help="interpolation granularity for the results",
     )
+    parser.add_argument(
+        "--attention_dp_size",
+        type=int,
+        default=1,
+        help="attention dp size of the endpoint for MoE models",
+    )
     args = parser.parse_args()
 
     os.makedirs(args.work_dir, exist_ok=True)
@@ -105,6 +112,7 @@
             args.max_kv_tokens,
             args.max_context_length,
             args.interpolation_granularity,
+            args.attention_dp_size,
         )
     else:
         raise ValueError(f"Invalid mode: {args.mode}")