example slurm script for submitting jobs

wangshangsam · wangshangsam · commit bad5387dbfc9 · 2025-12-10T13:08:55.000-08:00
diff --git a/multimodal/vl2l/scripts/slurm/benchmark.sh b/multimodal/vl2l/scripts/slurm/benchmark.sh
@@ -0,0 +1,32 @@
+#!/bin/bash
+#SBATCH --time=2:00:00
+#SBATCH --partition=batch_short
+#SBATCH --gres=gpu:8
+#SBATCH --tasks=1
+#SBATCH --nodes=1
+#SBATCH --ntasks-per-node=1
+#SBATCH --exclusive
+#SBATCH --output=benchmark-slurm-output-%j.txt
+#SBATCH --error=benchmark-slurm-error-%j.txt
+
+set -eux
+set -o pipefail
+
+mkdir -p ${OUTPUT_HOST_DIR}/${SLURM_JOB_ID}
+
+srun \
+    --container-image=${CONTAINER_IMAGE} \
+    --container-mounts=${CACHE_HOST_DIR}:${CACHE_CONTAINER_DIR},${OUTPUT_HOST_DIR}:${OUTPUT_CONTAINER_DIR} \
+    --no-container-mount-home \
+    mlperf-inf-mm-vl2l benchmark vllm \
+        --settings.test.scenario=${SCENARIO} \
+        --settings.test.mode=${MODE} \
+        --dataset.token=${DATASET_TOKEN} \
+        --vllm.model.repo_id=${MODEL_REPO_ID} \
+        --vllm.cli=--async-scheduling \
+        --vllm.cli=--max-model-len=32768 \
+        --vllm.cli=--max-num-seqs=1024 \
+        --vllm.cli=--mm-encoder-tp-mode=data \
+        --vllm.cli=--limit-mm-per-prompt.video=0 \
+        --vllm.cli=--tensor-parallel-size=8 \
+        --settings.logging.log_output.outdir=${OUTPUT_CONTAINER_DIR}/${SLURM_JOB_ID} 
diff --git a/multimodal/vl2l/scripts/slurm/evaluate.sh b/multimodal/vl2l/scripts/slurm/evaluate.sh
@@ -0,0 +1,18 @@
+#!/bin/bash
+#SBATCH --time=1:00:00
+#SBATCH --partition=cpu_short
+#SBATCH --nodes=1
+#SBATCH --tasks=1
+#SBATCH --ntasks-per-node=1
+#SBATCH --cpus-per-task=8
+#SBATCH --mem-per-cpu=16G
+#SBATCH --output=evaluate-slurm-output-%j.txt
+#SBATCH --error=evaluate-slurm-error-%j.txt
+
+srun \
+    --container-image=${CONTAINER_IMAGE} \
+    --container-mounts=${CACHE_HOST_DIR}:${CACHE_CONTAINER_DIR},${OUTPUT_HOST_DIR}:${OUTPUT_CONTAINER_DIR} \
+    --no-container-mount-home \
+    mlperf-inf-mm-vl2l evaluate \
+        --dataset.token=${DATASET_TOKEN} \
+        --filename=${OUTPUT_CONTAINER_DIR}/${SLURM_JOB_ID}/mlperf_log_accuracy.json
diff --git a/multimodal/vl2l/scripts/slurm/submit.sh b/multimodal/vl2l/scripts/slurm/submit.sh
@@ -0,0 +1,204 @@
+#!/bin/bash
+
+set -eux
+set -o pipefail
+
+DEFAULT_CONTAINER_IMAGE=""
+container_image=${DEFAULT_CONTAINER_IMAGE}
+
+DEFAULT_DATASET_TOKEN=""
+dataset_token=${DEFAULT_DATASET_TOKEN}
+
+DEFAULT_MODEL_REPO_ID=Qwen/Qwen3-VL-235B-A22B-Instruct
+model_repo_id=${DEFAULT_MODEL_REPO_ID}
+
+DEFAULT_SCENARIO=offline
+scenario=${DEFAULT_SCENARIO}
+
+DEFAULT_MODE=accuracy_only
+mode=${DEFAULT_MODE}
+
+DEFAULT_CACHE_HOST_DIR=""
+cache_host_dir=${DEFAULT_CACHE_HOST_DIR}
+
+DEFAULT_OUTPUT_HOST_DIR=$(pwd)/outputs
+output_host_dir=${DEFAULT_OUTPUT_HOST_DIR}
+
+DEFAULT_SLURM_ACCOUNT=""
+slurm_account=${DEFAULT_SLURM_ACCOUNT}
+
+DEFAULT_BENCHMARK_SLURM_PARTITION=""
+benchmark_slurm_partition=${DEFAULT_BENCHMARK_SLURM_PARTITION}
+
+DEFAULT_EVALUATE_SLURM_PARTITION=""
+evaluate_slurm_partition=${DEFAULT_EVALUATE_SLURM_PARTITION}
+
+function _exit_with_help_msg() {
+    cat <<EOF
+Submit a benchmarking (and optionally, an evaluation) job(s) for the VL2L benchmark.
+
+Usage: ${BASH_SOURCE[0]}
+    [-ci  | --container-image]     Container image to run the benchmark (default: ${DEFAULT_CONTAINER_IMAGE}).
+    [-dt  | --dataset-token]       Access token for the Shopify Global Catalogue dataset (default: ${DEFAULT_DATASET_TOKEN}).
+    [-mri | --model-repo-id]       HuggingFace repo ID of the model to benchmark (default: ${DEFAULT_MODEL_REPO_ID}).
+    [-s | --scenario]              Benchmark scenario (default: ${DEFAULT_SCENARIO}).
+    [-m | --mode]                  Benchmark mode (default: ${DEFAULT_MODE}).
+    [-chd | --cache-host-dir]      Host directory of the `.cache` directory to which HuggingFace will dump the dataset and the model checkpoint, and vLLM will dump compilation artifacts (default: ${DEFAULT_CACHE_HOST_DIR}).
+    [-ohd | --output-host-dir]     Host directory to which the benchmark and evaluation results will be dumped (default: ${DEFAULT_OUTPUT_HOST_DIR}).
+    [-sa | --slurm-account]        Slurm account for submitting the benchmark and evaluation jobs (default: ${DEFAULT_SLURM_ACCOUNT}).
+    [-bsp | --benchmark-slurm-partition] Slurm partition for submitting the benchmarking job; usually a partition with nodes that have GPUs (default: ${DEFAULT_BENCHMARK_SLURM_PARTITION}).
+    [-esp | --evaluate-slurm-partition] Slurm partition for submitting the evaluation job; usually a partition with nodes that have CPUs only (default: ${DEFAULT_EVALUATE_SLURM_PARTITION}).
+    [-h | --help]     Print this help message.
+EOF
+    if [ -n "$1" ]; then
+        echo "$(tput bold setab 1)$1$(tput sgr0)"
+    fi
+    exit "$2"
+}
+
+while [[ $# -gt 0 ]]; do
+    case $1 in
+    -ci | --container-image)
+        container_image=$2
+        shift
+        shift
+        ;;
+    -ci=* | --container-image=*)
+        container_image=${1#*=}
+        shift
+        ;;
+    -dt | --dataset-token)
+        dataset_token=$2
+        shift
+        shift
+        ;;
+    -dt=* | --dataset-token=*)
+        dataset_token=${1#*=}
+        shift
+        ;;
+    -mri | --model-repo-id)
+        model_repo_id=$2
+        shift
+        shift
+        ;;
+    -mri=* | --model-repo-id=*)
+        model_repo_id=${1#*=}
+        shift
+        ;;
+    -s | --scenario)
+        scenario=$2
+        shift
+        shift
+        ;;
+    -s=* | --scenario=*)
+        scenario=${1#*=}
+        shift
+        ;;
+    -m | --mode)
+        mode=$2
+        shift
+        shift
+        ;;
+    -m=* | --mode=*)
+        mode=${1#*=}
+        shift
+        ;;
+    -chd | --cache-host-dir)
+        cache_host_dir=$2
+        shift
+        shift
+        ;;
+    -chd=* | --cache-host-dir=*)
+        cache_host_dir=${1#*=}
+        shift
+        ;;
+    -ohd | --output-host-dir)
+        output_host_dir=$2
+        shift
+        shift
+        ;;
+    -ohd=* | --output-host-dir=*)
+        output_host_dir=${1#*=}
+        shift
+        ;;
+    -sa | --slurm-account)
+        slurm_account=$2
+        shift
+        shift
+        ;;
+    -sa=* | --slurm-account=*)
+        slurm_account=${1#*=}
+        shift
+        ;;
+    -bsp | --benchmark-slurm-partition)
+        benchmark_slurm_partition=$2
+        shift
+        shift
+        ;;
+    -bsp=* | --benchmark-slurm-partition=*)
+        benchmark_slurm_partition=${1#*=}
+        shift
+        ;;
+    -esp | --evaluate-slurm-partition)
+        evaluate_slurm_partition=$2
+        shift
+        shift
+        ;;
+    -esp=* | --evaluate-slurm-partition=*)
+        evaluate_slurm_partition=${1#*=}
+        shift
+        ;;
+    -h | --help)
+        _exit_with_help_msg "" 0
+        ;;
+    *)
+        _exit_with_help_msg "[ERROR] Unknown option: $1" 1
+        ;;
+    esac
+done
+
+if [[ -z "${container_image}" ]]; then
+    _exit_with_help_msg "[ERROR] -ci or --container-image is required." 1
+fi
+
+if [[ -z "${dataset_token}" ]]; then
+    _exit_with_help_msg "[ERROR] -dt or --dataset-token is required." 1
+fi
+
+if [[ -z "${cache_host_dir}" ]]; then
+    _exit_with_help_msg "[ERROR] -chd or --cache-host-dir is required." 1
+fi
+
+if [[ -z "${slurm_account}" ]]; then
+    _exit_with_help_msg "[ERROR] -sa or --slurm-account is required." 1
+fi
+
+if [[ -z "${benchmark_slurm_partition}" ]]; then
+    _exit_with_help_msg "[ERROR] -bsp or --benchmark-slurm-partition is required." 1
+fi
+
+if [[ -z "${evaluate_slurm_partition}" ]]; then
+    _exit_with_help_msg "[ERROR] -esp or --evaluate-slurm-partition is required." 1
+fi
+
+cache_container_dir=/root/.cache
+output_container_dir=/outputs
+
+mkdir -p "${output_host_dir}"
+
+benchmark_job_id=$(
+    sbatch --parsable \
+        --export=CACHE_HOST_DIR="${cache_host_dir}",CACHE_CONTAINER_DIR="${cache_container_dir}",OUTPUT_HOST_DIR="${output_host_dir}",OUTPUT_CONTAINER_DIR="${output_container_dir}",CONTAINER_IMAGE="${container_image}",SCENARIO="${scenario}",MODE="${mode}",DATASET_TOKEN="${dataset_token}",MODEL_REPO_ID="${model_repo_id}" \
+        --account="${slurm_account}" \
+        --partition="${benchmark_slurm_partition}" \
+        benchmark.sh
+)
+
+if [[ "${mode}" == "accuracy_only" ]]; then
+    sbatch \
+        --dependency=afterok:"${benchmark_job_id}" \
+        --export=CACHE_HOST_DIR="${cache_host_dir}",CACHE_CONTAINER_DIR="${cache_container_dir}",OUTPUT_HOST_DIR="${output_host_dir}",OUTPUT_CONTAINER_DIR="${output_container_dir}",CONTAINER_IMAGE="${container_image}",DATASET_TOKEN="${dataset_token}" \
+        --account="${slurm_account}" \
+        --partition="${evaluate_slurm_partition}" \
+        evaluate.sh
+fi