kubernetes-sigs
diff --git a/‎.github/workflows/crd-validation.yml‎
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/crd-validation.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎Dockerfile‎
Lines changed: 1 addition & 0 deletions b/‎Dockerfile‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎cmd/epp/runner/runner.go‎
Lines changed: 24 additions & 2 deletions b/‎cmd/epp/runner/runner.go‎
Lines changed: 24 additions & 2 deletions
diff --git a/‎config/charts/body-based-routing/README.md‎
Lines changed: 22 additions & 0 deletions b/‎config/charts/body-based-routing/README.md‎
Lines changed: 22 additions & 0 deletions
diff --git a/‎config/charts/body-based-routing/templates/bbr.yaml‎
Lines changed: 5 additions & 2 deletions b/‎config/charts/body-based-routing/templates/bbr.yaml‎
Lines changed: 5 additions & 2 deletions
diff --git a/‎config/charts/body-based-routing/values.yaml‎
Lines changed: 4 additions & 0 deletions b/‎config/charts/body-based-routing/values.yaml‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎config/charts/inferencepool/README.md‎
Lines changed: 29 additions & 0 deletions b/‎config/charts/inferencepool/README.md‎
Lines changed: 29 additions & 0 deletions
diff --git a/‎config/charts/inferencepool/templates/_latency-predictor.tpl‎
Lines changed: 112 additions & 0 deletions b/‎config/charts/inferencepool/templates/_latency-predictor.tpl‎
Lines changed: 112 additions & 0 deletions
@@ -80,4 +80,4 @@ jobs:
             fi
           fi
 
-          echo "All CRDs are compatible."
+          echo "All CRDs are compatible."
@@ -24,6 +24,7 @@ COPY internal ./internal
 COPY apix ./apix
 COPY api ./api
 COPY version ./version
+COPY sidecars ./sidecars
 WORKDIR /src/cmd/epp
 RUN go build -ldflags="-X sigs.k8s.io/gateway-api-inference-extension/version.CommitSHA=${COMMIT_SHA} -X sigs.k8s.io/gateway-api-inference-extension/version.BuildRef=${BUILD_REF}" -o /epp
 
 
@@ -69,6 +69,7 @@ import (
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/saturationdetector"
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/scheduling"
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/scheduling/framework/plugins/multi/prefix"
+	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/scheduling/framework/plugins/multi/slo_aware_router"
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/scheduling/framework/plugins/picker"
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/scheduling/framework/plugins/profile"
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/scheduling/framework/plugins/scorer"
@@ -126,6 +127,7 @@ var (
 		"then a self-signed certificate is used.")
 	// metric flags
 	totalQueuedRequestsMetric    = flag.String("total-queued-requests-metric", runserver.DefaultTotalQueuedRequestsMetric, "Prometheus metric for the number of queued requests.")
+	totalRunningRequestsMetric   = flag.String("total-running-requests-metric", runserver.DefaultTotalRunningRequestsMetric, "Prometheus metric for the number of running requests.")
 	kvCacheUsagePercentageMetric = flag.String("kv-cache-usage-percentage-metric", runserver.DefaultKvCacheUsagePercentageMetric, "Prometheus metric for the fraction of KV-cache blocks currently in use (from 0 to 1).")
 	// LoRA metrics
 	loraInfoMetric = flag.String("lora-info-metric", runserver.DefaultLoraInfoMetric, "Prometheus metric for the LoRA info metrics (must be in vLLM label format).")
@@ -139,8 +141,9 @@ var (
 	configFile = flag.String("config-file", runserver.DefaultConfigFile, "The path to the configuration file")
 	configText = flag.String("config-text", runserver.DefaultConfigText, "The configuration specified as text, in lieu of a file")
 
-	modelServerMetricsPort = flag.Int("model-server-metrics-port", 0, "Port to scrape metrics from pods. "+
-		"Default value will be set to the InferencePool.Spec.TargetPorts[0].Number if not set.")
+	modelServerMetricsPort = flag.Int("model-server-metrics-port", 0, "[DEPRECATED] Port to scrape metrics from pods. "+
+		"Default value will be set to the InferencePool.Spec.TargetPorts[0].Number if not set."+
+		"This option will be removed in the next release.")
 	modelServerMetricsPath                    = flag.String("model-server-metrics-path", "/metrics", "Path to scrape metrics from pods")
 	modelServerMetricsScheme                  = flag.String("model-server-metrics-scheme", "http", "Scheme to scrape metrics from pods")
 	modelServerMetricsHttpsInsecureSkipVerify = flag.Bool("model-server-metrics-https-insecure-skip-verify", true, "When using 'https' scheme for 'model-server-metrics-scheme', configure 'InsecureSkipVerify' (default to true)")
@@ -198,6 +201,8 @@ func (r *Runner) Run(ctx context.Context) error {
 	flag.Parse()
 	initLogging(&opts)
 
+	r.deprecatedFlagsHandler(setupLog)
+
 	if *tracing {
 		err := common.InitTracing(ctx, setupLog)
 		if err != nil {
@@ -426,6 +431,9 @@ func (r *Runner) registerInTreePlugins() {
 	plugins.Register(scorer.KvCacheUtilizationScorerType, scorer.KvCacheUtilizationScorerFactory)
 	plugins.Register(scorer.QueueScorerType, scorer.QueueScorerFactory)
 	plugins.Register(scorer.LoraAffinityScorerType, scorer.LoraAffinityScorerFactory)
+	// Latency predictor plugins
+	plugins.Register(slo_aware_router.SLOAwareRouterPluginType, slo_aware_router.SLOAwareRouterFactory)
+	plugins.Register(profile.SLOAwareProfileHandlerType, profile.SLOAwareProfileHandlerFactory)
 	// register filter for test purpose only (used in conformance tests)
 	plugins.Register(testfilter.HeaderBasedTestingFilterType, testfilter.HeaderBasedTestingFilterFactory)
 	// register response received plugin for test purpose only (used in conformance tests)
@@ -478,6 +486,10 @@ func (r *Runner) parseConfigurationPhaseTwo(ctx context.Context, rawConfig *conf
 
 	// Add requestControl plugins
 	r.requestControlConfig.AddPlugins(handle.GetAllPlugins()...)
+	// Sort prepare data plugins in DAG order (topological sort). Also check prepare data plugins for cycles.
+	if r.requestControlConfig.PrepareDataPluginGraph() != nil {
+		return nil, errors.New("failed to load the configuration - prepare data plugins have cyclic dependencies")
+	}
 
 	// Handler deprecated configuration options
 	r.deprecatedConfigurationHelper(cfg, logger)
@@ -486,6 +498,14 @@ func (r *Runner) parseConfigurationPhaseTwo(ctx context.Context, rawConfig *conf
 	return cfg, nil
 }
 
+func (r *Runner) deprecatedFlagsHandler(logger logr.Logger) {
+	flag.Visit(func(f *flag.Flag) {
+		if f.Name == "model-server-metrics-port" { // future: use  map/set to store deprecated flags (and replacements?)
+			logger.Info("deprecated option will be removed in the next release.", "option", f.Name)
+		}
+	})
+}
+
 func (r *Runner) deprecatedConfigurationHelper(cfg *config.Config, logger logr.Logger) {
 	// Handle deprecated environment variable based feature flags
 
@@ -538,6 +558,7 @@ func (r *Runner) setupMetricsCollection(setupLog logr.Logger, useExperimentalDat
 func setupMetricsV1(setupLog logr.Logger) (datalayer.EndpointFactory, error) {
 	mapping, err := backendmetrics.NewMetricMapping(
 		*totalQueuedRequestsMetric,
+		*totalRunningRequestsMetric,
 		*kvCacheUsagePercentageMetric,
 		*loraInfoMetric,
 		*cacheInfoMetric,
@@ -586,6 +607,7 @@ func setupDatalayer(logger logr.Logger) (datalayer.EndpointFactory, error) {
 		*modelServerMetricsHttpsInsecureSkipVerify,
 		nil)
 	extractor, err := dlmetrics.NewExtractor(*totalQueuedRequestsMetric,
+		*totalRunningRequestsMetric,
 		*kvCacheUsagePercentageMetric,
 		*loraInfoMetric, *cacheInfoMetric)
 
 
@@ -24,6 +24,27 @@ $ helm install body-based-router oci://us-central1-docker.pkg.dev/k8s-staging-im
     --set provider.name=[gke|istio]
 ```
 
+### Install with Custom Cmd-line Flags
+
+To set cmd-line flags, you can use the `--set` option to set each flag, e.g.,:
+
+```txt
+$ helm install body-based-router ./config/charts/body-based-routing \
+    --set provider.name=[gke|istio] \
+    --set inferenceGateway.name=inference-gateway
+    --set bbr.flags.<FLAG_NAME>=<FLAG_VALUE>
+```
+
+Alternatively, you can define flags in the `values.yaml` file:
+
+```yaml
+bbr:
+  flags:
+    FLAG_NAME: <FLAG_VALUE>
+    v: 3 ## Log verbosity
+    ...
+```
+
 ## Uninstall
 
 Run the following command to uninstall the chart:
@@ -46,6 +67,7 @@ The following table list the configurable parameters of the chart.
 | `bbr.image.hub`              | Registry URL where the image is hosted.                                                                           | 
 | `bbr.image.tag`              | Image tag.                                                                                                        |
 | `bbr.image.pullPolicy`       | Image pull policy for the container. Possible values: `Always`, `IfNotPresent`, or `Never`. Defaults to `Always`. |
+| `bbr.flags`                  | map of flags which are passed through to bbr. Refer to [runner.go](https://github.com/kubernetes-sigs/gateway-api-inference-extension/blob/main/cmd/bbr/runner/runner.go) for complete list. |
 | `provider.name`              | Name of the Inference Gateway implementation being used. Possible values: `istio`, `gke`. Defaults to `none`.     |
 | `inferenceGateway.name`      | The name of the Gateway. Defaults to `inference-gateway`.                                                         |                        
 
 
@@ -19,8 +19,11 @@ spec:
         imagePullPolicy: {{ .Values.bbr.image.pullPolicy | default "Always" }}
         args:
         - "--streaming"
-        - "--v"
-        - "3"
+        # Pass additional flags via the bbr.flags field in values.yaml.
+        {{- range $key, $value := .Values.bbr.flags }}
+        - --{{ $key }}
+        - "{{ $value }}"
+        {{- end }}
         ports:
         - containerPort: {{ .Values.bbr.port }}
         # health check
 
@@ -9,6 +9,10 @@ bbr:
   port: 9004
   healthCheckPort: 9005
 
+  flags:
+    # Log verbosity
+    v: 3
+
 provider:
   name: none
 
 
@@ -121,6 +121,35 @@ $ helm install triton-llama3-8b-instruct \
   oci://us-central1-docker.pkg.dev/k8s-staging-images/gateway-api-inference-extension/charts/inferencepool --version v0
 ```
 
+### Install with Latency-Based Routing
+
+For full details see the dedicated [Latency-Based Routing Guide](https://gateway-api-inference-extension.sigs.k8s.io/guides/latency-based-predictor.md)
+
+#### Latency-Based Router Configuration
+
+The behavior of the latency-based router can be fine-tuned using the configuration parameters under `inferenceExtension.latencyPredictor.sloAwareRouting` in your `values.yaml` file.
+
+| Parameter                        | Description                                                                                             | Default     |
+| -------------------------------- | ------------------------------------------------------------------------------------------------------- | ----------- |
+| `samplingMean`                   | The sampling mean (lambda) for the Poisson distribution of token sampling.                              | `100.0`     |
+| `maxSampledTokens`               | The maximum number of tokens to sample for TPOT prediction.                                             | `20`        |
+| `sloBufferFactor`                | A buffer to apply to the SLO to make it more or less strict.                                            | `1.0`       |
+| `negHeadroomTTFTWeight`          | The weight to give to the TTFT when a pod has negative headroom.                                        | `0.8`       |
+| `negHeadroomTPOTWeight`          | The weight to give to the TPOT when a pod has negative headroom.                                        | `0.2`       |
+| `headroomTTFTWeight`             | The weight to give to the TTFT when a pod has positive headroom.                                        | `0.8`       |
+| `headroomTPOTWeight`             | The weight to give to the TPOT when a pod has positive headroom.                                        | `0.2`       |
+| `headroomSelectionStrategy`      | The strategy to use for selecting a pod based on headroom. Options: `least`, `most`, `composite-least`, `composite-most`, `composite-only`. | `least`     |
+| `compositeKVWeight`              | The weight for KV cache in the composite score.                                                         | `1.0`       |
+| `compositeQueueWeight`           | The weight for queue size in the composite score.                                                       | `1.0`       |
+| `compositePrefixWeight`          | The weight for prefix cache in the composite score.                                                     | `1.0`       |
+| `epsilonExploreSticky`           | Exploration factor for sticky sessions.                                                                 | `0.01`      |
+| `epsilonExploreNeg`              | Exploration factor for negative headroom.                                                               | `0.01`      |
+| `affinityGateTau`                | Affinity gate threshold.                                                                                | `0.80`      |
+| `affinityGateTauGlobal`          | Global affinity gate threshold.                                                                         | `0.99`      |
+| `selectionMode`                  | The mode for selection (e.g., "linear").                                                                | `linear`    |
+
+**Note:** Enabling SLO-aware routing also exposes a number of Prometheus metrics for monitoring the feature, including actual vs. predicted latency, SLO violations, and more.
+
 ### Install with High Availability (HA)
 
 To deploy the EndpointPicker in a high-availability (HA) active-passive configuration set replicas to be greater than one. In such a setup, only one "leader" replica will be active and ready to process traffic at any given time. If the leader pod fails, another pod will be elected as the new leader, ensuring service continuity.
 
@@ -0,0 +1,112 @@
+{{/*
+Latency Predictor Env
+*/}}
+{{- define "gateway-api-inference-extension.latencyPredictor.env" -}}
+{{- if .Values.inferenceExtension.latencyPredictor.enabled }}
+- name: PREDICTION_SERVER_URL
+  value: "{{- $count := int .Values.inferenceExtension.latencyPredictor.predictionServers.count -}}
+          {{- $startPort := int .Values.inferenceExtension.latencyPredictor.predictionServers.startPort -}}
+          {{- range $i := until $count -}}
+            {{- if $i }},{{ end }}http://localhost:{{ add $startPort $i }}
+          {{- end }}"
+- name: TRAINING_SERVER_URL
+  value: "http://localhost:{{ .Values.inferenceExtension.latencyPredictor.trainingServer.port }}"
+{{- range $key, $value := .Values.inferenceExtension.latencyPredictor.eppEnv }}
+- name: {{ $key }}
+  value: {{ $value | quote }}
+{{- end }}
+{{- end }}
+{{- end }}
+
+{{/*
+Latency Predictor Sidecar Containers
+*/}}
+{{- define "gateway-api-inference-extension.latencyPredictor.containers" -}}
+{{- if .Values.inferenceExtension.latencyPredictor.enabled }}
+# Training Server Sidecar Container
+- name: training-server
+  image: {{ .Values.inferenceExtension.latencyPredictor.trainingServer.image.hub }}/{{ .Values.inferenceExtension.latencyPredictor.trainingServer.image.name }}:{{ .Values.inferenceExtension.latencyPredictor.trainingServer.image.tag }}
+  imagePullPolicy: {{ .Values.inferenceExtension.latencyPredictor.trainingServer.image.pullPolicy }}
+  ports:
+  - containerPort: {{ .Values.inferenceExtension.latencyPredictor.trainingServer.port }}
+    name: training-port
+  livenessProbe:
+    {{- toYaml .Values.inferenceExtension.latencyPredictor.trainingServer.livenessProbe | nindent 4 }}
+  readinessProbe:
+    {{- toYaml .Values.inferenceExtension.latencyPredictor.trainingServer.readinessProbe | nindent 4 }}
+  resources:
+    {{- toYaml .Values.inferenceExtension.latencyPredictor.trainingServer.resources | nindent 4 }}
+  envFrom:
+  - configMapRef:
+      name: {{ include "gateway-api-inference-extension.name" . }}-latency-predictor-training
+  env:
+  - name: POD_NAME
+    valueFrom:
+      fieldRef:
+        fieldPath: metadata.name
+  - name: SERVER_TYPE
+    value: "training"
+  volumeMounts:
+  - name: training-server-storage
+    mountPath: /models
+{{- range $i := until (int .Values.inferenceExtension.latencyPredictor.predictionServers.count) }}
+# Prediction Server Sidecar Container {{ add $i 1 }}
+- name: prediction-server-{{ add $i 1 }}
+  image: {{ $.Values.inferenceExtension.latencyPredictor.predictionServers.image.hub }}/{{ $.Values.inferenceExtension.latencyPredictor.predictionServers.image.name }}:{{ $.Values.inferenceExtension.latencyPredictor.predictionServers.image.tag }}
+  imagePullPolicy: {{ $.Values.inferenceExtension.latencyPredictor.predictionServers.image.pullPolicy }}
+  command: ["uvicorn"]
+  args: ["prediction_server:app", "--host", "0.0.0.0", "--port", "{{ add $.Values.inferenceExtension.latencyPredictor.predictionServers.startPort $i }}"]
+  ports:
+  - containerPort: {{ add $.Values.inferenceExtension.latencyPredictor.predictionServers.startPort $i }}
+    name: predict-port-{{ add $i 1 }}
+  livenessProbe:
+    httpGet:
+      path: {{ $.Values.inferenceExtension.latencyPredictor.predictionServers.livenessProbe.httpGet.path }}
+      port: {{ add $.Values.inferenceExtension.latencyPredictor.predictionServers.startPort $i }}
+    initialDelaySeconds: {{ $.Values.inferenceExtension.latencyPredictor.predictionServers.livenessProbe.initialDelaySeconds }}
+    periodSeconds: {{ $.Values.inferenceExtension.latencyPredictor.predictionServers.livenessProbe.periodSeconds }}
+  readinessProbe:
+    httpGet:
+      path: {{ $.Values.inferenceExtension.latencyPredictor.predictionServers.readinessProbe.httpGet.path }}
+      port: {{ add $.Values.inferenceExtension.latencyPredictor.predictionServers.startPort $i }}
+    initialDelaySeconds: {{ $.Values.inferenceExtension.latencyPredictor.predictionServers.readinessProbe.initialDelaySeconds }}
+    periodSeconds: {{ $.Values.inferenceExtension.latencyPredictor.predictionServers.readinessProbe.periodSeconds }}
+    failureThreshold: {{ $.Values.inferenceExtension.latencyPredictor.predictionServers.readinessProbe.failureThreshold }}
+  resources:
+    {{- toYaml $.Values.inferenceExtension.latencyPredictor.predictionServers.resources | nindent 4 }}
+  envFrom:
+  - configMapRef:
+      name: {{ include "gateway-api-inference-extension.name" $ }}-latency-predictor-prediction
+  env:
+  - name: PREDICT_PORT
+    value: "{{ add $.Values.inferenceExtension.latencyPredictor.predictionServers.startPort $i }}"
+  - name: POD_NAME
+    valueFrom:
+      fieldRef:
+        fieldPath: metadata.name
+  - name: SERVER_TYPE
+    value: "prediction-{{ add $i 1 }}"
+  - name: TRAINING_SERVER_URL
+    value: "http://localhost:{{ $.Values.inferenceExtension.latencyPredictor.trainingServer.port }}"
+  volumeMounts:
+  - name: prediction-server-{{ add $i 1 }}-storage
+    mountPath: /server_models
+{{- end }}
+{{- end }}
+{{- end }}
+
+{{/*
+Latency Predictor Volumes
+*/}}
+{{- define "gateway-api-inference-extension.latencyPredictor.volumes" -}}
+{{- if .Values.inferenceExtension.latencyPredictor.enabled }}
+- name: training-server-storage
+  emptyDir: 
+    sizeLimit: {{ .Values.inferenceExtension.latencyPredictor.trainingServer.volumeSize }}
+{{- range $i := until (int .Values.inferenceExtension.latencyPredictor.predictionServers.count) }}
+- name: prediction-server-{{ add $i 1 }}-storage
+  emptyDir: 
+    sizeLimit: {{ $.Values.inferenceExtension.latencyPredictor.predictionServers.volumeSize }}
+{{- end }}
+{{- end }}
+{{- end }}