migrate latency metrics to span events

PROFeNoM · PROFeNoM · commit d54de92816e8 · 2025-10-06T11:44:45.000+02:00
diff --git a/ddtrace/contrib/internal/vllm/patch.py b/ddtrace/contrib/internal/vllm/patch.py
@@ -14,7 +14,6 @@
 from .extractors import get_model_name
 from .utils import create_span
 from .utils import inject_trace_context
-from .utils import set_latency_metrics
 
 
 logger = get_logger(__name__)
@@ -120,14 +119,11 @@ def traced_output_processor_process_outputs(vllm, pin, func, instance, args, kwa
         integration.llmobs_set_tags(
             span,
             args=[],
-            kwargs={"request_data": data},
+            kwargs={"request_data": data, "stats": span_info["stats"]},
             response=None,
             operation=operation,
         )
 
-        if span_info["stats"]:
-            set_latency_metrics(span, span_info["stats"])
-
         span.finish()
 
     return result
diff --git a/ddtrace/llmobs/_constants.py b/ddtrace/llmobs/_constants.py
@@ -44,6 +44,12 @@
 CACHE_READ_INPUT_TOKENS_METRIC_KEY = "cache_read_input_tokens"
 BILLABLE_CHARACTER_COUNT_METRIC_KEY = "billable_character_count"
 
+TIME_TO_FIRST_TOKEN_METRIC_KEY = "time_to_first_token"
+TIME_IN_QUEUE_METRIC_KEY = "time_in_queue"
+TIME_IN_MODEL_PREFILL_METRIC_KEY = "time_in_model_prefill"
+TIME_IN_MODEL_DECODE_METRIC_KEY = "time_in_model_decode"
+TIME_IN_MODEL_INFERENCE_METRIC_KEY = "time_in_model_inference"
+
 EVP_PROXY_AGENT_BASE_PATH = "/evp_proxy/v2"
 EVAL_ENDPOINT = "/api/intake/llm-obs/v2/eval-metric"
 SPAN_ENDPOINT = "/api/v2/llmobs"
diff --git a/ddtrace/llmobs/_integrations/vllm.py b/ddtrace/llmobs/_integrations/vllm.py
@@ -19,6 +19,11 @@
 from ddtrace.llmobs._constants import OUTPUT_TOKENS_METRIC_KEY
 from ddtrace.llmobs._constants import OUTPUT_VALUE
 from ddtrace.llmobs._constants import SPAN_KIND
+from ddtrace.llmobs._constants import TIME_IN_MODEL_DECODE_METRIC_KEY
+from ddtrace.llmobs._constants import TIME_IN_MODEL_INFERENCE_METRIC_KEY
+from ddtrace.llmobs._constants import TIME_IN_MODEL_PREFILL_METRIC_KEY
+from ddtrace.llmobs._constants import TIME_IN_QUEUE_METRIC_KEY
+from ddtrace.llmobs._constants import TIME_TO_FIRST_TOKEN_METRIC_KEY
 from ddtrace.llmobs._constants import TOTAL_TOKENS_METRIC_KEY
 from ddtrace.llmobs._integrations.base import BaseLLMIntegration
 from ddtrace.llmobs.utils import Document
@@ -59,22 +64,46 @@ def _build_metadata(self, data: RequestData) -> Dict[str, Any]:
 
         return md
 
-    def _build_metrics(self, data: RequestData) -> Dict[str, Any]:
-        """Build token metrics from request data."""
+    def _build_metrics(self, data: RequestData, stats=None) -> Dict[str, Any]:
+        """Build token and latency metrics from request data."""
         it = int(data.input_tokens or 0)
         ot = int(data.output_tokens or 0)
-        return {
+        metrics = {
             INPUT_TOKENS_METRIC_KEY: it,
             OUTPUT_TOKENS_METRIC_KEY: ot,
             TOTAL_TOKENS_METRIC_KEY: it + ot,
         }
 
-    def _build_embedding_context(self, data: RequestData) -> Dict[str, Any]:
+        # Add latency metrics if stats are available
+        if stats:
+            if stats.first_token_latency:
+                metrics[TIME_TO_FIRST_TOKEN_METRIC_KEY] = float(stats.first_token_latency)
+
+            queued = stats.queued_ts
+            scheduled = stats.scheduled_ts
+            first_token = stats.first_token_ts
+            last_token = stats.last_token_ts
+
+            if queued and scheduled:
+                metrics[TIME_IN_QUEUE_METRIC_KEY] = float(scheduled - queued)
+
+            if scheduled and first_token:
+                metrics[TIME_IN_MODEL_PREFILL_METRIC_KEY] = float(first_token - scheduled)
+
+            if first_token and last_token and last_token > first_token:
+                metrics[TIME_IN_MODEL_DECODE_METRIC_KEY] = float(last_token - first_token)
+
+            if scheduled and last_token:
+                metrics[TIME_IN_MODEL_INFERENCE_METRIC_KEY] = float(last_token - scheduled)
+
+        return metrics
+
+    def _build_embedding_context(self, data: RequestData, stats=None) -> Dict[str, Any]:
         """Build LLMObs context for embedding operations."""
         ctx: Dict[str, Any] = {
             SPAN_KIND: "embedding",
             METADATA: self._build_metadata(data),
-            METRICS: self._build_metrics(data),
+            METRICS: self._build_metrics(data, stats),
         }
 
         docs: List[Document] = []
@@ -94,12 +123,12 @@ def _build_embedding_context(self, data: RequestData) -> Dict[str, Any]:
 
         return ctx
 
-    def _build_completion_context(self, data: RequestData) -> Dict[str, Any]:
+    def _build_completion_context(self, data: RequestData, stats=None) -> Dict[str, Any]:
         """Build LLMObs context for completion operations."""
         ctx: Dict[str, Any] = {
             SPAN_KIND: "llm",
             METADATA: self._build_metadata(data),
-            METRICS: self._build_metrics(data),
+            METRICS: self._build_metrics(data, stats),
         }
 
         if data.prompt:
@@ -123,7 +152,8 @@ def _llmobs_set_tags(
         if data is None:
             return
 
-        ctx = self._build_embedding_context(data) if operation == "embedding" else self._build_completion_context(data)
+        stats = kwargs.get("stats")
+        ctx = self._build_embedding_context(data, stats) if operation == "embedding" else self._build_completion_context(data, stats)
         ctx[MODEL_NAME] = span.get_tag("vllm.request.model") or ""
         ctx[MODEL_PROVIDER] = span.get_tag("vllm.request.provider") or ""
         span._set_ctx_items(ctx)
diff --git a/tests/contrib/vllm/test_api_app.py b/tests/contrib/vllm/test_api_app.py
@@ -13,13 +13,6 @@
 
 
 IGNORE_FIELDS = [
-    "metrics.vllm.latency.ttft",
-    "metrics.vllm.latency.queue",
-    "metrics.vllm.latency.prefill",
-    "metrics.vllm.latency.decode",
-    "metrics.vllm.latency.inference",
-    "metrics.vllm.latency.model_forward",
-    "metrics.vllm.latency.model_execute",
     "meta._dd.p.llmobs_trace_id",
 ]
 
@@ -88,6 +81,10 @@ def test_rag_parent_child(vllm, llmobs_span_writer):
         assert event["meta"]["metadata"]["num_cached_tokens"] == 0
         assert event["metrics"]["input_tokens"] > 0
         assert event["metrics"]["output_tokens"] == 0
+        assert "time_to_first_token" in event["metrics"]
+        assert "time_in_queue" in event["metrics"]
+        assert "time_in_model_prefill" in event["metrics"]
+        assert "time_in_model_inference" in event["metrics"]
         assert "ml_app:<ml-app-name>" in event["tags"]
         assert "service:tests.contrib.vllm" in event["tags"]
 
@@ -103,5 +100,10 @@ def test_rag_parent_child(vllm, llmobs_span_writer):
     assert gen_event["meta"]["metadata"]["num_cached_tokens"] == 0
     assert gen_event["metrics"]["input_tokens"] == 27
     assert gen_event["metrics"]["output_tokens"] > 0
+    assert "time_to_first_token" in gen_event["metrics"]
+    assert "time_in_queue" in gen_event["metrics"]
+    assert "time_in_model_prefill" in gen_event["metrics"]
+    assert "time_in_model_decode" in gen_event["metrics"]
+    assert "time_in_model_inference" in gen_event["metrics"]
     assert "ml_app:<ml-app-name>" in gen_event["tags"]
     assert "service:tests.contrib.vllm" in gen_event["tags"]
diff --git a/tests/contrib/vllm/test_vllm_llmobs.py b/tests/contrib/vllm/test_vllm_llmobs.py
@@ -6,15 +6,7 @@
 from ._utils import get_simple_chat_template
 
 
-IGNORE_FIELDS = [
-    "metrics.vllm.latency.ttft",
-    "metrics.vllm.latency.queue",
-    "metrics.vllm.latency.prefill",
-    "metrics.vllm.latency.decode",
-    "metrics.vllm.latency.inference",
-    "metrics.vllm.latency.model_forward",
-    "metrics.vllm.latency.model_execute",
-]
+IGNORE_FIELDS = []
 
 
 @pytest.mark.snapshot(ignores=IGNORE_FIELDS)
@@ -41,7 +33,16 @@ def test_llmobs_basic(llmobs_events, mock_tracer, opt_125m_llm):
             "finish_reason": "length",
             "num_cached_tokens": 0,
         },
-        token_metrics={"input_tokens": 6, "output_tokens": 8, "total_tokens": 14},
+        token_metrics={
+            "input_tokens": 6,
+            "output_tokens": 8,
+            "total_tokens": 14,
+            "time_to_first_token": mock.ANY,
+            "time_in_queue": mock.ANY,
+            "time_in_model_prefill": mock.ANY,
+            "time_in_model_decode": mock.ANY,
+            "time_in_model_inference": mock.ANY,
+        },
         tags={"ml_app": "<ml-app-name>", "service": "tests.contrib.vllm"},
     )
     assert llmobs_events[0] == expected
@@ -95,7 +96,16 @@ def test_llmobs_chat(llmobs_events, mock_tracer, opt_125m_llm):
             "finish_reason": "length",
             "num_cached_tokens": mock.ANY,
         },
-        token_metrics={"input_tokens": 37, "output_tokens": 16, "total_tokens": 53},
+        token_metrics={
+            "input_tokens": 37,
+            "output_tokens": 16,
+            "total_tokens": 53,
+            "time_to_first_token": mock.ANY,
+            "time_in_queue": mock.ANY,
+            "time_in_model_prefill": mock.ANY,
+            "time_in_model_decode": mock.ANY,
+            "time_in_model_inference": mock.ANY,
+        },
         tags={"ml_app": "<ml-app-name>", "service": "tests.contrib.vllm"},
     )
     assert llmobs_events[0] == expected
@@ -128,7 +138,15 @@ def test_llmobs_classify(llmobs_events, mock_tracer, bge_reranker_llm):
             input_documents=[{"text": prompt}],
             output_value="[1 embedding(s) returned with size 1]",
             metadata={"embedding_dim": 1, "num_cached_tokens": 0},
-            token_metrics={"input_tokens": 7, "output_tokens": 0, "total_tokens": 7},
+            token_metrics={
+                "input_tokens": 7,
+                "output_tokens": 0,
+                "total_tokens": 7,
+                "time_to_first_token": mock.ANY,
+                "time_in_queue": mock.ANY,
+                "time_in_model_prefill": mock.ANY,
+                "time_in_model_inference": mock.ANY,
+            },
             tags={"ml_app": "<ml-app-name>", "service": "tests.contrib.vllm"},
         )
         assert event == expected
@@ -161,7 +179,15 @@ def test_llmobs_embed(llmobs_events, mock_tracer, e5_small_llm):
             input_documents=[{"text": prompt}],
             output_value="[1 embedding(s) returned with size 384]",
             metadata={"embedding_dim": 384, "num_cached_tokens": 0},
-            token_metrics={"input_tokens": 7, "output_tokens": 0, "total_tokens": 7},
+            token_metrics={
+                "input_tokens": 7,
+                "output_tokens": 0,
+                "total_tokens": 7,
+                "time_to_first_token": mock.ANY,
+                "time_in_queue": mock.ANY,
+                "time_in_model_prefill": mock.ANY,
+                "time_in_model_inference": mock.ANY,
+            },
             tags={"ml_app": "<ml-app-name>", "service": "tests.contrib.vllm"},
         )
         assert event == expected
@@ -194,7 +220,15 @@ def test_llmobs_reward(llmobs_events, mock_tracer, bge_reranker_llm):
             input_documents=[{"text": prompt}],
             output_value="[7 embedding(s) returned with size 1024]",
             metadata={"embedding_dim": 1024, "num_cached_tokens": 0},
-            token_metrics={"input_tokens": 7, "output_tokens": 0, "total_tokens": 7},
+            token_metrics={
+                "input_tokens": 7,
+                "output_tokens": 0,
+                "total_tokens": 7,
+                "time_to_first_token": mock.ANY,
+                "time_in_queue": mock.ANY,
+                "time_in_model_prefill": mock.ANY,
+                "time_in_model_inference": mock.ANY,
+            },
             tags={"ml_app": "<ml-app-name>", "service": "tests.contrib.vllm"},
         )
         assert event == expected
@@ -223,11 +257,19 @@ def test_llmobs_score(llmobs_events, mock_tracer, bge_reranker_llm):
             "input_tokens": 19,
             "output_tokens": 0,
             "total_tokens": 19,
+            "time_to_first_token": mock.ANY,
+            "time_in_queue": mock.ANY,
+            "time_in_model_prefill": mock.ANY,
+            "time_in_model_inference": mock.ANY,
         },
         "[0, 4865, 83, 70, 10323, 111, 9942, 32, 2, 2, 581, 10323, 111, 9942, 83, 7270, 5, 2]": {
             "input_tokens": 18,
             "output_tokens": 0,
             "total_tokens": 18,
+            "time_to_first_token": mock.ANY,
+            "time_in_queue": mock.ANY,
+            "time_in_model_prefill": mock.ANY,
+            "time_in_model_inference": mock.ANY,
         },
     }
 
diff --git a/tests/snapshots/tests.contrib.vllm.test_api_app.test_rag_parent_child.json b/tests/snapshots/tests.contrib.vllm.test_api_app.test_rag_parent_child.json
@@ -47,11 +47,7 @@
        "metrics": {
          "_dd.measured": 1,
          "_dd.top_level": 1,
-         "process_id": 5676,
-         "vllm.latency.inference": 0.15978306904435158,
-         "vllm.latency.prefill": 0.15978306904435158,
-         "vllm.latency.queue": 1.8851947970688343e-05,
-         "vllm.latency.ttft": 0.3274271488189697
+         "process_id": 5676
        },
        "duration": 328518565,
        "start": 1759410315481061632
@@ -77,11 +73,7 @@
        "metrics": {
          "_dd.measured": 1,
          "_dd.top_level": 1,
-         "process_id": 5676,
-         "vllm.latency.inference": 0.007373907952569425,
-         "vllm.latency.prefill": 0.007373907952569425,
-         "vllm.latency.queue": 0.00016414199490100145,
-         "vllm.latency.ttft": 0.009606599807739258
+         "process_id": 5676
        },
        "duration": 10421016,
        "start": 1759410315810782464
@@ -107,11 +99,7 @@
        "metrics": {
          "_dd.measured": 1,
          "_dd.top_level": 1,
-         "process_id": 5676,
-         "vllm.latency.inference": 0.007004529004916549,
-         "vllm.latency.prefill": 0.007004529004916549,
-         "vllm.latency.queue": 0.0001580320531502366,
-         "vllm.latency.ttft": 0.009066581726074219
+         "process_id": 5676
        },
        "duration": 9502380,
        "start": 1759410315821967872
@@ -137,12 +125,7 @@
        "metrics": {
          "_dd.measured": 1,
          "_dd.top_level": 1,
-         "process_id": 5676,
-         "vllm.latency.decode": 0.13968857692088932,
-         "vllm.latency.inference": 0.20357014192268252,
-         "vllm.latency.prefill": 0.0638815650017932,
-         "vllm.latency.queue": 1.562107354402542e-05,
-         "vllm.latency.ttft": 0.17212820053100586
+         "process_id": 5676
        },
        "duration": 312517816,
        "start": 1759410333296862208
diff --git a/tests/snapshots/tests.contrib.vllm.test_vllm_llmobs.test_llmobs_basic.json b/tests/snapshots/tests.contrib.vllm.test_vllm_llmobs.test_llmobs_basic.json
@@ -21,12 +21,7 @@
       "_dd.top_level": 1,
       "_dd.tracer_kr": 1.0,
       "_sampling_priority_v1": 1,
-      "process_id": 5676,
-      "vllm.latency.decode": 0.05201620701700449,
-      "vllm.latency.inference": 0.11478733806870878,
-      "vllm.latency.prefill": 0.06277113105170429,
-      "vllm.latency.queue": 0.0001168189337477088,
-      "vllm.latency.ttft": 0.06522464752197266
+      "process_id": 5676
     },
     "duration": 118164202,
     "start": 1759410364206987008
diff --git a/tests/snapshots/tests.contrib.vllm.test_vllm_llmobs.test_llmobs_chat.json b/tests/snapshots/tests.contrib.vllm.test_vllm_llmobs.test_llmobs_chat.json
@@ -21,12 +21,7 @@
       "_dd.top_level": 1,
       "_dd.tracer_kr": 1.0,
       "_sampling_priority_v1": 1,
-      "process_id": 5676,
-      "vllm.latency.decode": 0.09951003501191735,
-      "vllm.latency.inference": 0.10793503595050424,
-      "vllm.latency.prefill": 0.00842500093858689,
-      "vllm.latency.queue": 0.0001842339988797903,
-      "vllm.latency.ttft": 0.010640621185302734
+      "process_id": 5676
     },
     "duration": 110508762,
     "start": 1759410376640131328
diff --git a/tests/snapshots/tests.contrib.vllm.test_vllm_llmobs.test_llmobs_classify.json b/tests/snapshots/tests.contrib.vllm.test_vllm_llmobs.test_llmobs_classify.json
@@ -21,11 +21,7 @@
       "_dd.top_level": 1,
       "_dd.tracer_kr": 1.0,
       "_sampling_priority_v1": 1,
-      "process_id": 5676,
-      "vllm.latency.inference": 0.021056173951365054,
-      "vllm.latency.prefill": 0.021056173951365054,
-      "vllm.latency.queue": 0.00024107703939080238,
-      "vllm.latency.ttft": 0.023837804794311523
+      "process_id": 5676
     },
     "duration": 24355851,
     "start": 1759410376376144128
@@ -53,11 +49,7 @@
       "_dd.top_level": 1,
       "_dd.tracer_kr": 1.0,
       "_sampling_priority_v1": 1,
-      "process_id": 5676,
-      "vllm.latency.inference": 0.021056173951365054,
-      "vllm.latency.prefill": 0.021056173951365054,
-      "vllm.latency.queue": 5.408399738371372e-05,
-      "vllm.latency.ttft": 0.02319478988647461
+      "process_id": 5676
     },
     "duration": 24859074,
     "start": 1759410376376787200
diff --git a/tests/snapshots/tests.contrib.vllm.test_vllm_llmobs.test_llmobs_embed.json b/tests/snapshots/tests.contrib.vllm.test_vllm_llmobs.test_llmobs_embed.json
diff --git a/tests/snapshots/tests.contrib.vllm.test_vllm_llmobs.test_llmobs_reward.json b/tests/snapshots/tests.contrib.vllm.test_vllm_llmobs.test_llmobs_reward.json
diff --git a/tests/snapshots/tests.contrib.vllm.test_vllm_llmobs.test_llmobs_score.json b/tests/snapshots/tests.contrib.vllm.test_vllm_llmobs.test_llmobs_score.json