Cleanup snapshot in test_evaluate_async_logfire (#2538)

alexmojaki · web-flow · commit b6507da3675a · 2025-08-13T16:41:35.000Z
diff --git a/tests/evals/test_dataset.py b/tests/evals/test_dataset.py
@@ -7,7 +7,7 @@
 from typing import Any
 
 import pytest
-from dirty_equals import HasRepr, IsNumber, IsPartialDict
+from dirty_equals import HasRepr, IsNumber
 from inline_snapshot import snapshot
 from pydantic import BaseModel, TypeAdapter
 
@@ -1172,115 +1172,238 @@ async def mock_async_task(inputs: TaskInput) -> TaskOutput:
 
     await example_dataset.evaluate(mock_async_task)
 
-    spans = capfire.exporter.exported_spans_as_dict()
+    spans = capfire.exporter.exported_spans_as_dict(parse_json_attributes=True)
     spans.sort(key=lambda s: s['start_time'])
-    assert spans == [
-        {
-            'attributes': {
-                'averages': '{"name":"Averages","scores":{"confidence":1.0},"labels":{},"metrics":{},"assertions":1.0,"task_duration":1.0,"total_duration":5.0}',
-                'cases': '[{"name":"case1","inputs":{"query":"What is '
-                '2+2?"},"metadata":{"difficulty":"easy","category":"general"},"expected_output":{"answer":"4","confidence":1.0},"output":{"answer":"4","confidence":1.0},"metrics":{},"attributes":{},"scores":{"confidence":{"name":"confidence","value":1.0,"reason":null,"source":{"name":"SimpleEvaluator","arguments":null}}},"labels":{},"assertions":{"correct":{"name":"correct","value":true,"reason":null,"source":{"name":"SimpleEvaluator","arguments":null}}},"task_duration":1.0,"total_duration":6.0,"trace_id":"00000000000000000000000000000001","span_id":"0000000000000003"},{"name":"case2","inputs":{"query":"What '
-                'is the capital of '
-                'France?"},"metadata":{"difficulty":"medium","category":"geography"},"expected_output":{"answer":"Paris","confidence":1.0},"output":{"answer":"Paris","confidence":1.0},"metrics":{},"attributes":{},"scores":{"confidence":{"name":"confidence","value":1.0,"reason":null,"source":{"name":"SimpleEvaluator","arguments":null}}},"labels":{},"assertions":{"correct":{"name":"correct","value":true,"reason":null,"source":{"name":"SimpleEvaluator","arguments":null}}},"task_duration":1.0,"total_duration":4.0,"trace_id":"00000000000000000000000000000001","span_id":"0000000000000007"}]',
-                'code.filepath': 'test_dataset.py',
-                'code.function': 'test_evaluate_async_logfire',
-                'code.lineno': 123,
-                'logfire.json_schema': '{"type":"object","properties":{"name":{},"cases":{"type":"array"},"averages":{"type":"object"}}}',
-                'logfire.msg': 'evaluate mock_async_task',
-                'logfire.msg_template': 'evaluate {name}',
-                'logfire.span_type': 'span',
-                'name': 'mock_async_task',
-            },
-            'context': {'is_remote': False, 'span_id': 1, 'trace_id': 1},
-            'end_time': 10000000000,
-            'name': 'evaluate {name}',
-            'parent': None,
-            'start_time': 1000000000,
-        },
-        IsPartialDict(
-            {
-                'attributes': {
-                    'assertions': '{"correct":{"name":"correct","value":true,"reason":null,"source":{"name":"SimpleEvaluator","arguments":null}}}',
-                    'attributes': '{}',
+
+    for span in spans:
+        # These may or may not be present and may have weird values due to things running in async
+        span['attributes'].pop('code.filepath', None)
+        span['attributes'].pop('code.function', None)
+        span['attributes'].pop('code.lineno', None)
+
+    assert [(span['name'], span['attributes']) for span in spans] == snapshot(
+        [
+            (
+                'evaluate {name}',
+                {
+                    'name': 'mock_async_task',
+                    'logfire.msg_template': 'evaluate {name}',
+                    'logfire.msg': 'evaluate mock_async_task',
+                    'logfire.span_type': 'span',
+                    'cases': [
+                        {
+                            'name': 'case1',
+                            'inputs': {'query': 'What is 2+2?'},
+                            'metadata': {'difficulty': 'easy', 'category': 'general'},
+                            'expected_output': {'answer': '4', 'confidence': 1.0},
+                            'output': {'answer': '4', 'confidence': 1.0},
+                            'metrics': {},
+                            'attributes': {},
+                            'scores': {
+                                'confidence': {
+                                    'name': 'confidence',
+                                    'value': 1.0,
+                                    'reason': None,
+                                    'source': {'name': 'SimpleEvaluator', 'arguments': None},
+                                }
+                            },
+                            'labels': {},
+                            'assertions': {
+                                'correct': {
+                                    'name': 'correct',
+                                    'value': True,
+                                    'reason': None,
+                                    'source': {'name': 'SimpleEvaluator', 'arguments': None},
+                                }
+                            },
+                            'task_duration': 1.0,
+                            'total_duration': 6.0,
+                            'trace_id': '00000000000000000000000000000001',
+                            'span_id': '0000000000000003',
+                        },
+                        {
+                            'name': 'case2',
+                            'inputs': {'query': 'What is the capital of France?'},
+                            'metadata': {'difficulty': 'medium', 'category': 'geography'},
+                            'expected_output': {'answer': 'Paris', 'confidence': 1.0},
+                            'output': {'answer': 'Paris', 'confidence': 1.0},
+                            'metrics': {},
+                            'attributes': {},
+                            'scores': {
+                                'confidence': {
+                                    'name': 'confidence',
+                                    'value': 1.0,
+                                    'reason': None,
+                                    'source': {'name': 'SimpleEvaluator', 'arguments': None},
+                                }
+                            },
+                            'labels': {},
+                            'assertions': {
+                                'correct': {
+                                    'name': 'correct',
+                                    'value': True,
+                                    'reason': None,
+                                    'source': {'name': 'SimpleEvaluator', 'arguments': None},
+                                }
+                            },
+                            'task_duration': 1.0,
+                            'total_duration': 4.0,
+                            'trace_id': '00000000000000000000000000000001',
+                            'span_id': '0000000000000007',
+                        },
+                    ],
+                    'averages': {
+                        'name': 'Averages',
+                        'scores': {'confidence': 1.0},
+                        'labels': {},
+                        'metrics': {},
+                        'assertions': 1.0,
+                        'task_duration': 1.0,
+                        'total_duration': 5.0,
+                    },
+                    'logfire.json_schema': {
+                        'type': 'object',
+                        'properties': {'name': {}, 'cases': {'type': 'array'}, 'averages': {'type': 'object'}},
+                    },
+                },
+            ),
+            (
+                'case: {case_name}',
+                {
+                    'task_name': 'mock_async_task',
                     'case_name': 'case1',
-                    'expected_output': '{"answer":"4","confidence":1.0}',
-                    'inputs': '{"query":"What is 2+2?"}',
-                    'labels': '{}',
-                    'logfire.json_schema': '{"type":"object","properties":{"task_name":{},"case_name":{},"inputs":{"type":"object","title":"TaskInput","x-python-datatype":"PydanticModel"},"metadata":{"type":"object","title":"TaskMetadata","x-python-datatype":"PydanticModel"},"expected_output":{"type":"object","title":"TaskOutput","x-python-datatype":"PydanticModel"},"output":{"type":"object","title":"TaskOutput","x-python-datatype":"PydanticModel"},"task_duration":{},"metrics":{"type":"object"},"attributes":{"type":"object"},"assertions":{"type":"object"},"scores":{"type":"object"},"labels":{"type":"object"}}}',
-                    'logfire.msg': 'case: case1',
+                    'inputs': {'query': 'What is 2+2?'},
+                    'metadata': {'difficulty': 'easy', 'category': 'general'},
+                    'expected_output': {'answer': '4', 'confidence': 1.0},
                     'logfire.msg_template': 'case: {case_name}',
+                    'logfire.msg': 'case: case1',
                     'logfire.span_type': 'span',
-                    'metadata': '{"difficulty":"easy","category":"general"}',
-                    'metrics': '{}',
-                    'output': '{"answer":"4","confidence":1.0}',
-                    'scores': '{"confidence":{"name":"confidence","value":1.0,"reason":null,"source":{"name":"SimpleEvaluator","arguments":null}}}',
+                    'output': {'answer': '4', 'confidence': 1.0},
                     'task_duration': 1.0,
-                    'task_name': 'mock_async_task',
+                    'metrics': {},
+                    'attributes': {},
+                    'assertions': {
+                        'correct': {
+                            'name': 'correct',
+                            'value': True,
+                            'reason': None,
+                            'source': {'name': 'SimpleEvaluator', 'arguments': None},
+                        }
+                    },
+                    'scores': {
+                        'confidence': {
+                            'name': 'confidence',
+                            'value': 1.0,
+                            'reason': None,
+                            'source': {'name': 'SimpleEvaluator', 'arguments': None},
+                        }
+                    },
+                    'labels': {},
+                    'logfire.json_schema': {
+                        'type': 'object',
+                        'properties': {
+                            'task_name': {},
+                            'case_name': {},
+                            'inputs': {'type': 'object', 'title': 'TaskInput', 'x-python-datatype': 'PydanticModel'},
+                            'metadata': {
+                                'type': 'object',
+                                'title': 'TaskMetadata',
+                                'x-python-datatype': 'PydanticModel',
+                            },
+                            'expected_output': {
+                                'type': 'object',
+                                'title': 'TaskOutput',
+                                'x-python-datatype': 'PydanticModel',
+                            },
+                            'output': {'type': 'object', 'title': 'TaskOutput', 'x-python-datatype': 'PydanticModel'},
+                            'task_duration': {},
+                            'metrics': {'type': 'object'},
+                            'attributes': {'type': 'object'},
+                            'assertions': {'type': 'object'},
+                            'scores': {'type': 'object'},
+                            'labels': {'type': 'object'},
+                        },
+                    },
                 },
-                'context': {'is_remote': False, 'span_id': 3, 'trace_id': 1},
-                'end_time': 8000000000,
-                'name': 'case: {case_name}',
-                'parent': {'is_remote': False, 'span_id': 1, 'trace_id': 1},
-                'start_time': 2000000000,
-            }
-        ),
-        IsPartialDict(
-            {
-                'attributes': {
-                    'logfire.json_schema': '{"type":"object","properties":{"task":{}}}',
-                    'logfire.msg': 'execute mock_async_task',
+            ),
+            (
+                'execute {task}',
+                {
+                    'task': 'mock_async_task',
                     'logfire.msg_template': 'execute {task}',
+                    'logfire.msg': 'execute mock_async_task',
+                    'logfire.json_schema': {'type': 'object', 'properties': {'task': {}}},
                     'logfire.span_type': 'span',
-                    'task': 'mock_async_task',
                 },
-                'context': {'is_remote': False, 'span_id': 5, 'trace_id': 1},
-                'end_time': 4000000000,
-                'name': 'execute {task}',
-                'parent': {'is_remote': False, 'span_id': 3, 'trace_id': 1},
-                'start_time': 3000000000,
-            }
-        ),
-        IsPartialDict(
-            {
-                'attributes': {
-                    'assertions': '{"correct":{"name":"correct","value":true,"reason":null,"source":{"name":"SimpleEvaluator","arguments":null}}}',
-                    'attributes': '{}',
+            ),
+            (
+                'case: {case_name}',
+                {
+                    'task_name': 'mock_async_task',
                     'case_name': 'case2',
-                    'expected_output': '{"answer":"Paris","confidence":1.0}',
-                    'inputs': '{"query":"What is the capital of France?"}',
-                    'labels': '{}',
-                    'logfire.json_schema': '{"type":"object","properties":{"task_name":{},"case_name":{},"inputs":{"type":"object","title":"TaskInput","x-python-datatype":"PydanticModel"},"metadata":{"type":"object","title":"TaskMetadata","x-python-datatype":"PydanticModel"},"expected_output":{"type":"object","title":"TaskOutput","x-python-datatype":"PydanticModel"},"output":{"type":"object","title":"TaskOutput","x-python-datatype":"PydanticModel"},"task_duration":{},"metrics":{"type":"object"},"attributes":{"type":"object"},"assertions":{"type":"object"},"scores":{"type":"object"},"labels":{"type":"object"}}}',
-                    'logfire.msg': 'case: case2',
+                    'inputs': {'query': 'What is the capital of France?'},
+                    'metadata': {'difficulty': 'medium', 'category': 'geography'},
+                    'expected_output': {'answer': 'Paris', 'confidence': 1.0},
                     'logfire.msg_template': 'case: {case_name}',
+                    'logfire.msg': 'case: case2',
                     'logfire.span_type': 'span',
-                    'metadata': '{"difficulty":"medium","category":"geography"}',
-                    'metrics': '{}',
-                    'output': '{"answer":"Paris","confidence":1.0}',
-                    'scores': '{"confidence":{"name":"confidence","value":1.0,"reason":null,"source":{"name":"SimpleEvaluator","arguments":null}}}',
+                    'output': {'answer': 'Paris', 'confidence': 1.0},
                     'task_duration': 1.0,
-                    'task_name': 'mock_async_task',
+                    'metrics': {},
+                    'attributes': {},
+                    'assertions': {
+                        'correct': {
+                            'name': 'correct',
+                            'value': True,
+                            'reason': None,
+                            'source': {'name': 'SimpleEvaluator', 'arguments': None},
+                        }
+                    },
+                    'scores': {
+                        'confidence': {
+                            'name': 'confidence',
+                            'value': 1.0,
+                            'reason': None,
+                            'source': {'name': 'SimpleEvaluator', 'arguments': None},
+                        }
+                    },
+                    'labels': {},
+                    'logfire.json_schema': {
+                        'type': 'object',
+                        'properties': {
+                            'task_name': {},
+                            'case_name': {},
+                            'inputs': {'type': 'object', 'title': 'TaskInput', 'x-python-datatype': 'PydanticModel'},
+                            'metadata': {
+                                'type': 'object',
+                                'title': 'TaskMetadata',
+                                'x-python-datatype': 'PydanticModel',
+                            },
+                            'expected_output': {
+                                'type': 'object',
+                                'title': 'TaskOutput',
+                                'x-python-datatype': 'PydanticModel',
+                            },
+                            'output': {'type': 'object', 'title': 'TaskOutput', 'x-python-datatype': 'PydanticModel'},
+                            'task_duration': {},
+                            'metrics': {'type': 'object'},
+                            'attributes': {'type': 'object'},
+                            'assertions': {'type': 'object'},
+                            'scores': {'type': 'object'},
+                            'labels': {'type': 'object'},
+                        },
+                    },
                 },
-                'context': {'is_remote': False, 'span_id': 7, 'trace_id': 1},
-                'end_time': 9000000000,
-                'name': 'case: {case_name}',
-                'parent': {'is_remote': False, 'span_id': 1, 'trace_id': 1},
-                'start_time': 5000000000,
-            }
-        ),
-        IsPartialDict(
-            {
-                'attributes': {
-                    'logfire.json_schema': '{"type":"object","properties":{"task":{}}}',
-                    'logfire.msg': 'execute mock_async_task',
+            ),
+            (
+                'execute {task}',
+                {
+                    'task': 'mock_async_task',
                     'logfire.msg_template': 'execute {task}',
+                    'logfire.msg': 'execute mock_async_task',
+                    'logfire.json_schema': {'type': 'object', 'properties': {'task': {}}},
                     'logfire.span_type': 'span',
-                    'task': 'mock_async_task',
                 },
-                'context': {'is_remote': False, 'span_id': 9, 'trace_id': 1},
-                'end_time': 7000000000,
-                'name': 'execute {task}',
-                'parent': {'is_remote': False, 'span_id': 7, 'trace_id': 1},
-                'start_time': 6000000000,
-            }
-        ),
-    ]
+            ),
+        ]
+    )