Arize-ai · nate-mar · Jan 27, 2023 · Jan 26, 2023 · Jan 26, 2023 · Jan 26, 2023
diff --git a/app/schema.graphql b/app/schema.graphql
@@ -1,5 +1,12 @@
+"""
+A date-time string at UTC, such as 2007-12-03T10:15:30Z, compliant with the `date-time` format outlined in section 5.6 of the RFC 3339 profile of the ISO 8601 standard for representation of dates and times using the Gregorian calendar.
+"""
+scalar DateTime
+
 type Dataset {
   name: String!
+  startTime: DateTime
+  endTime: DateTime
-  startTime: DateTime
-  endTime: DateTime
+  startTime: DateTime!
+  endTime: DateTime!
-  startTime: DateTime
-  endTime: DateTime
+  startTime: DateTime!
+  endTime: DateTime!
 }
 
 type Dimension implements Node {

diff --git a/app/src/App.tsx b/app/src/App.tsx
@@ -18,9 +18,13 @@ const RootQuery = graphql`
   query AppRootQuery {
     primaryDataset {
       name
+      startTime
+      endTime
     }
     referenceDataset {
       name
+      startTime
+      endTime
     }
   }
 `;

diff --git a/src/phoenix/config.py b/src/phoenix/config.py
@@ -39,7 +39,7 @@ def get_pids_path() -> str:
 
 PHOENIX_DIR = os.path.dirname(os.path.abspath(__file__))
 ROOT_DIR = os.path.join("~", ".phoenix")
-dataset_dir = normalize_path(os.path.join(ROOT_DIR, "datasets"))
+dataset_dir = normalize_path(os.path.join(ROOT_DIR, "core/datasets"))
 
 # Server config
 server_dir = os.path.join(PHOENIX_DIR, "server")

diff --git a/src/phoenix/datasets/__init__.py → src/phoenix/core/datasets/__init__.py b/src/phoenix/datasets/__init__.py → src/phoenix/core/datasets/__init__.py
diff --git a/src/phoenix/datasets/dataset.py → src/phoenix/core/datasets/dataset.py b/src/phoenix/datasets/dataset.py → src/phoenix/core/datasets/dataset.py
@@ -4,6 +4,7 @@
 import uuid
 from copy import deepcopy
 from dataclasses import fields, replace
+from datetime import datetime
 from typing import Any, Dict, List, Optional, Set, Tuple, Union
 
 from pandas import DataFrame, Series, Timestamp, read_parquet, to_datetime
@@ -72,6 +73,16 @@ def __init__(
         self.to_disc()
         logger.info(f"""Dataset: {self.__name} initialized""")
 
+    @property
+    def start_time(self) -> datetime:
+        """Returns the datetime of the earliest inference in the dataset"""
+        return self.__dataframe[self.schema.timestamp_column_name].min()
+
+    @property
+    def end_time(self) -> datetime:
+        """Returns the datetime of the latest inference in the dataset"""
+        return self.__dataframe[self.schema.timestamp_column_name].max()
+
     @property
     def dataframe(self) -> DataFrame:
         return self.__dataframe

diff --git a/src/phoenix/datasets/errors.py → src/phoenix/core/datasets/errors.py b/src/phoenix/datasets/errors.py → src/phoenix/core/datasets/errors.py
diff --git a/src/phoenix/datasets/schema.py → src/phoenix/core/datasets/schema.py b/src/phoenix/datasets/schema.py → src/phoenix/core/datasets/schema.py
diff --git a/src/phoenix/datasets/validation.py → src/phoenix/core/datasets/validation.py b/src/phoenix/datasets/validation.py → src/phoenix/core/datasets/validation.py
diff --git a/src/phoenix/core/model.py b/src/phoenix/core/model.py
@@ -2,8 +2,8 @@
 
 from pandas.api.types import is_numeric_dtype, is_object_dtype
 
-from phoenix.datasets import Dataset
-from phoenix.datasets.schema import EmbeddingFeatures
+from phoenix.core.datasets import Dataset
+from phoenix.core.datasets.schema import EmbeddingFeatures
 
 from .dimension import Dimension
 from .dimension_data_type import DimensionDataType

diff --git a/src/phoenix/metrics/embeddings.py b/src/phoenix/metrics/embeddings.py
@@ -3,7 +3,7 @@
 import numpy as np
 import pandas as pd
 
-from phoenix.datasets import Dataset
+from phoenix.core.datasets import Dataset
 
 
 def euclidean_distance(

diff --git a/src/phoenix/pointcloud/projectors.py b/src/phoenix/pointcloud/projectors.py
@@ -6,7 +6,7 @@
 from numpy.typing import ArrayLike
 from umap import UMAP
 
-from phoenix.datasets import Dataset
+from phoenix.core.datasets import Dataset
 
 from .pointcloud import (
     Cluster,

diff --git a/src/phoenix/server/api/schema.py b/src/phoenix/server/api/schema.py
@@ -2,7 +2,7 @@
 from strawberry.types import Info
 
 from .context import Context
-from .types.Dataset import Dataset
+from .types.Dataset import Dataset, to_gql_dataset
 from .types.Dimension import to_gql_dimension
 from .types.EmbeddingDimension import to_gql_embedding_dimension
 from .types.Model import Model
@@ -13,11 +13,11 @@
 class Query:
     @strawberry.field
     def primary_dataset(self, info: Info[Context, None]) -> Dataset:
-        return Dataset(name=info.context.model.primary_dataset.name)
+        return to_gql_dataset(info.context.model.primary_dataset)
 
     @strawberry.field
     def reference_dataset(self, info: Info[Context, None]) -> Dataset:
-        return Dataset(name=info.context.model.reference_dataset.name)
+        return to_gql_dataset(info.context.model.reference_dataset)
 
     @strawberry.field
     def model(self) -> Model:

diff --git a/src/phoenix/server/api/types/Dataset.py b/src/phoenix/server/api/types/Dataset.py
@@ -1,6 +1,23 @@
+from datetime import datetime
+
 import strawberry
 
+from phoenix.core.datasets import Dataset as InternalDataset
+
 
 @strawberry.type
 class Dataset:
     name: str
+    start_time: datetime
+    end_time: datetime
+
+
+def to_gql_dataset(dataset: InternalDataset) -> Dataset:
+    """
+    Converts a phoenix.datasets.Dataset to a phoenix.server.api.types.Dataset
+    """
+    return Dataset(
+        name=dataset.name,
+        start_time=dataset.start_time,
+        end_time=dataset.end_time,
+    )
diff --git a/src/phoenix/session/session.py b/src/phoenix/session/session.py
@@ -2,7 +2,7 @@
 from typing import Optional
 
 import phoenix.config as config
-from phoenix.datasets import Dataset
+from phoenix.core.datasets import Dataset
 from phoenix.services import AppService
 
 try:

diff --git a/tests/datasets/test_dataset.py b/tests/datasets/test_dataset.py
@@ -11,13 +11,13 @@
 from pandas import DataFrame, to_datetime
 from pytest import LogCaptureFixture, raises
 
-from phoenix.datasets.dataset import (
+from phoenix.core.datasets.dataset import (
     Dataset,
     EmbeddingColumnNames,
     Schema,
     _parse_dataframe_and_schema,
 )
-from phoenix.datasets.errors import DatasetError
+from phoenix.core.datasets.errors import DatasetError
 
 
 class TestParseDataFrameAndSchema:

diff --git a/tests/datasets/test_schema.py b/tests/datasets/test_schema.py
@@ -1,4 +1,4 @@
-from phoenix.datasets import EmbeddingColumnNames, Schema
+from phoenix.core.datasets import EmbeddingColumnNames, Schema
 
 
 def test_json_serialization():

diff --git a/tests/metrics/embeddings/test_embeddings.py b/tests/metrics/embeddings/test_embeddings.py
@@ -6,7 +6,7 @@
 import pandas as pd
 import pytest
 
-from phoenix.datasets import Dataset, EmbeddingColumnNames, Schema
+from phoenix.core.datasets import Dataset, EmbeddingColumnNames, Schema
 from phoenix.metrics.embeddings import euclidean_distance
 
 

diff --git a/tests/server/api/types/test_dataset.py b/tests/server/api/types/test_dataset.py
@@ -0,0 +1,34 @@
+import pytest
+from pandas import DataFrame, Timestamp
+
+from phoenix.core.datasets import Dataset as CoreDataset
+from phoenix.core.datasets import Schema
+from phoenix.server.api.types import Dataset
+
+
+@pytest.fixture
+def core_dataset():
+    input_df = DataFrame(
+        {
+            "prediction_label": ["apple", "orange", "grape"],
+            "timestamp": [
+                Timestamp(year=2023, month=1, day=1, hour=2, second=30),
+                Timestamp(year=2023, month=1, day=5, hour=4, second=25),
+                Timestamp(year=2023, month=1, day=10, hour=6, second=20),
+            ],
+        }
+    )
+
+    input_schema = Schema(
+        prediction_label_column_name="prediction_label",
+        timestamp_column_name="timestamp",
+    )
+    return CoreDataset(dataframe=input_df, schema=input_schema)
+
+
+def test_dataset_serialization(core_dataset):
+    converted_gql_dataset = Dataset.to_gql_dataset(core_dataset)
+
+    expected_dataset = core_dataset
+    assert converted_gql_dataset.start_time == expected_dataset.start_time
+    assert converted_gql_dataset.end_time == expected_dataset.end_time