Arize-ai · RogerHYang · Mar 29, 2023 · Mar 28, 2023 · Mar 28, 2023 · Mar 28, 2023
diff --git a/app/schema.graphql b/app/schema.graphql
@@ -210,6 +210,11 @@ type Model {
   primaryDataset: Dataset!
   referenceDataset: Dataset
   embeddingDimensions(first: Int = 50, last: Int = null, after: String, before: String): EmbeddingDimensionConnection!
+
+  """
+  Returns n most recent exported Parquet files sorted by descending modification time.
+  """
+  exportedFiles(nLatest: Int! = 5): [ExportedFile!]!
 }
 
 type Mutation {

diff --git a/src/phoenix/config.py b/src/phoenix/config.py
@@ -1,6 +1,7 @@
-import errno
 import tempfile
+from heapq import nlargest
 from pathlib import Path
+from typing import List
 
 
 def _get_temp_path() -> Path:
@@ -14,15 +15,7 @@ def get_pids_path() -> Path:
     on the host machine. The directory will be created if it does not exist.
     """
     path = _get_temp_path() / "pids"
-    try:
-        path.mkdir(parents=True, exist_ok=True)
-    except OSError as e:
-        if e.errno == errno.EEXIST:
-            pass
-        else:
-            raise
-    else:
-        path.chmod(0o777)
+    path.mkdir(parents=True, exist_ok=True)
     return path
 
 
@@ -38,3 +31,30 @@ def get_pids_path() -> Path:
 SERVER_DIR = PHOENIX_DIR / "server"
 # The port the server will run on after launch_app is called
 PORT = 6060
+
+
+def get_exported_files(
+    n_latest: int = 5,
+    directory: Path = EXPORT_DIR,
+    extension: str = "parquet",
+) -> List[Path]:
+    """
+    Yields n most recently exported files by descending modification time.
+
+    Parameters
+    ----------
+    n_latest: int, optional, default=5
+        Specifies the number of the most recent exported files to return. If
+        there are fewer than n exported files then fewer than n files will
+        be returned.
+
+    Returns
+    -------
+    list: List[Path]
+        List of paths of the n most recent exported files.
+    """
+    return nlargest(
-    return nlargest(
+    return nlatest(
-    return nlargest(
+    return nlatest(
+        n_latest,
+        directory.glob("*." + extension),
+        lambda p: p.stat().st_mtime,
+    )
diff --git a/src/phoenix/server/api/types/Model.py b/src/phoenix/server/api/types/Model.py
@@ -1,14 +1,17 @@
-from typing import Optional
+import asyncio
+from typing import List, Optional
 
 import strawberry
 from strawberry.types import Info
 from strawberry.unset import UNSET
 
+from phoenix.config import EXPORT_DIR, get_exported_files
 from phoenix.server.api.context import Context
 
 from .Dataset import Dataset, to_gql_dataset
 from .Dimension import Dimension, to_gql_dimension
 from .EmbeddingDimension import EmbeddingDimension, to_gql_embedding_dimension
+from .ExportedFile import ExportedFile
 from .pagination import Connection, ConnectionArgs, Cursor, connection_from_list
 
 
@@ -43,13 +46,19 @@ def dimensions(
 
     @strawberry.field
     def primary_dataset(self, info: Info[Context, None]) -> Dataset:
-        return to_gql_dataset(dataset=info.context.model.primary_dataset, type="primary")
+        return to_gql_dataset(
+            dataset=info.context.model.primary_dataset,
+            type="primary",
+        )
 
     @strawberry.field
     def reference_dataset(self, info: Info[Context, None]) -> Optional[Dataset]:
         if info.context.model.reference_dataset is None:
             return None
-        return to_gql_dataset(dataset=info.context.model.reference_dataset, type="reference")
+        return to_gql_dataset(
+            dataset=info.context.model.reference_dataset,
+            type="reference",
+        )
 
     @strawberry.field
     def embedding_dimensions(
@@ -68,7 +77,9 @@ def embedding_dimensions(
         return connection_from_list(
             [
                 to_gql_embedding_dimension(index, embedding_dimension)
-                for index, embedding_dimension in enumerate(info.context.model.embedding_dimensions)
+                for index, embedding_dimension in enumerate(
+                    info.context.model.embedding_dimensions,
+                )
             ],
             args=ConnectionArgs(
                 first=first,
@@ -77,3 +88,25 @@ def embedding_dimensions(
                 before=before if isinstance(before, Cursor) else None,
             ),
         )
+
+    @strawberry.field(
+        description=(
+            "Returns n most recent exported Parquet files sorted by descending modification time."
+        ),
+    )  # type: ignore  # https://github.com/strawberry-graphql/strawberry/issues/1929
+    async def exported_files(
+        self,
+        n_latest: int = 5,
+    ) -> List[ExportedFile]:
+        loop = asyncio.get_running_loop()
+        return [
+            ExportedFile(
+                file_name=path.stem,
+                directory=str(EXPORT_DIR),
+            )
+            for path in await loop.run_in_executor(
+                None,
+                get_exported_files,
+                n_latest,
+            )
+        ]
diff --git a/src/phoenix/server/app.py b/src/phoenix/server/app.py
@@ -2,19 +2,21 @@
 from typing import Optional, Union
 
 from starlette.applications import Starlette
+from starlette.datastructures import QueryParams
+from starlette.endpoints import HTTPEndpoint
 from starlette.exceptions import HTTPException
 from starlette.middleware import Middleware
 from starlette.middleware.base import BaseHTTPMiddleware, RequestResponseEndpoint
 from starlette.requests import Request
-from starlette.responses import Response
+from starlette.responses import FileResponse, Response
 from starlette.routing import Mount, Route, WebSocketRoute
 from starlette.staticfiles import StaticFiles
 from starlette.types import Scope
 from starlette.websockets import WebSocket
 from strawberry.asgi import GraphQL
 from strawberry.schema import BaseSchema
 
-from phoenix.config import SERVER_DIR
+from phoenix.config import EXPORT_DIR, SERVER_DIR
 from phoenix.core.model import Model
 from phoenix.datasets import Dataset
 
@@ -81,16 +83,31 @@ async def get_context(
         )
 
 
+class Download(HTTPEndpoint):
+    async def get(self, request: Request) -> FileResponse:
+        params = QueryParams(request.query_params)
+        file = EXPORT_DIR / (params.get("filename", "") + ".parquet")
+        if not file.is_file():
+            raise HTTPException(status_code=404)
+        return FileResponse(
+            path=file,
+            filename=file.name,
+            media_type="application/x-octet-stream",
+        )
+
+
 def create_app(
     primary_dataset_name: str,
     reference_dataset_name: Optional[str],
     debug: bool = False,
 ) -> Starlette:
     model = Model(
         primary_dataset=Dataset.from_name(primary_dataset_name),
-        reference_dataset=Dataset.from_name(reference_dataset_name)
-        if reference_dataset_name is not None
-        else None,
+        reference_dataset=(
+            Dataset.from_name(reference_dataset_name)
+            if reference_dataset_name is not None
+            else None
+        ),
     )
     graphql = GraphQLWithContext(
         schema=schema,
@@ -104,6 +121,10 @@ def create_app(
         ],
         debug=debug,
         routes=[
+            Route(
+                "/exports",
+                Download,
+            ),
             Route(
                 "/graphql",
                 graphql,