feat: export to parquet #424

RogerHYang · 2023-03-23T06:59:28Z

resolves #417
resolves #432

clean-ups:

replaced os.path with pathlib
moved Event related functions to Events.py

app/schema.graphql

src/phoenix/datasets/dataset.py

src/phoenix/server/api/types/ExportResonse.py

mikeldking · 2023-03-28T15:57:34Z

src/phoenix/core/model.py

+    def export_events_as_parquet_file(
+        self,
+        rows: Mapping[DatasetType, Iterable[int]],
+        parquet_file: BinaryIO,
+    ) -> None:
+        """
+        Given row numbers, exports dataframe subset into parquet file.
+        Duplicate rows are removed.
+
+        Parameters
+        ----------
+        rows: Mapping[DatasetType, Iterable[int]]
+            mapping of dataset type to list of row numbers
+        parquet_file: file handle
+            output parquet file handle
+        """
+        pd.concat(
+            dataset.export_events(rows.get(dataset_type, ()))
+            for dataset_type, dataset in self.__datasets.items()
+            if dataset is not None
+        ).to_parquet(parquet_file, index=False)


It might be important to encode the dataset type into the parquet file itself so that if the user is exporting a cluster that has both, they can distinguish them. I posed a similar question on the main platform ticket and I think that makes sense.

Context: https://github.com/Arize-ai/arize/issues/19710

thanks for the heads-up. will revisit in a future PR

src/phoenix/datasets/dataset.py

mikeldking · 2023-03-28T16:00:57Z

src/phoenix/datasets/dataset.py

+        self.__original_column_indices = [
+            dataframe.columns.get_loc(column_name) for column_name in original_column_names
+        ]


How is this information passed back to the server runtime?

good call out. currently this does nothing given that datasets are initialized (and validated) twice. will remove from this PR and revisit in the future

export to parquet

f83e19f

mikeldking reviewed Mar 23, 2023

View reviewed changes

app/schema.graphql Outdated Show resolved Hide resolved

src/phoenix/datasets/dataset.py Outdated Show resolved Hide resolved

src/phoenix/server/api/types/ExportResonse.py Outdated Show resolved Hide resolved

RogerHYang added 9 commits March 27, 2023 14:48

wip

5b0421e

Merge branch 'main' into export-mvp

8a5a36e

run gql

0ffb00c

use pathlib

8453b00

reformat long lines

63df75c

fix enum

89da9b6

clean up paths

5b913e8

add mkdir

b43b827

clean up

d50d9b1

mikeldking approved these changes Mar 28, 2023

View reviewed changes

RogerHYang added 2 commits March 28, 2023 12:55

clean up

e1e83fe

clean up

ade1783

RogerHYang merged commit 1c4e4c8 into main Mar 28, 2023

RogerHYang deleted the export-mvp branch March 28, 2023 20:33

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: export to parquet #424

feat: export to parquet #424

RogerHYang commented Mar 23, 2023 •

edited

Loading

mikeldking Mar 28, 2023

RogerHYang Mar 28, 2023

mikeldking Mar 28, 2023

RogerHYang Mar 28, 2023

feat: export to parquet #424

feat: export to parquet #424

Conversation

RogerHYang commented Mar 23, 2023 • edited Loading

mikeldking Mar 28, 2023

Choose a reason for hiding this comment

RogerHYang Mar 28, 2023

Choose a reason for hiding this comment

mikeldking Mar 28, 2023

Choose a reason for hiding this comment

RogerHYang Mar 28, 2023

Choose a reason for hiding this comment

RogerHYang commented Mar 23, 2023 •

edited

Loading