alteryx · eccabay · Sep 19, 2023 · Sep 18, 2023 · Sep 18, 2023 · Sep 19, 2023
diff --git a/docs/source/release_notes.rst b/docs/source/release_notes.rst
@@ -10,6 +10,7 @@ Release Notes
         * Extended TimeSeriesRegularizer to support multiseries :pr:`4303`
     * Fixes
     * Changes
+        * Updated ``split_data`` to call ``split_multiseries_data`` when passed stacked multiseries data :pr:`4312`
     * Documentation Changes
     * Testing Changes
 

diff --git a/evalml/preprocessing/utils.py b/evalml/preprocessing/utils.py
@@ -4,7 +4,12 @@
 
 from evalml.pipelines.utils import stack_data, stack_X, unstack_multiseries
 from evalml.preprocessing.data_splitters import TrainingValidationSplit
-from evalml.problem_types import is_classification, is_regression, is_time_series
+from evalml.problem_types import (
+    is_classification,
+    is_multiseries,
+    is_regression,
+    is_time_series,
+)
 from evalml.utils import infer_feature_types
 
 
@@ -144,6 +149,23 @@
         1    9
         dtype: int64
     """
+    if is_multiseries(problem_type) and isinstance(y, pd.Series):
+        series_id = problem_configuration.get("series_id")
+        time_index = problem_configuration.get("time_index")
+        if series_id is None or time_index is None:
+            raise ValueError(
+                "split_data needs both series_id and time_index values in the problem_configuration to split multiseries data",
+            )
+        return split_multiseries_data(
+            X,
+            y,
+            series_id,
+            time_index,
+            problem_configuration=problem_configuration,
+            test_size=test_size,
+            random_seed=random_seed,
+        )
+
     X = infer_feature_types(X)
     y = infer_feature_types(y)
 

diff --git a/evalml/tests/preprocessing_tests/test_split_data.py b/evalml/tests/preprocessing_tests/test_split_data.py
@@ -6,6 +6,7 @@
     ProblemTypes,
     is_binary,
     is_multiclass,
+    is_multiseries,
     is_regression,
     is_time_series,
 )
@@ -29,6 +30,8 @@
         X, y = X_y_regression
     problem_configuration = None
     if is_time_series(problem_type):
+        if is_multiseries(problem_type):
+            pytest.skip("Multiseries time series is tested separately")
         problem_configuration = {"gap": 1, "max_delay": 7, "time_index": "date"}
 
     X = make_data_type(data_type, X)
@@ -70,6 +73,8 @@
 
     problem_configuration = None
     if is_time_series(problem_type):
+        if is_multiseries(problem_type):
+            pytest.skip("Multiseries time series is tested separately")
         problem_configuration = {"gap": 1, "max_delay": 7, "time_index": "date"}
         test_pct = 0.1
     else:
@@ -127,8 +132,27 @@
     assert len(y_test) == test_size
 
 
+def test_split_data_calls_multiseries_error(multiseries_ts_data_stacked):
+    X, y = multiseries_ts_data_stacked
+    match_str = (
+        "needs both series_id and time_index values in the problem_configuration"
+    )
+    with pytest.raises(ValueError, match=match_str):
+        split_data(
+            X,
+            y,
+            problem_type="multiseries time series regression",
+            problem_configuration={"time_index": "date"},
+        )
+
+
 @pytest.mark.parametrize("no_features", [True, False])
-def test_split_multiseries_data(no_features, multiseries_ts_data_stacked):
+@pytest.mark.parametrize("splitting_function", ["split_data", "split_multiseries_data"])
+def test_split_multiseries_data(
+    no_features,
+    splitting_function,
+    multiseries_ts_data_stacked,
+):
     X, y = multiseries_ts_data_stacked
 
     if no_features:
@@ -137,12 +161,22 @@
     X_train_expected, X_holdout_expected = X[:-10], X[-10:]
     y_train_expected, y_holdout_expected = y[:-10], y[-10:]
 
-    X_train, X_holdout, y_train, y_holdout = split_multiseries_data(
-        X,
-        y,
-        "series_id",
-        "date",
-    )
+    # Results should be identical whether split_multiseries_data is called through
+    # split_data or directly
+    if splitting_function == "split_data":
+        X_train, X_holdout, y_train, y_holdout = split_data(
+            X,
+            y,
+            problem_type="multiseries time series regression",
+            problem_configuration={"time_index": "date", "series_id": "series_id"},
+        )
+    else:
+        X_train, X_holdout, y_train, y_holdout = split_multiseries_data(
+            X,
+            y,
+            "series_id",
+            "date",
+        )
 
     pd.testing.assert_frame_equal(
         X_train.sort_index(axis=1),