Merge pull request #46 from Alex-Lekov/release-2023.3.10

Release 2023.3.10
Alex-Lekov · Mar 9, 2023 · 5347aa9 · 5347aa9
2 parents a5b01e7 + 21acebc
commit 5347aa9
Show file tree

Hide file tree

Showing 33 changed files with 6,103 additions and 16,964 deletions.
diff --git a/.deepsource.toml b/.deepsource.toml
diff --git a/.devcontainer/devcontainer.json b/.devcontainer/devcontainer.json
diff --git a/.gitignore b/.gitignore
@@ -135,9 +135,8 @@ dmypy.json
 */.DS_Store
 alexautoml/.DS_Store
 .catboost_info
-*.catboost_info/
+**/catboost_info
 catboost_info/*
-*/catboost_info
 *.pkl
 test_de.zip
 .gitignore
@@ -147,3 +146,5 @@ de.zip
 test_save.zip
 examples/prod_sample/catboost_info/*
 result
+.devcontainer
+poetry.lock
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -4,6 +4,12 @@ All notable changes to this project will be documented in this file.
 
 The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.0.0/).
 
+## [2023.3.9]
+### Changed
+- Update dependencies
+### Fix
+- ValueError: X and y both have indexes, but they do not match.
+
 
 ## [1.3.10]
 ### Fix

diff --git a/Dockerfile b/Dockerfile
@@ -1,4 +1,4 @@
-FROM python:3.9-buster
+FROM python:3.10-buster
 
 # Uncomment the following COPY line and the corresponding lines in the `RUN` command if you wish to
 # include your requirements in the image itself. It is suggested that you only do this if your

diff --git a/README.md b/README.md
@@ -165,7 +165,7 @@ $ optuna-dashboard sqlite:///db.sqlite3
 
 -   [x] Add opt Pruners
 
--   [x] Docs Site
+-   [ ] Docs Site
 
 -   [ ] DL Encoders
 

diff --git a/automl_alex/__init__.py b/automl_alex/__init__.py
@@ -6,4 +6,5 @@
 from .cross_validation import *
 from .optimizer import *
 from ._logger import *
-from .__version__ import __version__
+
+__version__ = "2023.3.10"
diff --git a/automl_alex/__version__.py b/automl_alex/__version__.py
diff --git a/automl_alex/_base.py b/automl_alex/_base.py
@@ -228,13 +228,13 @@ def opt(
         timeout=200,  # optimization time in seconds
         metric=None,
         metric_round=4,
-        combined_score_opt=False,
         cold_start=30,
         auto_parameters=True,
         folds=7,
         score_folds=2,
         opt_lvl=2,
         early_stoping=100,
+        feature_selection=False,
         verbose=1,
     ):
         """
@@ -249,7 +249,7 @@ def opt(
             opt_lvl=None (None or int):
             direction=None (None or str):
             early_stoping=100 (int):
-            feature_selection=True (bool):
+            feature_selection=False (bool):
             verbose=1 (int):
 
         Returns:
@@ -273,8 +273,7 @@ def opt(
             clean_and_encod_data=False,
             type_of_estimator=self._type_of_estimator,
             models_names=[self.__name__],
-            target_encoders_names=[],
-            feature_selection=False,
+            feature_selection=feature_selection,
             auto_parameters=auto_parameters,
             folds=folds,
             score_folds=score_folds,

diff --git a/automl_alex/_encoders.py b/automl_alex/_encoders.py
@@ -10,12 +10,6 @@
     OrdinalEncoder,
     BaseNEncoder,
 )
-from category_encoders import (
-    TargetEncoder,
-    CatBoostEncoder,
-    WOEEncoder,
-    JamesSteinEncoder,
-)
 from category_encoders.count import CountEncoder
 
 ################################################################
@@ -32,15 +26,3 @@
     "BaseNEncoder": BaseNEncoder,
     "CountEncoder": CountEncoder,
 }
-
-
-################################################################
-#                Target Encoders
-################################################################
-
-target_encoders_names = {
-    "TargetEncoder": TargetEncoder,
-    "CatBoostEncoder": CatBoostEncoder,
-    "WOEEncoder": WOEEncoder,
-    "JamesSteinEncoder": JamesSteinEncoder,
-}
diff --git a/automl_alex/automl_alex.py b/automl_alex/automl_alex.py
@@ -317,7 +317,7 @@ def fit(
         score_folds: int = 3,
         opt_lvl: int = 2,
         early_stoping: int = 100,
-        feature_selection: bool = False,
+        feature_selection: bool = True,
         verbose: int = 3,
     ) -> None:
         """
@@ -412,15 +412,9 @@ def fit(
                 "OneHotEncoder",
                 "CountEncoder",
                 "HashingEncoder",
-                "BackwardDifferenceEncoder",
-            ],
-            "target_encoders_names": [
-                "TargetEncoder",
-                "JamesSteinEncoder",
-                "CatBoostEncoder",
             ],
             "clean_outliers": [True, False],
-            "num_generator_select_operations": True,
+            "num_generator_select_operations": False,
             "num_generator_operations": ["/", "*", "-", "+"],
             #'iteration_check': False,
         }
@@ -429,15 +423,21 @@ def fit(
         logger.info(50 * "#")
         logger.info("> Start Fit Models 2")
         logger.info(50 * "#")
+
         # Model 2
-        self.model_2 = automl_alex.BestSingleModel(
-            models_names=[
-                # "LinearModel",
+        if self._type_of_estimator == "classifier":
+            models_names = [
                 "LightGBM",
-                # "ExtraTrees",
-                # "RandomForest",
-                # "MLP",
-            ],
+                "XGBoost",
+                ]
+        elif self._type_of_estimator == "regression":
+            models_names = [
+                "LinearModel",
+                "LightGBM",
+                ]
+
+        self.model_2 = automl_alex.BestSingleModel(
+            models_names=models_names,
             **params,
         )
 

diff --git a/automl_alex/cross_validation.py b/automl_alex/cross_validation.py
@@ -72,7 +72,6 @@ class CrossValidation(object):
     def __init__(
         self,
         estimator: Callable,  # model
-        target_encoders_names: List[str] = [],
         folds: int = 7,
         score_folds: int = 5,
         n_repeats: int = 1,
@@ -87,8 +86,6 @@ def __init__(
         estimator : Callable
             model object from automl_alex.models
             The object to use to fit model.
-        target_encoders_names : List[str]
-            name encoders (from automl_alex._encoders.target_encoders_names)
         folds : int, optional
             Number of folds., by default 7
         score_folds : int, optional
@@ -113,7 +110,6 @@ def __init__(
         self.n_repeats = n_repeats
         self.print_metric = print_metric
         self.metric_round = metric_round
-        self.target_encoders_names = target_encoders_names
 
         if metric is None:
             if estimator._type_of_estimator == "classifier":
@@ -173,30 +169,6 @@ def fit(
 
         for i, (train_idx, valid_idx) in enumerate(self.cv_split_idx):
             train_x, train_y = X.iloc[train_idx], y.iloc[train_idx]
-            # Target Encoder
-            if len(self.target_encoders_names) > 0:
-                train_x_copy = train_x[self.cat_features].copy()
-                for target_enc_name in self.target_encoders_names:
-                    self._fit_target_enc[
-                        f"{target_enc_name} _fold_{i}"
-                    ] = copy.deepcopy(
-                        target_encoders_names[target_enc_name](drop_invariant=True)
-                    )
-
-                    self._fit_target_enc[
-                        f"{target_enc_name} _fold_{i}"
-                    ] = self._fit_target_enc[f"{target_enc_name} _fold_{i}"].fit(
-                        train_x_copy, train_y
-                    )
-
-                    data_encodet = self._fit_target_enc[
-                        f"{target_enc_name} _fold_{i}"
-                    ].transform(train_x_copy)
-                    data_encodet = data_encodet.add_prefix(target_enc_name + "_")
-
-                    train_x = train_x.join(data_encodet.reset_index(drop=True))
-                train_x_copy = None
-                train_x.fillna(0, inplace=True)
 
             # Fit
             self.estimator.fit(X_train=train_x, y_train=train_y)
@@ -214,17 +186,6 @@ def predict_test(self, X_test):
 
         for i in range(self.folds * self.n_repeats):
             X_test_tmp = X_test.copy()
-            # Target Encoder
-            if len(self.target_encoders_names) > 0:
-                X_cat_features = X_test_tmp[self.cat_features].copy()
-                for target_enc_name in self.target_encoders_names:
-                    data_encodet = self._fit_target_enc[
-                        f"{target_enc_name} _fold_{i}"
-                    ].transform(X_cat_features)
-                    data_encodet = data_encodet.add_prefix(target_enc_name + "_")
-
-                    X_test_tmp = X_test_tmp.join(data_encodet.reset_index(drop=True))
-                X_test_tmp.fillna(0, inplace=True)
             # Predict
             y_pred_test = self.fited_models[
                 f"model_{self.estimator.__name__}_fold_{i}"
@@ -242,18 +203,6 @@ def predict_train(self, X):
 
         for i, (train_idx, valid_idx) in enumerate(self.cv_split_idx):
             val_x = X.iloc[valid_idx]
-            # Target Encoder
-            if len(self.target_encoders_names) > 0:
-                val_x_copy = val_x[self.cat_features].copy()
-                for target_enc_name in self.target_encoders_names:
-                    data_encodet = self._fit_target_enc[
-                        f"{target_enc_name} _fold_{i}"
-                    ].transform(val_x_copy)
-                    data_encodet = data_encodet.add_prefix(target_enc_name + "_")
-                    val_x = val_x.join(data_encodet.reset_index(drop=True))
-                val_x_copy = None
-                val_x.fillna(0, inplace=True)
-
             y_pred = self.fited_models[
                 f"model_{self.estimator.__name__}_fold_{i}"
             ].predict_or_predict_proba(val_x)
@@ -274,16 +223,6 @@ def get_feature_importance(self, X):
 
         for i in range(self.folds * self.n_repeats):
             X_tmp = X.copy()
-            # Target Encoder
-            if len(self.target_encoders_names) > 0:
-                X_cat_features = X[self.cat_features].copy()
-                for target_enc_name in self.target_encoders_names:
-                    data_encodet = self._fit_target_enc[
-                        f"{target_enc_name} _fold_{i}"
-                    ].transform(X_cat_features)
-                    data_encodet = data_encodet.add_prefix(target_enc_name + "_")
-
-                    X_tmp = X_tmp.join(data_encodet.reset_index(drop=True))
             X_tmp.fillna(0, inplace=True)
             # Get feature_importance
             if i == 0:
@@ -321,30 +260,6 @@ def fit_score(
         for i, (train_idx, valid_idx) in enumerate(self.cv_split_idx):
             train_x, train_y = X.iloc[train_idx], y.iloc[train_idx]
             val_x, val_y = X.iloc[valid_idx], y.iloc[valid_idx]
-            # Target Encoder
-            if len(self.target_encoders_names) > 0:
-                val_x_copy = val_x[cat_features].copy()
-                train_x_copy = train_x[cat_features].copy()
-                for target_enc_name in self.target_encoders_names:
-                    target_enc = target_encoders_names[target_enc_name](
-                        drop_invariant=True
-                    )
-
-                    data_encodet = target_enc.fit_transform(train_x_copy, train_y)
-                    data_encodet = data_encodet.add_prefix(target_enc_name + "_")
-                    train_x = train_x.join(data_encodet.reset_index(drop=True))
-                    data_encodet = None
-
-                    val_x_data_encodet = target_enc.transform(val_x_copy)
-                    val_x_data_encodet = val_x_data_encodet.add_prefix(
-                        target_enc_name + "_"
-                    )
-                    val_x = val_x.join(val_x_data_encodet.reset_index(drop=True))
-                    val_x_data_encodet = None
-                val_x_copy = None
-                train_x_copy = None
-                train_x.fillna(0, inplace=True)
-                val_x.fillna(0, inplace=True)
 
             # Fit
 
@@ -397,13 +312,6 @@ def save(self, name="cv_dump", folder="./", verbose=1):
         self._clean_temp_folder()
 
         for i in range(self.folds * self.n_repeats):
-            # Target Encoder
-            if len(self.target_encoders_names) > 0:
-                for target_enc_name in self.target_encoders_names:
-                    joblib.dump(
-                        self._fit_target_enc[f"{target_enc_name} _fold_{i}"],
-                        f"{dir_tmp}{target_enc_name} _fold_{i}.pkl",
-                    )
             # Models
             self.fited_models[f"model_{self.estimator.__name__}_fold_{i}"].save(
                 f"{dir_tmp}model_{self.estimator.__name__}_fold_{i}", verbose=0
@@ -426,12 +334,6 @@ def load(self, name="cv_dump", folder="./", verbose=1):
         cv = joblib.load(dir_tmp + "CV" + ".pkl")
 
         for i in range(cv.folds * cv.n_repeats):
-            # Target Encoder
-            if len(self.target_encoders_names) > 0:
-                for target_enc_name in self.target_encoders_names:
-                    self._fit_target_enc[f"{target_enc_name} _fold_{i}"] = joblib.load(
-                        f"{dir_tmp}{target_enc_name} _fold_{i}.pkl"
-                    )
             # Models
             cv.fited_models[
                 f"model_{self.estimator.__name__}_fold_{i}"