Описание проекта:
Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.
Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Вам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.
Постройте модель с предельно большим значением F1-меры. Чтобы сдать проект успешно, нужно довести метрику до 0.59. Проверьте F1-меру на тестовой выборке самостоятельно. Дополнительно измеряйте AUC-ROC, сравнивайте её значение с F1-мерой.
Источник данных: www.kaggle.com
Из исходных данных были отобраны только те значения, которые подходят в качестве признаков. Категориальные данные были закодированы с помощью One-Hot Encodind, а количественные были стандартизированы с помощью StandartScaler.
Задача подходит под тип: бинарной классификации, для выполнение которой выбраны модели: Логистическая регрессия (LR), Решающее дерево (DT) и Случайный лес (RF). Экспериментальным путём были подобраны подходящие гиперпараметры для наилучшего результата предсказаний. Среди вышеупомянутых моделей выделилась модель: Случайный лес (RF).
Между классами присутствует дисбаланс. Целевой класс находится в меньшинстве: ушедших клиентов в 4 раза меньше оставшихся. Эту проблему получилось решить за счёт Увеличении выборки целевого класса. Остальные метода: уменьшение выборки, изменение порога классификации или веса класса - не принесли лучших результатов.
Итоговой сборкой стала: модель Случайный лес (RF) с увеличения выборки целевого класса.
На тесте получились сравнительно такие же значения метрик, как и на валидационной выборке. По этому можно судить, что модель смогла установить связь между признаками. Гиперпараметры модели подобраны таким образом, чтобы уменьшить ложные предсказания, и не нарушить баланс между ними.
Но можно изменить баланс в пользу уменьшения ложных пропусков. Получится уменьшить число вовремя нераспознанных ушедших клиентов, но увеличится и кол-во постоянных клиентов, которые ошибочно будут получать рекламные предложения связанное с их уходом.