Описание проекта
Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Компания желает построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Smart» или «Ultra».
В распоряжении данные о поведении клиентов, которые уже перешли на новые тарифы. Датасет из предыдущего проекта по «Статистическому анализу данных», так же ссылка продублирована выше в окне About. Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.
Постройте модель с максимально большим значением accuracy. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте accuracy на тестовой выборке самостоятельно.
Присутствует дисбаланс в сторону тарифа smart
, с перевесом более чем в 2 раза. Из этого следует, что угадать тариф smart
становится на много проце, чем ultra
, даже если не прибегать к анализу и поиску зависимостей.
Были опробованы три модели бинарной классификации:
- Наиболее точная модель Случайный лес: максимальная глубина: 7 разветвлений, достаточное кол-во деревьев: 10. Благодаря предварительно выполненной стратификации данных, модели RF работает достаточно быстро, несмотря на более сложную структуру работы.
- Решающее дерево (макс. глубина = 5). Незначительное отличие по качеству предсказаний, но может быть полезна для работы с бОльшими выборками, благодаря быстродействию.
- Логистическая регрессия - самая низкокачественная в предсказания.
Доля верных предсказаний, не достаточно велика, чтобы возникла проблема переобучения, и в тоже время не достаточно низкая, чтобы вызвать подозрение в недообучении. Тариф smart
модель предсказывает практически идеально, что нельзя сказать про ultra
. Возможно это связано с разным количеством пользователей этих тарифов.
- Большинство - это пользователи тарифа
smart
, их модель угадывает с очень высокой вероятностью: 91%. Моё предложение заключается в поиске пользователей, чъё "потребление" минут, СМС, и интернет трафика схоже с нынешними юзерами новогоsmart
. Далее проверить наличие выгоды для пользователя, ибо это будет его мотивация для смены тарифа. И в положительных случаях предложить ему обновление: позвонить, прислать СМСку, выслать Push-уведомление. - Этот вариант опирается на минимальные ошибки и риски. Для работы с
ultra
-пользователями, надо повысить долю верных предсказаний, возможно переработать исходную выборку, или рассмотреть альтернативные варианты устранения неточности предсказаний.