Описание проекта:
Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля.
Необходимо построить модель, которая умеет её определять. В вашем распоряжении исторические данные: технические характеристики, комплектации и цены автомобилей. Вам нужно построить модель для определения стоимости.
Заказчику важны:
- качество предсказания;
- скорость предсказания;
- время обучения.
Примечания: Для оценки качества моделей необходимо применять метрику RMSE (корень среднеквадратичного отклонения). Значение метрики RMSE должно быть меньше ± 2500€.
- Линейная регрессия - самая быстродейственная модель: общее время обучения и предсказаний не превышает 1 секунды* (обучение: 45 мс., предсказания: 20 мс.). Но показала самую большую погрешность ± 2522€. Эта модель подойдёт для других задач, к примеру для работы с бóльшим объёмом данных. При использовании кодирования One Hot Encoding общее время сокращается примерно на 25%.
- Случайный лес - самая медлительная модель: обучение: 22 с., предсказания 480 мс.* Минимальнейшая погрешность предсказаний среди сравниваемых моделей: ± 1503€.
- Градиентный бустинг - самая быстродейственная модель: обучение 10 с., предсказание 560 мс.* Погрешность предсказаний ± 1511€, что соизмеримо с погрешностью предыдущей модели, но решающим значением является меньшее время. По этим причинам я рекомендую эту модель.
*время обучения и предсказания могут отличаться в зависимости от устройства (ПК/сервера) на котором выполняются эти операции.
Примечание: Увеличение обучающей выборки позволяет уменьшить погрешность предсказаний модели. Это очевидный вывод, но не очевидно как этого добиться, поскольку в исходных данных содержится значительное количество дефектов, устранение с которыми уменьшило объём данных, а так же потребовало больше времени, чем сам процесс обучения моделей и их тестирование.