Подготовьте прототип модели машинного обучения для «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. Используйте данные с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.
Необходимо:
- Подготовить данные;
- Провести исследовательский анализ данных;
- Построить и обучить модель.
Исходные данные по бoльшей части содержали корректную информацию. Дубликаты - отсутствую. В некоторых объектах встречаются пропуски (были заполнены схожими значениями той же партии материала). Встречались редкие случаи выбросов и аномалий. Во избежания ошибок и неточностей, вызванные этими артефактами в данных, стоит обеспечить обратную связь с предприятием (если это возможно): передать информацию о сомнительных объектах, получить ответ как стоит расценивать эти объекты, и внести изменения в этап предобработки данных. А так же запросить консультацию по параметрам тех. процесса. Понимание значимости того или иного параметра позволит осознано подойти к предобработке данных и настройке модели.
Результатом текущей работы стал выбор RF-модели (Случайный лес), с максимальной точностью - в качестве основной. На базе которой сформировано 2 алгоритма для предсказания коэффициент восстановления золота на этапе флотации и в конце процесса обогащения. Тестирование показало погрешность 9.86% и 8.17%, соответственно.
Итоговая погрешность 9.44%.