Официально соревнование закончилось, но вы всегда можете проверить качество своего подхода, сделав сабмит в песочницу соревнования.
Репозиторий с базовыми решениями ко второй задаче чемпионата.
В рамках чемпионата требуется решить задачу кредитного скоринга только на основании карточных транзакций клиента.
Особенности датасета:
- Огромный объем: 1.5m объектов, 450m строк данных, 6gb данных.
- Максимальная детализация данных: 19 признаков на каждую транзакцию, пользовательская история глубиной в год (до 8к транзакций на клиента).
baseline_boosting - решение на основание градиентного бустинга
|-- baseline.ipynb(0.737 AUC ROC Public LB) - ноутбук с решением задачи
|-- features.py - методы для генерации признаков
rnn_baseline - решение на основе рекуррентных нейронных сетей
|-- baseline - папка с бейзлайнами (0.750 AUC ROC Public LB)
|-- pytorch_baseline.ipynb - решение с использованием torch
|-- tf_baseline.ipynb - решение с использованием tensorfow
|-- advanced_baseline - папка с улучшенными бейзлайнами (0.760 AUC ROC Public LB)
|-- pytorch_baseline.ipynb - решение с использованием torch
|-- tf_baseline.ipynb - решение с использованием tensorfow
|-- constants - папка с полезными константами для препроцессинга
|-- data_generators.py - содержит функционал для генерации батчей
|-- dataset_preprocessing_utils.py - методы для препроцессинга транзакционных данных
|-- pytorch_training.py - методы обучения, валидации и инференса модели на torch
|-- tf_training.py - методы обучения, валидации и инференса модели на tensorflow
|-- training_aux.py - реализация early_stopping-а
utils.py - методы для пакетного чтения и предобработки данных