Machine learning notes and examples
- Основные термины и определения
- Оценка качества/точности моделей
- Оптимизаторы
- Классические методы машинного обучения
- Нейронные сети
- Natural language processing
- Известные архитектуры и их краткое описание
- Алгоритмы проведения исследований
- Ссылки
- pandas, numpy, google apps datastore analyze, scipy.polyfit
- pyplot
- TSNE, KMeans - работа про boston dataset, можно объединить
Google Play Store - reviews analize Kaggle
Категоризация отзывов на положительные, отрицательные и нейтральные. Присутствует небольшая чистка данных, удаление стоп-слов,
лемматизация, токенизация, есть визуализация в виде облака слов.
Использованные модели:
- нейронная сеть на Keras с регуляризацией через Dropout
- LSTM-сеть на Keras (показала лучшее качество)
Можно бы попробовать подобрать параметры и улучшить качество предсказаний, но модель обучается очень долго. При этом, модели еще есть куда расти, коллбэк ранней остановки так и не сработал.
BBC texts categorization Kaggle
Категоризация текстов. Это первая попытка работы с NLP. Присутствует токенизация текстов, модель обучается по принципу BagOfWords.
Использованные модели:
- нейросеть на Keras с одним скрытым слоем
TODO: - лемматизация
- удаление стоп-слов
- LSTM, скорее всего, покажет лучшее качество
Mnist2 - digits recognition Kaggle
Довольно простая работа в CNN по распознаванию чисел. Есть интересные визуализации. Использованные модели:
- нейронная сеть на Keras с одним скрытым слоем
Titanic: machine learning for disaster Kaggle
Стандартный и всеми избитый датасет с данными о выживших на Титанике. Задача классификации, необходимо предсказать кто из пассажиров выживет. Задача интересна тем, что необходимо догадаться извлечь из имени пол. Выживаемость пассажиров оказалась очень сильно скоррелированной с полом. Присутствует чистка данных, никакой особой визуализации. Использованные модели:
- DecisionTreeClassifier
- RandomForestClassifier
- KNeighborsClassifier
- SVC
- Perceptron
- XGBClassifier
Большая часть моделей была использована просто для эксперимента, лучшие результаты, как и ожидалось, у XGBClassifier. Также в данной работе присутствует использование ансамбля моделей через VotingClassifier.
TODO:
- что там делаетLogisticRegression?
- надо бы хоть какую-то виуализацию данных добавить
- неплохо бы добавить использование CatBoost
- подбор гиперпараметров
Flat prices prediction Kaggle
Задача регрессии. Присутствует исследование датасета, чистка данных, визуализация.
Использованные модели:
- LinearRegression
- RandomForestRegressor
- KNeighborsRegressor
- XGBRegressor
Лучший результат оказался у XGBRegressor. К сожалению, отсутствует подбор гиперпараметров.
TODO:
- в конце скрипт падает, надо поправить это
Boston house prices Kaggle
Линейная регрессия для предсказания стоимости жилья. Никакого исследования данных, никакой чистки. Прменяется только LinearRegression и RandomForestRegressor. Довольно слабая работа, одна из самых первых.