Machine learning course
План курса:
- Введение в анализ данных.
- Линейные регрессионные модели.
- Линейные классификационные модели. Градиентный спуск, стохастический градиентный спуск.
- Метод ближайшего соседа (классификация и регрессия).
- Дерево решений (классификация и регрессия).
- Класстеризация данных.
- Методы понижения размерности.
- Нейронные сети.
Вопросы на зачет:
- Матрица данных. Атрибуты данных: численные атрибуты и категориальные атрибуты. Нормализация данных, расстояние и угол между объектами данных.
- Классификация и регрессия.
- Линейная регрессия и классификация. Функции потерь, метрики, алгоритм построения. Градиентный спуск и стохастический градиентный спуск. Логистическая регрессия. Регуляризация L1 и L2. Максимальное правдоподобия.
- Наивный байесовский классификатор. Приницип построения.
- К ближайших соседей: классификация и регрессия. Алгоритм построения.
- Дерево решений: классификация и регрессия. Структура дерева. Алгоритм построения и предсказания результата.
- Метод опорных векторов. Рассказать на линейно-разделимой выборке данных. Отступ.
- Понижение размерности данных. Метод главных компонент: алгоритм. Сингулярное разложение: алгоритм.
- Кластеризация данных. К-средних: алгоритм, выбор количества кластеров, устойчивость. Иерархический кластерный анализ: алгоритм, расстояния между кластерами, выбор количества кластеров.
- Персептрон. Обучение персептрона.
- Оценка классификатора. Метрики оценки: ошибка, точность. Матрица ошибок. Метрики для оценки классов: точность, полнота и F-мера. AUC (Area under Curve), ROC-кривая. Кросс-энтропия.
- Перекрестная проверка (cross-validation).
- Ансамблевые методы: бэггинг (бутстрэп), бустинг, стекинг. Случайный лес: построение.