Кластеризация и классификация на Python
Выигрываем соревнование Kaggle с kNN, SVM, логистической регрессией, случайным лесом, XGBoost, CatBoost и LightGBM


6369₽
Кэшбэк до 7.5%
Описание:
Мы разберем прикладные подходы к кластеризации и классификации данных с помощью машинного обучения для страхового скоринга Prudential в соревновании на Kaggle вплоть до формирования конечного результата.
В этом курсе:
- Проведение исследовательского анализа данных для поиска зависимостей: EDA.
- Метрики классификации: точность, полнота, F1, квадратичная каппа и матрица неточностей.
- Очистка данных и оптимизация потребления памяти.
- Кластеризация данных и метод ближайших соседей.
- Простая и иерархическая логистическая регрессия.
- Метод ближайших соседей и поиск оптимальной модели.
- Метод опорных векторов: SVM.
- Дерево принятия решения и случайный лес (бэггинг).
- XGBosot и градиентный бустинг.
- LightGBM и CatBoost
- Ансамбль стекинга для голосования и выбора лучшего результата.
- Выгрузка результата для соревнования на Kaggle.
Чему вы научитесь
- EDA: исследовательский анализ данных
- Точность, полнота, F1 и каппа метрики
- Простая кластеризация данных
- Логистическая регрессия: простая и многоуровневая
- Метод ближайших соседей: kNN
- Наивный Байес
- Метод опорных векторов: SVM
- Решающие деревья м случайный лес
- XGBoost и градиентный бустинг
- CatBoost и LightGBM
- Ансамбль голосования и стекинга
Программа курса:
Задача страхового скоринга
- Страховой скоринг
- F1 и Каппа оценки классификации
- Метод ближайших соседей
- kNN скоринг
Логистическая регрессия и опорные векторы
- Обработка данных и оптимизация памяти
- Логистическая регрессия
- Иерархия логистической регрессии
- SVM: метод опорных векторов
- Сравнение классификации
Решающие деревья и ансамбли бэггинга и бустинга
- Решающие деревья
- Случайный лес
- Бустинг с XGBoost
- Градиентный бустинг
Ансамбль стекинга и финальное решение
- LightGBM
- CatBoost
- Ансамбль классификации
- Расчет результатов
- Финальное решение