e-mail: dvkazakov @ gmail.com |
|
|
|
|
Прогноз оттока клиентов банка
Исходный датасет (не опубликован, т.к. собственность школы): 355190 строк, 234 колонки.
Учебный проект, выполненный на курсе профессиональной переподготовки "Специалист по работе с данными. Data scientist" Школы 21 Сбер / Томского государственного университета.
Навыки:
Ноутбуки проекта:
8% – класс 1; 92% – класс 0.
Подготовка данных:
Выбраны метрики с учетом дисбаланса классов и большей важности меньшего класса.
Опробованы разные методы и ансамбли.
Случайный лес не улучшил результаты по сравнению с отдельным деревом. Видимо, благодаря большому набору данных вариативность низкая, поэтому той проблемы, которую решает случайные лес, нет. У градиентного бустинга результаты хуже.
Улучшить результаты (recall, ROC AUC) удалось, используя сочетание решающего дерева и бустинга с помощью метода Ada Boost.