home

e-mail: dvkazakov @ gmail.com
(убрать пробелы с обеих сторон '@')

Тел./WhatsApp: +7-916-909-7864

Telegram: @denis_v_kazakov

GitHub

Skype: denis.v.kazakov

photo

English


Регрессия со множеством зависимых переменных
Зависимых переменных больше, чем независимых

Ртутная порометрия (вдавливание ртути в образец)

Этот проект на GitHub.

Навыки:

  • Изучение литературы по теме (лабораторный анализ образцов породы)
  • Анализ данных (EDA)
  • Визуализация
  • Преобразование переменных
  • Подбор метрик с учетом отраслевых требований
  • ООП
  • Регрессионный анализ:
    • Линейная регрессия
    • Регуляризация
    • Метод k ближайших соседей (KNN)
    • Случайный лес
    • Бустинг (AdaBoost)
  • Оптимизация гиперпараметров (библиотека Optuna)

Исходные данные содержали информацию по испытаниям 455 образов методом вдавливания ртути под давлением: около 20 независимых переменных (данные по скважинам и геологии) и 200 зависимых. Изучение литературы показало, что целевые переменные - это кривая зависимости объема ртути, вдавленной в образец, от давления, т.е. 100 точек с двумя координатами - давление и объем.

Было опробовано несколько методов регрессии - линейная, KNN, случайный лес и бустинг (AdaBoost). Наилучшие результаты показал бустинг.

Кроме того, было предложено альтернативное решение, в котором давление рассматривается как независимая переменная, что, на мой взгляд ближе к реальной задаче - построению зависимости объема от давления.

Подробнее в ноутбуках: