|
e-mail: dvkazakov @ gmail.com (убрать пробелы с обеих сторон '@')
|
Тел./WhatsApp: +7-916-909-7864
|
Telegram: @denis_v_kazakov
|
GitHub
|
Skype: denis.v.kazakov
|
|
English
|
Учебные проекты
Учебные проекты, выполненные до устройства на первую работу в сфере науки о данных.
Содержание:
Обработка естественного языка
Система машинного перевода на основе трансформеров
Извлечение устойчивых выражений из корпуса текстов
Предложил свой метод, основанный на нормализованной поточечной взаимной информации (normalized pointwise mutual information).
Google Translate detected!
"Google Translate detected!" – так говорят переводчики, обнаружив, что перевод сделан не человеком, а машиной (подразумевается, что сделан плохо и это бросается в глаза).
Цель проекта – научить нейронную сеть отличать машинный перевод от перевода, сделанного человеком.
Навыки:
- Подготовка и анализ данных с помощью библиотеки Pandas
- Нейронные сети: построение модели, оптимизаций гиперпараметров, оценка результатов (библиотека keras)
- Проверка статистических гипотез
- Мощность статистических критериев
- Языки: Python, R
В начало страницы
Временные ряды
Прогнозирование добычи нефти и газа из нетрадиционных источников
Учебный проект из двух частей:
- Подбор уравнения, описывающего падение добычи
- Прогнозирование добычи
Навыки:
- Анализ данных (EDA)
- Визуализация
- Подготовка данных (Pandas)
- Преобразование переменных
- Линейная регрессия
- Подбор параметров теоретических кривых (curve_fit, библиотека Scypy)
- Нейронная сеть (keras, functional API)
- Временные ряды
- Подбор метрик с учетом отраслевых требований
- Изучение предмета анализа (разработка сланцевых местрождений)
В начало страницы
Регрессионный анализ
Регрессионный анализ при количестве зависимых переменных, большем количества независимых переменных
Навыки:
- Изучение литературы по теме (лабораторный анализ образцов горной породы)
- Анализ данных (EDA)
- Визуализация
- Преобразование переменных
- Подбор метрик с учетом отраслевых требований
- ООП
- Регрессионный анализ:
- Линейная регрессия
- Регуляризация
- Метод k ближайших соседей (KNN)
- Случайный лес
- Бустинг (AdaBoost)
- Оптимизация гиперпараметров (библиотека Optuna)
В начало страницы
Uplift
Моделирование аплифта — прогнозирование, какие клиенты купят продукт, если им отправить рекламное сообщение (и не купят без такого сообщения).
Соревнование на платформе Kaggle. 18-е место из 177 участников.
Навыки:
- Подготовка и анализ данных (pandas)
- Отбор признаков
- Моделирование аплифта (библиотека sklift)
- Градиентный бустинг (xgboost).
В начало страницы
Статистика
Проверка справедливости закона Ципфа
Если слова в языке (или в большом наборе текстов) расположить по частоте использования, то, согласно закону Ципфа, второе в списке слово встречается примерно в два раза реже, чем первое, третье – в три раза реже, чем первое, и так далее.
Цель проекта – проверить справедливость закона Ципфа на текстах, написанных на русском и английском языках, а также на словаре частотности русского языка.
Навыки:
- Анализ данных с помощью библиотеки Pandas
- Преобразование независимых переменных для построения уравнения регрессии
- Линейная регрессия (библиотека Statsmodels)
- Определение пользовательских классов (Python)
- Работа с текстом, расчет частот.
В начало страницы
Python
Преобразование словарей
Программа написана для переводчиков, которые занимаются техническим переводом и составляют свои словари.
Навыки: программирование на Python.
В начало страницы