|
e-mail: dvkazakov @ gmail.com (убрать пробелы с обеих сторон '@')
|
Тел./WhatsApp: +7-916-909-7864
|
Telegram: @denis_v_kazakov
|
GitHub
|
Skype: denis.v.kazakov
|
|
English
|
Портфолио
Содержание:
Обработка естественного языка
Google Translate detected!
"Google Translate detected!" – так говорят переводчики, обнаружив, что перевод сделан не человеком, а машиной (подразумевается, что сделан плохо и это бросается в глаза).
Цель проекта – научить нейронную сеть отличать машинный перевод от перевода, сделанного человеком.
Навыки:
- Подготовка и анализ данных с помощью библиотеки Pandas
- Нейронные сети: построение модели, оптимизаций гиперпараметров, оценка результатов (библиотека keras)
- Проверка статистических гипотез
- Мощность статистических критериев
- Языки: Python, R
В начало страницы
Распознавание изображений
Классификация изображений: клетки, зараженные и не зараженные малярией
27.558 изображений клеток с равными количествами зараженных и не зараженных клеток.
Цель проекта – обучить нейронную сеть различать зараженные и не зараженные клетки.
Навыки:
- Библиотека keras/TensorFlow
- Сверточные нейронные сети
- Работа с изображениями разного размера
- Нелинейная топология сети: применение связей residual connections для повышения точности
- Автоматический подбор парметров архитектуры сети (число слоев, количество фильтров в каждом слое, размер ядра свертки) с помощью байесовского алгоритма и алгоритма HyperBand.
|
|
В начало страницы
Восстановление функции по графику
Во многих промышленных стандартах и строительных нормах даны методики расчета различных конструкций. Причем в старых, но еще действующих документах кроме формул часто дают графики, по которым нужно вручную определять значения тех или иных параметров. Формулы очень легко перевести в программный алгоритм для автоматизации расчета, а вот ручное определение величин по графикам неточно и тормозит работу.
Цель проекта – обучить нейронную сеть восстанавливать значения функции по графику.
Навыки: сверточные нейронные сети.
|
|
В начало страницы
Временные ряды
Прогнозирование добычи нефти и газа из нетрадиционных источников
Учебный проект из двух частей:
- Подбор уравнения, описывающего падение добычи
- Прогнозирование добычи
Навыки:
- Анализ данных (EDA)
- Визуализация
- Подготовка данных (Pandas)
- Преобразование переменных
- Линейная регрессия
- Подбор параметров теоретических кривых (curve_fit, библиотека Scypy)
- Нейронная сеть (keras, functional API)
- Временные ряды
- Подбор метрик с учетом отраслевых требований
- Изучение предмета анализа (разработка сланцевых местрождений)
В начало страницы
Регрессия
Прогнозирование цен на Airbnb
Навыки:
- Подготовка и анализ данных с помощью библиотеки Pandas
- Метод главных компонент (PCA);
- Градиентный бустинг;
- Конвеер Sklearn.
В начало страницы
Uplift
Соревнование на платформе Kaggle
Моделирование аплифта — прогнозирование, какие клиенты купят продукт, если им отправить рекламное сообщение (и не купят без такого сообщения). 18-е место из 177 участников.
Навыки:
- Подготовка и анализ данных (pandas)
- Отбор признаков
- Моделирование аплифта (библиотека sklift)
- Градиентный бустинг (xgboost).
В начало страницы
Классификация
Прогноз оттока клиентов банка
Навыки:
- Предобработка данных: pandas, sklearn
- Выбор метрик (balanced accuracy, recall, ROC AUC)
- Деревья решений, случайный лес, градиентный бустинг, AdaBoost (sklearn)
- Нейронная сеть (keras).
В начало страницы
Статистика
Проверка справедливости закона Ципфа
Если слова в языке (или в большом наборе текстов) расположить по частоте использования, то, согласно закону Ципфа, второе в списке слово встречается примерно в два раза реже, чем первое, третье – в три раза реже, чем первое, и так далее.
Цель проекта – проверить справедливость закона Ципфа на текстах, написанных на русском и английском языках, а также на словаре частотности русского языка.
Навыки:
- Анализ данных с помощью библиотеки Pandas
- Преобразование независимых переменных для построения уравнения регрессии
- Линейная регрессия (библиотека Statsmodels)
- Определение пользовательских классов (Python)
- Работа с текстом, расчет частот.
В начало страницы
Кластеризация
Кластеризация стран по нескольким признакам
Учебный проект: оптимальное разбиение стран мира на группы по заданным признакам.
Навыки:
- Метод главных компонент
- Построение графиков Biplot
- Кластеризация по методу k средних
- Выбор оптимального числа кластеров.
В начало страницы
Python
Преобразование словарей
Программа написана для переводчиков, которые занимаются техническим переводом и составляют свои словари.
Навыки: программирование на Python.
В начало страницы