|
Специалист по работе с данными (data scientist)
Казаков Денис
|
|
e-mail: dvkazakov @ gmail.com (убрать пробелы с обеих сторон '@')
|
Тел./WhatsApp: +7-916-909-7864
|
Telegram: @denis_v_kazakov
|
GitHub
|
Skype: denis.v.kazakov
|
|
English
|
Навыки
- Python: Pandas, NumPy, Matplotlib, SciPy, StatsModels, Jupyter Lab и др.
- Машинное обучение:
- Большие языковые модели (LLM):
- Разработка запросов (prompt engineering).
- Дообучение (fine-tuning).
- Нейронные сети (PyTorch):
- Трансформеры.
- Использование при ограниченных ресурсах: квантизация, накопление градиентов (gradient accumulation) и т.п.
- Классические методы ML (библиотеки sklearn, xgboost):
- Регрессия: линейная, нелинейная, регуляризация (лассо, ridge).
- Классификация: логистическая регрессия, KNN, SVM.
- Кластеризация.
- Деревья: случайный лес, бустинг.
- Cross-validation.
- Подбор гиперпараметров (Optuna)
- Преобразование признаков (PCA, SVD).
- Ансамбли, конвейеры (pipelines).
- Распознавание и синтез речи (библиотеки NLTK, SpaCy):
- Обработка естественного языка (библиотеки NLTK, SpaCy):
- Машинный перевод.
- Оценка качества машинного перевода.
- Токенизация.
- Выявление имен собственных (NER).
- Статистика:
- Планирование экспериментов.
- Проверка гипотез.
- Оценка мощности критериев и требуемого размера выборки.
- Дисперсионный анализ.
- Повторные измерения.
- Bootstrap.
- Разведочный анализ данных (EDA)
- Docker
- Git
- SQL
Опыт работы
- Лингвист-исследователь в экспертном центре компании AWATERA
Одна из крупнейших переводческих компаний России, СНГ и Восточной Европы. Экспертный центр отвечает за проведение исследований, поиск и внедрение новых технологий, создание новых продуктов и решение нестандартных задач.
Мои результаты:
- Корпоративный сервис распознавания речи
- Написал бэкенд.
- Доступ через веб-интерфейс.
- Развертывание на сервере или локально.
- Сегментация по предложениям и времени.
- Поиск пропусков и галлюцинаций.
- Редактирование расшировки с помощью LLM.
- Выбор формата выдачи.
- Доставка результатов по электронной почте.
- Добавление функций по запросам пользователей.
- Контроль версий (Git), логирование и исправление ошибок.
- Написал документацию, провел обучение пользователей и других разработчиков.
- Классификатор текстов по тематикам
Компания ежедневно обрабатывает сотни заказов на перевод. Их необходимо распределять по подразделениям в зависимости от тематики: технический перевод, юридический, медицинский и т.п.
- Два уровня: первый (промышленность, медицина и т.д.) и второй (для медицины – фармакология, клинические исследования и т.п.). Свой классификатор для каждого языка.
- Архитектура – BERT.
- Обучение моделей с учетом ограничений по ресурсам (gradient accumulation и т.п.).
- Оценка качества работы в производстве.
- Создал пайплайн для обучения моделей, помог с освоением другим разработчикам.
- Эксперименты
- Обосновал необходимость использовать слепой метод.
- Написал скрипт для обезличивания данных и восстановления идентификаторов после оценки.
- Реализовал определение статистической значимости выявленных различий, в том числе при множественном сравнении, с помощью статистических критериев и численного моделирования (bootstrap).
- Оценивал необходимый объем выборки (мощность критерия) с помощью численного моделирования (bootstrap).
- Подготовил учебные материалы и провел обучение основам статистики и использованию скриптов.
- Работа с большими языковыми моделями (LLM): OpenAI GPT, Anthropic Claude и др.
- Изучение и сравнительный анализ различных LLM (Llama, SeamlessM4T, Mistral и другие).
- Использование LLM для перевода и редактирования текстов, оценки качества переводов, составления глоссариев.
- Разработка запросов к LLM (prompt engineering).
- Дообучение (fine-tuning).
- Информационный поиск
- Парсинг PDF.
- Поиск по корпоративной базе знаний.
- Генерация с использованием результатов поиска (RAG).
- Оценка качества машинного перевода
- Сравнительный анализ различных метрик качества (hLEPOR, COMET, BERTScore).
- Обучение LLM оценке качества переводов.
- Корпоративный сервис для генерации речи
- Доступ через веб-интерфейс.
- Написал бэкенд для прототипа.
- Устный машинный перевод
- Разработал прототип с клиент-серверной архитектурой.
- Организовал тестирование для проверки концепции.
- Прочие задачи по обработке естественного языка (NLP)
- Подбор токенизаторов под разные задачи (NLTK, SpaCy, tiktoken, BPE, WordPiece).
- Выявление имен собственных (NER). Сравнение алгоритмов.
- Работа со отраслевыми форматами данных (tmx, xliff): преобразование форматов, модификация файлов в этих форматах.
- Базы данных и аналитика. Розничный бизнес в том же холдинге.
- Инициировал создание базы данных по продажам и отгрузкам.
- Выбрал архитектуру.
- Обеспечивал загрузку данных.
- Регулярно делал аналитику для следующих задач:
- Приоритизация маркетинговых мероприятий
- Выявление позиций, отсутствующих в торговых точках (on-shelf availability).
- Публикации по машинному обучению на Хабре.
- Учебные проекты.
- До этого – переводчик.
Образование
Диплом о высшем образовании: физический факультет Московского государственного университета.
Профессиональная переподготовка по программе «Специалист по работе с данными. Data scientist». Школа-21 Сбер совместно с Томским государственным университетом.
Достижения:
- Закончил курс первым из 160 участников
- Студенты, обучающиеся быстрее других, делали разборы проектов для тех, кто учился медленнее. Из 16 проектов курса я делал разбор четырех
- Как один из лучших учащися принимал курсовые проекты других студентов (обычно принимает персонал)
Прочие курсы:
«Инженер данных» в Sapiens Academy (ELT/ETL, DWH, Greenplum, Airflow, Clickhouse, Superset).
Рекомендательные системы на практике. ВШЭ/Магнит.
Курс по uplift моделированию на портале Open Data Science.
Курсы Stepic. Все курсы завершил с отличием, войдя в категорию 1–6% лучших студентов. Сертификаты.
- Python: основы и применение;
- Программирование на Python;
- Анализ данных в R;
- Основы программирования на R;
- Основы статистики, части 1, 2, 3;
- Введение в Data Science и машинное обучение;
- Интерактивный тренажер по SQL;
- Введение в Linux.