Data Scientist

Специалист по работе с данными (data scientist)
Казаков Денис

	e-mail: dvkazakov @ gmail.com (убрать пробелы с обеих сторон '@')	Тел./WhatsApp: +7-916-909-7864	Telegram: @denis_v_kazakov
GitHub	Skype: denis.v.kazakov		English

Опыт работы

Лингвист-исследователь в экспертном центре компании AWATERA (июнь 2023 г. – настоящее время)

Экспертный центр отвечает за проведение исследований, поисх и внедрение новых технологий и решение нестандартных задач. Мои задачи включали следующее:

Работа с большими языковыми моделями (LLM): OpenAI GPT и аналогами.

Использование LLM для перевода и редактирования текстов, оценки качества переводов, составления глоссариев.
Разработка запросов к LLM (prompt engineering).
Дообучение (fine-tuning).
Изучение и сравнительный анализ различных LLM (LangChain, Llama, SeamlessM4T, Mistral и другие).
Распознавание текста (OCR).

Дообучение моделей на основе трансформеров (BERT, RoBERTa).

Оценка качества машинного перевода. Сравнительный анализ различных метрик (hLEPOR, COMET).

Обработка естественного языка:

Токенизация. Подбор токенизаторов под разные задачи (NLTK, SpaCy, tiktoken, BPE, WordPiece).
Выявление имен собственных (NER). Сравнение алгоритмов.
Морфологический анализ.

Статистика:

Планирование экспериментов.
Подготовка данных для "слепого" тестирования.
Оценка необходимого объема выборки (мощность критерия) с помощью численного моделирования (bootstrap).
Определение статистической значимости выявленных различий (средних значений, коэффициентов корреляции, показателей качества перевода и др.) с помощью статистических критериев и численного моделирования (bootstrap).

Распознавание речи.

Работа со отраслевыми форматами данных (tmx, xliff): преобразование форматов, модификация файлов в этих форматах.

Публикации по машинному обучению на Хабре.

Учебные проекты.

До этого – переводчик.

Навыки

Python: Pandas, NumPy, Matplotlib, SciPy, StatsModels, Jupyter Notebooks, Jupyter Lab и др.

Машинное обучение:

Большие языковые модели (LLM):

Разработка запросов (prompt engineering).
Дообучение (fine-tuning).

Нейронные сети (PyTorch):

Рекуррентные (GRU, LSTM).
Трансформеры.
Beam search.

Классические методы ML (библиотеки sklearn, xgboost):

Регрессия: линейная, нелинейная, регуляризация (лассо, ridge).
Классификация: логистическая регрессия, KNN, SVM.
Кластеризация.
Деревья: случайный лес, бустинг.

Cross-validation, bootstrap.
Алгоритмы оптимизации (Optuna)
Преобразование признаков (PCA, SVD).
Ансамбли, конвейеры (pipelines).

Обработка естественного языка (библиотеки NLTK, SpaCy):

Машинный перевод.
Оценка качества машинного перевода.
Токенизация.
Выявление имен собственных (NER).
Морфологический анализ.

Статистика:

Проверка гипотез.
Дисперсионный анализ.
Повторные измерения.

Git
SQL

Образование

Диплом о высшем образовании: физический факультет Московского государственного университета.

2022 г. Профессиональная переподготовка по программе «Специалист по работе с данными. Data scientist». Школа-21 Сбер совместно с Томским государственным университетом.

Достижения:

Закончил курс первым из 160 участников

Студенты, обучающиеся быстрее других, делали разборы проектов для тех, кто учился медленнее. Из 16 проектов курса я делал разбор четырех

Как один из лучших учащися принимал курсовые проекты других студентов (обычно принимает персонал)

Прочие курсы:

Апрель – май 2023 г. «Инженер данных» в Sapiens Academy (ELT/ETL, DWH, Greenplum, Airflow, Clickhouse, Superset).

Май 2023 г. Рекомендательные системы на практике. ВШЭ/Магнит.

Декабрь 2022 г. Курс по uplift моделированию на портале Open Data Science.

2021–2022 г. Курсы Stepic. Все курсы завершил с отличием, войдя в категорию 1–6% лучших студентов. Сертификаты.

Python: основы и применение;
Программирование на Python;
Анализ данных в R;
Основы программирования на R;
Основы статистики, части 1, 2, 3;
Введение в Data Science и машинное обучение;
Интерактивный тренажер по SQL;
Введение в Linux.