|
Специалист по работе с данными (data scientist)
Казаков Денис
|
|
e-mail: dvkazakov @ gmail.com (убрать пробелы с обеих сторон '@')
|
Тел./WhatsApp: +7-916-909-7864
|
Telegram: @denis_v_kazakov
|
GitHub
|
Skype: denis.v.kazakov
|
|
English
|
Опыт работы
- Лингвист-исследователь в экспертном центре компании AWATERA (июнь 2023 г. – настоящее время)
Экспертный центр отвечает за проведение исследований, поисх и внедрение новых технологий и решение нестандартных задач. Мои задачи включали следующее:
- Работа с большими языковыми моделями (LLM): OpenAI GPT и аналогами.
- Использование LLM для перевода и редактирования текстов, оценки качества переводов, составления глоссариев.
- Разработка запросов к LLM (prompt engineering).
- Дообучение (fine-tuning).
- Изучение и сравнительный анализ различных LLM (LangChain, Llama, SeamlessM4T, Mistral и другие).
- Распознавание текста (OCR).
- Дообучение моделей на основе трансформеров (BERT, RoBERTa).
- Оценка качества машинного перевода. Сравнительный анализ различных метрик (hLEPOR, COMET).
- Обработка естественного языка:
- Токенизация. Подбор токенизаторов под разные задачи (NLTK, SpaCy, tiktoken, BPE, WordPiece).
- Выявление имен собственных (NER). Сравнение алгоритмов.
- Морфологический анализ.
- Статистика:
- Планирование экспериментов.
- Подготовка данных для "слепого" тестирования.
- Оценка необходимого объема выборки (мощность критерия) с помощью численного моделирования (bootstrap).
- Определение статистической значимости выявленных различий (средних значений, коэффициентов корреляции, показателей качества перевода и др.) с помощью статистических критериев и численного моделирования (bootstrap).
- Распознавание речи.
- Работа со отраслевыми форматами данных (tmx, xliff): преобразование форматов, модификация файлов в этих форматах.
- Публикации по машинному обучению на Хабре.
- Учебные проекты.
- До этого – переводчик.
Навыки
- Python: Pandas, NumPy, Matplotlib, SciPy, StatsModels, Jupyter Notebooks, Jupyter Lab и др.
- Машинное обучение:
- Большие языковые модели (LLM):
- Разработка запросов (prompt engineering).
- Дообучение (fine-tuning).
- Нейронные сети (PyTorch):
- Рекуррентные (GRU, LSTM).
- Трансформеры.
- Beam search.
- Классические методы ML (библиотеки sklearn, xgboost):
- Регрессия: линейная, нелинейная, регуляризация (лассо, ridge).
- Классификация: логистическая регрессия, KNN, SVM.
- Кластеризация.
- Деревья: случайный лес, бустинг.
- Cross-validation, bootstrap.
- Алгоритмы оптимизации (Optuna)
- Преобразование признаков (PCA, SVD).
- Ансамбли, конвейеры (pipelines).
- Обработка естественного языка (библиотеки NLTK, SpaCy):
- Машинный перевод.
- Оценка качества машинного перевода.
- Токенизация.
- Выявление имен собственных (NER).
- Морфологический анализ.
- Статистика:
- Проверка гипотез.
- Дисперсионный анализ.
- Повторные измерения.
- Git
- SQL
Образование
Диплом о высшем образовании: физический факультет Московского государственного университета.
2022 г. Профессиональная переподготовка по программе «Специалист по работе с данными. Data scientist». Школа-21 Сбер совместно с Томским государственным университетом.
Достижения:
- Закончил курс первым из 160 участников
- Студенты, обучающиеся быстрее других, делали разборы проектов для тех, кто учился медленнее. Из 16 проектов курса я делал разбор четырех
- Как один из лучших учащися принимал курсовые проекты других студентов (обычно принимает персонал)
Прочие курсы:
Апрель – май 2023 г. «Инженер данных» в Sapiens Academy (ELT/ETL, DWH, Greenplum, Airflow, Clickhouse, Superset).
Май 2023 г. Рекомендательные системы на практике. ВШЭ/Магнит.
Декабрь 2022 г. Курс по uplift моделированию на портале Open Data Science.
2021–2022 г. Курсы Stepic. Все курсы завершил с отличием, войдя в категорию 1–6% лучших студентов. Сертификаты.
- Python: основы и применение;
- Программирование на Python;
- Анализ данных в R;
- Основы программирования на R;
- Основы статистики, части 1, 2, 3;
- Введение в Data Science и машинное обучение;
- Интерактивный тренажер по SQL;
- Введение в Linux.