Специалист по обработке данных

Сфера: Информационные технологии

Средняя заработная плата от: 68000 руб.

Специалист по обработке данных (Data Scientist) — это специалист, который создаёт инструменты для решения задач бизнеса. Для этого он использует навыки анализа данных и построения моделей машинного обучения (англ. Machine Learning). Data Scientist работает на стыке трёх областей знания: статистики, машинного обучения и программирования.

Специалист по Data Science нужен практически в любой индустрии — от промышленности до стриминговых сервисов. Например, в ретейле Data Scientist анализирует данные о поведении покупателей в магазине → создаёт модель подбора оптимальной цены → средний чек увеличивается → профит, компания получает прибыль.

Суть работы специалиста по Data Science — использовать алгоритмы, которые уже придумали до него, и разбираться в том, какие из них и когда применять. Например, ИИ Netflix, который предлагает сериалы и фильмы на основании того, что люди лайкают и смотрят, — это тоже результат работы дата-сайентиста.

Задачи, которые решает Data Scientist, идут строго по порядку — начать новую не получится, пока не завершена предыдущая. Нельзя построить модель, пока не готовы данные.

Базовый список задач специалиста по обработке данных:

  • Прояснить требования к бизнес-задаче и перевести её в математическую плоскость.
  • Подготовить данные для решения задачи: разобраться, откуда их взять, и как обработать, чтобы они стали доступны для работы.
  • Проанализировать и структурировать данные.
  • Построить модель машинного обучения, которая будет решать задачу.
  • Проверить правильность работы модели: внедрить на наборе пользователей или провести A/B-тестирование.

Этот список можно зацикливать и возвращаться на пункт сбора данных или обучения модели, если текущая не сработает.

Например, клиент хочет увеличить выручку от маркетинговых рассылок. Чтобы решить эту задачу, дата-сайентист сначала должен разобраться, какие показатели влияют на выручку.

Для этого он попросит у маркетологов данные по рассылкам, которые лежат в базе или в таблице Excel. Специалист по Data Science соберёт их вместе и сегментирует получателей рассылки на тех, кто принял предложение, и тех, кто не отреагировал.

Дальше специалист оценивает, достаточно ли данных для построения моделей, и если да, то пишет алгоритм, который отправит каждому подписчику подходящее только ему письмо.

После этого останется проверить рассылку на небольшом количестве пользователей и замерить её эффективность. Если она окажется выше, то можно радоваться успеху. А если нет, то придётся вернуться на этап сбора данных и повторить всю цепочку снова.

Чем специалист по обработке данных отличается от аналитика:

Чаще всего специалиста по обработке данных путают с аналитиком данных, потому что их задачи кажутся похожими на первый взгляд. Оба работают с большими массивами данных и отлично знают свои доменные области, то есть рынки и индустрии, но есть тонкости.

Задача аналитика — провести статистический анализ, чтобы ответить на вопросы или решить проблемы. Для этого он собирает данные, выявляет закономерности и формирует отчёты, которые помогают руководителям проекта или бизнеса принимать стратегические решения.

Специалист по обработке данных не только умеет анализировать и визуализировать данные, но и строить модели на их основе. Для этого требуются знания машинного обучения (англ. Machine Learning) и глубокого обучения (англ. Deep Learning), которыми аналитик не обладает.

Чем Data Scientist отличается от ML-инженера:

ML-инженер (англ. Machine Learning Engineer) продолжает работу специалиста по Data Science, если та показала хороший результат.

Специалист по обработке данных анализирует данные, строит модели и тестирует их. В обязанности ML-инженера входит автоматизировать работу моделей, следить, чтобы работали качественно, и устранять ошибки. Если точность модели упадёт, то инженер разберётся в причинах и переобучит алгоритм.

Технические навыки:

  • Программирование на Python, SQL.
  • Математика, статистика, машинное обучение.
  • Работа с базами данных.
  • Владение инструментами обработки больших данных: Apache Spark и Hadoop Mapreduce.
  • Продуктивизация моделей.
  • Английский уровня Advanced Proficiency для чтения технической литературы.
  • Понимание специфики бизнеса и доменной области.

Надпрофессиональные навыки специалиста

  • Коммуникация с коллегами.
  • Презентация результатов своей работы.

Последние годы спрос на дата-сайентистов только растёт. Все крупные компании открывают отделы Data Science. Специалисты нужны и стартапам, и небольшим коллективам разработчиков.

Постоянно появляются новые задачи, которые можно решать с помощью специалиста по обработке данных. Современные модели машинного обучения помогают иначе решать задачи даже годичной давности — и зарабатывать больше.

Учебные заведения