Сфера: Информационные технологии
Средняя заработная плата от: 76000 руб.
Специалист по обработке данных (Data Scientist) — это специалист, который создаёт инструменты для решения задач бизнеса. Для этого он использует навыки анализа данных и построения моделей машинного обучения (англ. Machine Learning). Data Scientist работает на стыке трёх областей знания: статистики, машинного обучения и программирования.
Специалист по Data Science нужен практически в любой индустрии — от промышленности до стриминговых сервисов. Например, в ретейле Data Scientist анализирует данные о поведении покупателей в магазине → создаёт модель подбора оптимальной цены → средний чек увеличивается → профит, компания получает прибыль.
Суть работы специалиста по Data Science — использовать алгоритмы, которые уже придумали до него, и разбираться в том, какие из них и когда применять. Например, ИИ Netflix, который предлагает сериалы и фильмы на основании того, что люди лайкают и смотрят, — это тоже результат работы дата-сайентиста.
Задачи, которые решает Data Scientist, идут строго по порядку — начать новую не получится, пока не завершена предыдущая. Нельзя построить модель, пока не готовы данные.
Базовый список задач специалиста по обработке данных:
Этот список можно зацикливать и возвращаться на пункт сбора данных или обучения модели, если текущая не сработает.
Например, клиент хочет увеличить выручку от маркетинговых рассылок. Чтобы решить эту задачу, дата-сайентист сначала должен разобраться, какие показатели влияют на выручку.
Для этого он попросит у маркетологов данные по рассылкам, которые лежат в базе или в таблице Excel. Специалист по Data Science соберёт их вместе и сегментирует получателей рассылки на тех, кто принял предложение, и тех, кто не отреагировал.
Дальше специалист оценивает, достаточно ли данных для построения моделей, и если да, то пишет алгоритм, который отправит каждому подписчику подходящее только ему письмо.
После этого останется проверить рассылку на небольшом количестве пользователей и замерить её эффективность. Если она окажется выше, то можно радоваться успеху. А если нет, то придётся вернуться на этап сбора данных и повторить всю цепочку снова.
Чем специалист по обработке данных отличается от аналитика:
Чаще всего специалиста по обработке данных путают с аналитиком данных, потому что их задачи кажутся похожими на первый взгляд. Оба работают с большими массивами данных и отлично знают свои доменные области, то есть рынки и индустрии, но есть тонкости.
Задача аналитика — провести статистический анализ, чтобы ответить на вопросы или решить проблемы. Для этого он собирает данные, выявляет закономерности и формирует отчёты, которые помогают руководителям проекта или бизнеса принимать стратегические решения.
Специалист по обработке данных не только умеет анализировать и визуализировать данные, но и строить модели на их основе. Для этого требуются знания машинного обучения (англ. Machine Learning) и глубокого обучения (англ. Deep Learning), которыми аналитик не обладает.
Чем Data Scientist отличается от ML-инженера:
ML-инженер (англ. Machine Learning Engineer) продолжает работу специалиста по Data Science, если та показала хороший результат.
Специалист по обработке данных анализирует данные, строит модели и тестирует их. В обязанности ML-инженера входит автоматизировать работу моделей, следить, чтобы работали качественно, и устранять ошибки. Если точность модели упадёт, то инженер разберётся в причинах и переобучит алгоритм.
Технические навыки:
Надпрофессиональные навыки специалиста
Последние годы спрос на дата-сайентистов только растёт. Все крупные компании открывают отделы Data Science. Специалисты нужны и стартапам, и небольшим коллективам разработчиков.
Постоянно появляются новые задачи, которые можно решать с помощью специалиста по обработке данных. Современные модели машинного обучения помогают иначе решать задачи даже годичной давности — и зарабатывать больше.