Data Scientist vs Data Engineer

Не так давно в мире всерьез заговорили о профессии Data Scientist как об отдельной величине, равноудаленной от бизнес-аналитика (Business Analyst) и технического специалиста (Data Engineer). Хотя это-то как раз и не вполне очевидно: пусть Data Science как отдельное направление нужно и важно, но имеет ли одноименная профессия под собой хоть какое-то обоснование, или это очередной новомодный термин? Давайте разбираться.

Data Scientist’у – быть!

Под таким девизом, кажется, живет весь просвещенный big data-мир. Ну а как иначе, если даже журнал Forbes на соседних страницах с бизнесменами, меценатами и прочими сильными мира сего публикует список «семи крутейших Data Scientist’ов»?

Однако это не отвечает на животрепещущий вопрос: чем, концептуально отличается «ученый» от «технического специалиста» aka Data Engineer? Слово нашему эксперту – Александру Кондуфорову, директору направления Data Science в Altex Soft:

С моей точки зрения, Data Scientist и Data Engineer — это разные позиции, имеющие разные цели и задачи. Соответственно этим задачам, отличаются и необходимые навыки и знания. Data Engineer в основном занимается вопросами оптимального и надежного хранения и преобразования данных, а также обеспечения быстрого и удобного к ним доступа. Data Scientist же почти не заморачивается этими вопросами, его главная задача — уметь проанализировать данные, извлечь из них важную информацию и инсайты, построить и провалидировать модели и выдать на-гора либо какие-то полезные отчеты и выводы, либо готовые приложения, позволяющие решать те или иные предиктивные задачи.

А конкретно?

С целями и задачами разобрались, но, согласитесь, хочется больше конкретики. Вот, например, есть две основополагающие технологии работы с данными, с которыми (хотя бы шапочно) знаком каждый интересующийся – и с каждой из которых в большинстве случаев работают разные специалисты. Это – ETL (Extract/Transform/Load – извлечение/преобразование/загрузка), с которой имеет дело Data Engineer, архитектор БД или ее администратор, и DAD (Discover/Access/Distill – обнаружение/доступ/извлечение), которой занимается как раз Data Scientist.

С такой постановкой вопроса ответ становится еще более прозрачным: для технического специалиста важна скорее форма данных, а также их быстрое и безопасное перемещение из источника (к примеру, КХД, за которым Data Engineer тоже послеживает и, если что, модернизирует или исправляет «косяки») в пункт назначения (где данные извлекаются и претерпевают некие манипуляции, за технической стороной которых тоже следит Data Engineer).

Data Scientist же больше интересуется содержанием, и, хотя он должен понимать особенности потоков данных и их оптимизации (к примеру, если он работает с Hadoop), сами по себе потоки данных его не волнуют – в отличие от шага переработки данных, когда из них выделяются значения, с которыми Data Scientist’у и предстоит работать.

На пересечении

Понятно, что в реальности дела часто обстоят так, что специалистам приходится не просто тесно сотрудничать, но и выполнять задачи друг друга: так, технический специалист иногда сталкивается с DAD, а Data Scientist, наоборот, разбирается с ETL. Правда, случается это достаточно редко, и обычно служит внутренним нуждам – Data Engineer может заняться статистическим анализом в целях оптимизации процессов внутри базы данных, а Data Scientist’у может потребоваться создать мини-БД для хранения и быстрого доступа к какой-то обобщенной информации.

Александр Кондуфоров:

Конечно, некоторые задачи и навыки Data Engineer и Data Scientist пересекаются (например, в области доступа к данным или программирования), но это скорее исключение из правил, — соглашается наш эксперт. – В целом можно сказать, что работа Data Engineer более инженерная, а работа Data Scientist — аналитическая.

Тут-то самое время вспомнить про третьего важного специалиста, который работает с данными – бизнес-аналитика, который уж точно выполняет «скорее аналитическую» работу. Как вы уже догадываетесь, отличия будут и здесь (и мы как-то их уже касались), но об этом – в следующем материале, в котором мы подробно обсудим концептуальные и прочие особенности Data Scientist в сравнении с Business Analyst.

Автор: Елизавета Филиппова 

 

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =