С каждым годом все больше отечественных компаний внедряют передовые аналитические технологии. Спрос на профильных специалистов — так называемых data scientist’ов по-прежнему превышает предложение. Но вряд ли “кадровый голод” продлится долго: сегодня множество компаний предлагают онлайн-курсы и практические интенсивы для новичков.
Однако стать настоящим асом в Data Science все же не так просто. Какими знаниями и навыками должен обладать квалифицированный специалист? На что в первую очередь стоит обратить внимание, осваивая одну из самых высокооплачиваемых профессий в мире?
Чтобы выяснить это мы обратились к ведущим экспертам области. Какие знания им больше всего пригодились в работе? Чему они учат новичков в первую очередь? Эти и другие вопросы мы адресовали “ветеранам” Data Science.
Ответы респондентов и собственный опыт помогли нам составить целостное представление о самых полезных знаниях в DS.
Научный сотрудник отдела Нейротехнологий ИПММС НАНУ Артем Чернодуб:
Если говорить о знаниях из университетского курса, то самым полезным в Data Science лично для меня, как бы это на первый взгляд странно ни звучало, был курс лабораторных работ по физике. В МФТИ, который я закончил, очень хорошая практическая лаборатория, всего порядка 60-ти работ по физике за первые три курса обучения. В каждой из них нужно было поставить какой-нибудь физический опыт, пронаблюдать свойства и зависимости, запротоколировать результаты и обработать их. По сути это похоже на задачи из пула Data Science, подобным конструированию эмпирических моделей для обучения и прогнозирования. Также, конечно, в Data Science никуда без знания основ теории вероятности и линейной алгебры, плюс необходимы навыки программирования.
В первую очередь я учу новичков искать и читать на английском научные статьи из мест, которым можно доверять – топовых научных конференций и журналов. Самое важное для новичка – чтобы ему привили правильное чувство вкуса с самого начала. В качестве же курса «молодого бойца» предлагаю для начала курс по машинному обучению стенфордовского университета от Andrew Ng. По итогам его прохождения сразу становится понятно, получится ли работать дальше с человеком или нет.
Дмитрий Бабаев, эксперт по наукам о данных в МТС:
Больше всего пригодились умения правильно формировать обучающие выборки для алгоритмов ML, так как иначе получается garbage in — garbage out. Еще крайне полезно уметь оценивать качество получаемых моделей чтобы корректно сравнивать результаты различных методик.
Новичков учу в первую очередь всегда проверять свои гипотезы, больше доверять данным чем своим предположениям.
О машинном обучении, как ключевом навыке для data scientist’а упомянул и Сергей Шельпук, преподаватель курса Machine Learning в LITS:
Пожалуй, больше всего пригодилось знание алгоритмов машинного обучения и навыки работы с требованиями на уровне бизнеса.
Разговор о важности взаимодействия между бизнесом и ИТ поддержал и руководитель направления Cloud&Enterprise в Microsoft Валентин Елисеев:
Прежде всего, нужно научится говорить с бизнесом на понятном ему языке. Это очень непростая задача…
Своим мнением насчет самых важных навыков для data scientist’а также поделился Александр Петров, R&D директор российской компании DCA (Data-Centric Alliance):
Для аналитика или исследователя важнее умение сделать все на коленке, собрать концепт и быстро запустить его. Важна ответственность, умение слушать и очень важно всегда учиться, следовать за технологиями – они меняются очень быстро и нужно за ними поспевать…И конечно же важно уметь хорошо “гуглить” и находить ответы на свой вопросы – как говорится, когда junior специалист не знает чего-то, он идет и задает вопрос старшим, если senior специалист чего-то не знает, он пойдет и быстро раскопает все сам.
Работа над этой статьей оказалось очень полезным и интересным опытом для команды DataReview. Подводя итоги, мы постарались систематизировать всю информацию и условно разделили ключевые знания в Data Science на две категории: технические и нетехнические.
Также мы решили добавить несколько важных навыков и soft skills, руководствуясь личным опытом. Вот, что у нас вышло:
Самые полезные технические навыки и знания в Data Science:
- Машинное обучение: знание алгоритмов, умение правильно формировать выборки и оценивать качество моделей.
- Кодирование: обязательное знание языков Phyton/R (преимуществом будет также умение работать с Java, Perl или C/C++.)
- Hadoop. Этот инструмент является основополагающим в области анализа больших объемов данных и по-прежнему играет ключевую роль на рынке Data Science.
- SQL. Несмотря на ажиотаж вокруг NoSQL, умение создавать, модифицировать и управлять данными в реляционных БД при помощи языка структурированных запросов — один из важнейших навыков для data scientist’а.
- Неструктурированные данные. Специалист в области Data Science должен уметь “копаться” и извлекать ценную информацию из огромных массивов неструктурированных данных, которые сегодня составляют 90% всей генерируемой человечеством информации.
Самые полезные нетехнические навыки и знания в Data Science:
- Оперативность, смекалка и интеллект. Способность быстро находить ответы на сложные вопросы, общая эрудированность.
- Бизнес-ориентированность. Даже если вы гениальный “айтишник” и обладаете всеми вышеперечисленными техническими навыками, но не умеете переводить бизнес-запросы на язык технологий, вряд ли ваша карьера окажется успешной.
- Коммуникабельность. Data scientist’ы не единственные люди в компании — чтобы эффективно выстроить аналитический процесс, необходимо постоянное взаимодействие между всеми участниками проекта (учредитель → руководитель → бизнес-аналитик → data scientist).
Наверняка, у вас есть что добавить к этой статье. Оставляйте комментарии — нам будет интересно узнать, какие навыки прежде всего пригодились вам в работе, чему вы учите новичков и какие знания в целом считаете самыми важными в Data Science.