KDnuggets: Самые востребованные навыки в области Data Science в уходящем году

Наш анализ самых востребованных умений в области Data Science показывает, что это – командная работа, сконцентрированная на бизнес-аналитике, в рамках которой пять наиболее ценных навыков – SQL, Python, R, SAS и Hadoop.

Хотя по данным ресурса indeed.com,  пик популярности термина «data scientist» пришелся на 2013-й, в текущем году мы продолжали наблюдать устойчивый спрос на таких специалистов.

Job Trends

В 2014-м на доске объявлений KDnuggets компании разместили наибольшее за все время количество вакансий (на текущий момент около 245). Это дало нам возможность проанализировать самые востребованные навыки в области Data Science.

Около 85% организаций, искавших data scientist’ов,  находятся в США. Остальные 15% имеют офисы в  Канаде, Китае, Эстонии, Германии, Индии, Израиле, Люксембурге, Мальте, Португалии, Сербии, Сингапуре, Швейцарии, Нидерландах и Великобритании.

Около 33% вакантных должностей назывались непосредственно «Data scientist» (на 8% больше, нежели в 2013 году).

Вторая наиболее распространенная должность – «Engineer» с различными специализациями:  BI Engineer (инженер по бизнес-аналитике) Machine Learning Engineer (инженер по машинному обучению), Software Engineer (инженер по программному обеспечению) и другие.

Data Science skills

Далее мы определили самые востребованные навыки, проанализировав наиболее распространенные ключевые слова в описаниях вакансий.

Наиболее часто употребляемыми терминами стали:

— team (команда) – этот термин присутствовал в 88% объявлений;

— business (бизнес) – 73%;

— analytics (аналитика) – 64%;

— design (проектирование) – 63%;

— development (разработка) – 62%;

— statistics (статистика) – 61%;

— statistical (статистический) – 61%;

— research (исследования) – 61%;

— machine learning (машинное обучение) – 53%;

— data mining (интеллектуальный анализ данных) – 52%;

— modeling (моделирование) – 49%;

— solutions (решения) – 47%.

Это говорит о том, что работа data scientist’ов – коллективная деятельность, сконцентрированная на бизнес-аналитике, в рамках которой исследования, проектирование и разработка играют ключевые роли. Понятия Statistics (статистика), Machine Learning (машинное обучение) и Data Mining (интеллектуальный анализ данных) используются почти синонимично.

Проанализировав термины, соответствующие более специфическим навыкам/языкам, мы получили следующее:

— SQL – этот термин присутствовал в 54% объявлений;

— Python – 46%;

— R – 44%;

— SAS – 36%;

— Hadoop – 35%;

— Java – 32%;

— оптимизация (optimization) – 23%;

— C++ – 21%;

— визуализация (visualization) – 20%;

— MATLAB – 18%;

— бизнес-аналитика (BI или Business Intelligence) – 17%;

— распределенный (distributed) – 16%;

— регрессия (regression) – 16%;

— неструктурированный (unstructured) – 16%;

— Hive – 16%;

— мобильный (mobile) – 15%;

— NoSQL – 11%.

Карта, представленная ниже, демонстрирует распределение вакансий на территории США. Размер круга соответствует количеству вакансий, а цвет представляет логарифм отношения количества вакансий, требующих знания языка SAS (синий), к количеству вакансий, требующих знания языка R (красный).

Data Science skills in USA

На следующем рисунке показано распределение вакансий, требующих квалификации в одном из языков, SAS или R, для городов США.

Data Science skills in USA cities

Мы видим, что в Нью-Йорке, Сан-Диего, Рочестере, Портленде и Далласе более востребованы специалисты, владеющие языком SAS, в то время как в Сиэтле, Бостоне, Редмонде и Сан-Франциско более популярен язык R. В Чикаго, Купертино и Пало-Альто количество вакансий с предпочтением к тому или к другому языку примерно одинаковое.

Мы также проанализировали взаимосвязи между наиболее популярными языками/системами, рассчитав коэффициент «подъема» (lift), равный отношению фактического количества вакансий, требующих квалификации в паре технологий X и Y, к ожидаемому количеству вакансий, в том случае, если бы квалификации по каждой из технологий X и Y требовались независимо друг от друга.

Мы видим, что наиболее сильная взаимосвязь наблюдается между R и Python (1,61), однако также достаточно крепкие связи имеют R и SAS. Единственный негативный показатель соответствует паре SAS и Hadoop – маловероятно, что навыки в данных технологиях потребуются одновременно.

5

В заключение, мы проанализировали требования к образованию.

Почти во всех вакансиях требуется степень магистра (Master), а в 48% случаев необходима или предпочтительна степень PhD.

А какие навыки data scientist’а вы считаете наиболее востребованными?

Автор: Григорий Пятецкий

Перевод Станислава Петренко

По материалам: KDnuggets 

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =