Так же, как существует несколько категорий специалистов в области статистики (специалисты по биологической статистике, общей статистике, эконометрике, исследованию операций, страховой математике) или в области бизнес-аналитики (аналитики, специализирующиеся на маркетинге, продукции, финансах и т.д.), можно говорить о различных категориях data scientists’ов, у которых:
- Сильная сторона – статистика. Иногда они разрабатывают новые статистические теории для больших данных, о которых обычные специалисты по статистике даже не знают. Они являются экспертами в области, охватывающей следующие дисциплины: статистическое моделирование, планирование экспериментов, семплирование, кластеризация, предобработка данных, вычисление доверительных интервалов, тестирование, моделирование, прогнозное моделирование и другие.
- Сильная сторона – математика. Специалисты, работающие с большими данными в АНБ (Агентство национальной безопасности) или в оборонных компаниях, астрономы, специалисты в области исследования операций, занимающиеся аналитической оптимизацией бизнеса (управление запасами и прогнозирование, оптимизация ценообразования, цепь поставок, контроль качества, повышение доходности) путем сбора, анализа данных и извлечения из них полезной информации.
- Сильные стороны – обработка данных, Hadoop, оптимизация и архитектура баз данных, памяти, файловых систем, API (прикладные интерфейсы программирования), аналитика, как услуга (Analytics as a Service); оптимизация потоков данных, инфраструктура данных.
- Сильные стороны – машинное обучение и информатика (алгоритмы, вычислительная сложность).
- Сильные стороны – бизнес; оптимизация доходности инвестиций (ROI); теория принятия решений; участие в решении некоторых задач, традиционно входящих в обязанности бизнес-аналитиков в более крупных компаниях (проектирование панелей индикаторов (dashboard), выбор метрик, высокоуровневое проектирование баз данных).
- Сильная сторона – разработка программного обеспечения (знают несколько языков программирования).
- Сильная сторона – визуализация.
- Сильные стороны: геоинформационные системы, пространственные данные, моделирование данных с помощью графов, графовые базы данных (graph database).
- Сильные стороны: несколько дисциплин из перечисленных выше. После 20-ти лет работы во многих отраслях, в больших и малых компаниях (а также благодаря серьезному обучению), я одинаково силен в статистике, машинном обучении, бизнесе, математике и более чем хорошо знаком с визуализацией и обработкой данных. Со временем, набравшись опыта, вы можете приобрести такую же квалификацию. Я говорю об этом, потому что многие люди до сих пор думают, что невозможно приобрести глубокие знания в нескольких различных областях (ограниченное мышление). Именно это и является причиной возникновения data science.
Большинство из них имеет хорошую подготовку или является экспертами в области больших данных.
Существуют и иные варианты деления data scientists’ов на категории. Согласно другому подходу, можно выделить две категории data scientists’ов: креативные и обычные.
«Креативные» специалисты имеют более широкие перспективы, в то время как функции «обычных» специалистов могут быть переданы на аутсорсинг (все, что опубликовано в учебниках или в Интернете, может быть автоматизировано или реализовано, как аутсорсинг; гарантия занятости основывается на том, как много вы знаете того, что не знают или не могут быстро изучить другие).
Подобным образом могут быть выделены: пользователи науки (те, кто использует науку, т.е. практики, обычно не имеющие степени PhD), новаторы (те, кто создает новую науку, т.е. исследователи) и гибриды. Большинство data scientist’ов, как геологи, помогающие предсказывать землетрясения, или химики, разрабатывающие новые молекулы для фармацевтической индустрии, являются учеными и относятся к категории пользователей.
По материалам: Data Science Central
Перевод Станислава Петренко