Мне всегда казалось, что у data scientist’ов за плечами – первые места в олимпиадах по алгебре, высшее математическое образование и годы опыта в программировании. Глядя на таких, создается впечатление, что попасть в Big Data простому смертному просто невозможно.
Станислав Семенов – яркий и едва ли не единственный пример в моей практике того, как можно, всего лишь имея желание, упорство и уверенность в своих силах, войти в мировой топ исследователей Big Data.
Поэтому, прежде чем задать ему несколько общих вопросов о современной индустрии больших данных, я расспросила о его истории.
Вкратце: в 2013 закончил МФТИ, по направлению «Прикладная математика и физика», в том же году начал обучение в Школе Анализа Данных (ШАД) Яндекса и Высшей Школе Экономики факультета компьютерных наук, закончил в 2015. Консультант по анализу данных, Входит в ТОП-3 лучших аналитиков мира по версии Kaggle.
— Меня удивило то, что у Вас знания отходят на второй план, на первом — опыт и практика. Обычно главная преграда для будущего специалиста по большим данным – именно специфические знания, причем они должны быть очень глобальными. Что Вы думаете на этот счет? Как быстро можно овладеть этими знаниями и какие знания действительно нужны?
— В целом, достаточно базовых знаний программирования и математики. Нужно просто взять и начать действовать. Брать конкретную задачу, которую хочется решить, и изучать примеры подобных решений, искать советы в интернете, книгах.
— То есть многочисленные формулы, высшую математику знать необязательно?
Высшая математика не так часто используется. Конечно, она тоже применяется, но в более специфических случаях. Чтобы решить задачу, часто достаточно понимать, какие есть методы, модели, как они устроены, и как работать с ними. Высшая математика желательна, но гораздо важнее – понимать, где и как лучше применить один метод, а где другой.
— Как Вам помогло первое образование, полученное в МФТИ, в анализе данных?
— Развивалось базовое техническое мышление, умение искать информацию для решения задач, находить что-то ценное и полезное из полученной информации.
— То есть весь багаж знаний Вы уже получили в Яндексе?
— Да, все, что связано с Data Science я получил, учась в Школе Анализа Данных Яндекса. В программу входил предмет «Машинное обучение», это как раз основной предмет. Мне он сразу понравился, я начал тщательно его изучать и буквально через 2-3 месяца после этого стал участвовать в соревнованиях на Kaggle.
— Вы сразу стали применять полученные знания или потребовалось дополнительно изучать область, например, на примерах (извиняюсь за тавтологию)?
— Да, я стал изучать примеры, искать информацию в интернете – методы, подходы… Конечно, мне в этом ШАД сильно помог, но это скорее было самообразование.
— Вы ведь не единственный выпускник ШАД, но почему-то только Вы добились такого выдающегося результата. А как же Ваши сокурсники? Что у них последовало после обучения?
— У всех судьба сложилась по-разному. Большинство после ШАДа идут работать в Яндекс на позиции разработчиков и исследователей, многие уезжают за границу – работать в Google, Microsoft и так далее. И в целом очень хорошо устраиваются! Кому-то достаточно работать спокойно в офисе положенные часы, я же обычно ставлю себе более глобальные и амбициозные цели.
— Каким был основной мотив заниматься анализом данных?
Мне понравилось все, что связано с машинным обучением, анализом данных, понравилось погружаться в задачи, находить много интересного внутри самих данных. В будущем я понял, что если правильно применять анализ данных при решении определенных задач, то на этом можно неплохо заработать, при чем не только на Kaggle.
— Да и всегда круто знать немного больше, чем остальные. Что нового сейчас в области Big Data и искусственного интеллекта? Какие темы, вопросы, направления стоят на повестке дня?
— Сегодня на повестке дня – любое проявление глубоких нейросетей в решении реальных задач. Вот недавно с помощью нейросетей машину научили играть в «Го».
— По-вашему, в какой из областей Big Data сегодня находит наибольшее применение?
— Я считаю, что это области, связанные с IT-технологиями, потому что там накапливается большое число данных. Да и в целом, IT занимаются наиболее продвинутые технологические компании, для которых не составляет большого труда внедрить Big Data, увидеть результаты.
— Стоит ли молодым специалистам строить карьеру в области Big Data? Будет ли расти спрос на таких специалистов?
— Почему бы и нет, если эта тема интересна? Что касается перспективы карьерного, зарплатного роста – я думаю, что в ближайшее время спрос будет вполне определенный. И если вдруг на отечественном рынке будут возникать сложности, то за рубежом всё равно активно ищут и будут искать подобных специалистов.
— Если говорить об отечественном рынке, прогнозируемый бум Big Data-технологий пока так и не случился. А случится ли?
— Не совсем верное понятие «бума» Big Data-технологий. Мне кажется, те компании, которые понимают, как их применять – они уже ими активно пользуются. Тот же самый Яндекс использует методы машинного обучения для построения выдачи запросов. Они этим пользуются, получают от этого выгоду.
Вообще, в этой гонке победят компании, которые поймут, как правильно использовать Big Data для решения своих задач. Сейчас некоторые компании нанимают сотрудников Data Science, дают им данные и просят сделать так, чтобы «все было хорошо». Но так сразу не получится. Нужно понимать, в каких сферах, услугах это может принести пользу бизнесу, а в каких – нет. Если компании понимают, что в конкретном случае решение будет связано с Big Data, и это принесет выгоду, то у таких компаний проблем не будет.
— Мне кажется, что у нас Data Science может иметь отклик только у крупных корпораций, способных вкладывать деньги в подобные эксперименты. Так как потребитель все еще не видит ценности в данных, для него их изучение является чем-то эфимерным, на чем нельзя строить стратегию. Поэтому мелкие и средние компании не вкладывают средства в аналитику. Как Вы думаете, насколько они правы?
— В таких компаниях также есть смысл использовать, но для этого руководство должно абсолютно чётко понимать что они могут добиться при использовании Big Data, иначе могут быть завышенные ожидания.
— Есть такое понятие – Business Intelligence. Мне кажется, это выход для компаний среднего уровня при решении конкретных задач.
BI относится к немного другой области, к области аналитики. С его помощью можно построить графики, отчеты по работе и процессам компании. Методы анализа данных нужны, в основном, для построения некой модели, которая бы предсказывала события, находила взаимосвязи. А инструменты Business Intelligence используются для того, чтобы правильно визуализировать и интерпретировать данные, которые собираются в компании, чтобы на их основе принимать те или иные стратегические решения. Понятное дело, что инструменты аналитики и BI востребованы в компаниях любого уровня.
— Кстати, как должен выглядеть Big Data-отдел в компании?
— По моему мнению, должен быть глава отдела который контролирует весь процесс, выполняет формулировку и постановку задач. Чтобы при общении с бизнес-заказчиками они могли бы совместно поставить правильную цель. Также в отделе должен быть человек, который может быстро и эффективно получить все необходимые данные из хранилищ, которые есть в компании. Ведь обычно эти данные, хранятся разрозненно, в разных форматах, в разных таблицах. И, конечно, сами Data Scientist’ы, которые бы строили необходимые модели. Обычно в компаниях это делает один человек – он выявляет бизнес-требования, он обращается с данными, он еще и строит модели. В принципе, если строить именно отдел, можно эти роли распределить.
— При каких условиях большие данные могут приносить реальную пользу бизнесу?
— Конечно, не только наличие большого количества данных и толковых специалистов в компании является достаточным условием. Если бы люди, которые принимают участие в управлении бизнесом хотя бы немного понимали, как устроена Big Data изнутри, всем было бы проще.
Estee Shlain, DataReview