Станислав Семенов: Кому-то достаточно просто работать в офисе… Я же ставлю себе более амбициозные цели

AAEAAQAAAAAAAAJCAAAAJGNmMTZjY2U2LTA2ZTAtNGE0Zi04MjY0LTc4YzFlOGUzNjRmYgМне всегда казалось, что у data scientist’ов за плечами – первые места в олимпиадах по алгебре, высшее математическое образование и годы опыта в программировании. Глядя на таких, создается впечатление, что попасть в Big Data простому смертному просто невозможно.

Станислав Семенов – яркий и едва ли не единственный пример в моей практике того, как можно, всего лишь имея желание, упорство и уверенность в своих силах, войти в мировой топ исследователей Big Data.

Поэтому, прежде чем задать ему несколько общих вопросов о современной индустрии больших данных, я расспросила о его истории.

Вкратце: в 2013 закончил МФТИ, по направлению «Прикладная математика и физика», в том же году начал обучение в Школе Анализа Данных (ШАД) Яндекса и Высшей Школе Экономики факультета компьютерных наук, закончил в 2015. Консультант по анализу данных, Входит в ТОП-3 лучших аналитиков мира по версии Kaggle.

— Меня удивило то, что у Вас знания отходят на второй план, на первом — опыт и практика. Обычно главная преграда для будущего специалиста по большим данным – именно специфические знания, причем они должны быть очень глобальными. Что Вы думаете на этот счет? Как быстро можно овладеть этими знаниями и какие знания действительно нужны?

В целом, достаточно базовых знаний программирования и математики. Нужно просто взять и начать действовать. Брать конкретную задачу, которую хочется решить, и изучать примеры подобных решений, искать советы в интернете, книгах.

То есть многочисленные формулы, высшую математику знать необязательно?

Высшая математика не так часто используется. Конечно, она тоже применяется, но в более специфических случаях. Чтобы решить задачу, часто достаточно понимать, какие есть методы, модели, как они устроены, и как работать с ними. Высшая математика желательна, но гораздо важнее – понимать, где и как лучше применить один метод, а где другой.

Как Вам помогло первое образование, полученное в МФТИ, в анализе данных?

— Развивалось базовое техническое мышление, умение искать информацию для решения задач, находить что-то ценное и полезное из полученной информации.

То есть весь багаж знаний Вы уже получили в Яндексе?

— Да, все, что связано с Data Science я получил, учась в Школе Анализа Данных Яндекса. В программу входил предмет «Машинное обучение», это как раз основной предмет. Мне он сразу понравился, я начал тщательно его изучать и буквально через 2-3 месяца после этого стал участвовать в соревнованиях на Kaggle.

Вы сразу стали применять полученные знания или потребовалось дополнительно изучать область, например, на примерах (извиняюсь за тавтологию)?

— Да, я стал изучать примеры, искать информацию в интернете – методы, подходы… Конечно, мне в этом ШАД сильно помог, но это скорее было самообразование.

— Вы ведь не единственный выпускник ШАД, но почему-то только Вы добились такого выдающегося результата. А как же Ваши сокурсники? Что у них последовало после обучения?

— У всех судьба сложилась по-разному. Большинство после ШАДа идут работать в Яндекс на позиции разработчиков и исследователей, многие уезжают за границу – работать в Google, Microsoft и так далее. И в целом очень хорошо устраиваются! Кому-то достаточно работать спокойно в офисе положенные часы, я же обычно ставлю себе более глобальные и амбициозные цели.

Каким был основной мотив заниматься анализом данных?

Мне понравилось все, что связано с машинным обучением, анализом данных, понравилось погружаться в задачи, находить много интересного внутри самих данных. В будущем я понял, что если правильно применять анализ данных при решении определенных задач, то на этом можно неплохо заработать, при чем не только на Kaggle.

Да и всегда круто знать немного больше, чем остальные. Что нового сейчас в области Big Data и искусственного интеллекта? Какие темы, вопросы, направления стоят на повестке дня?

— Сегодня на повестке дня – любое проявление глубоких нейросетей в решении реальных задач. Вот недавно с помощью нейросетей машину научили играть в «Го».

— По-вашему, в какой из областей Big Data сегодня находит наибольшее применение?

— Я считаю, что это области, связанные с IT-технологиями, потому что там накапливается большое число данных. Да и в целом, IT занимаются наиболее продвинутые технологические компании, для которых не составляет большого труда внедрить Big Data, увидеть результаты.

Стоит ли молодым специалистам строить карьеру в области Big Data? Будет ли расти спрос на таких специалистов?

— Почему бы и нет, если эта тема интересна? Что касается перспективы карьерного, зарплатного роста – я думаю, что в ближайшее время спрос будет вполне определенный. И если вдруг на отечественном рынке будут возникать сложности, то за рубежом всё равно активно ищут и будут искать подобных специалистов.

Если говорить об отечественном рынке, прогнозируемый бум Big Data-технологий пока так и не случился. А случится ли?

— Не совсем верное понятие «бума» Big Data-технологий. Мне кажется, те компании, которые понимают, как их применять – они уже ими активно пользуются. Тот же самый Яндекс использует методы машинного обучения для построения выдачи запросов. Они этим пользуются, получают от этого выгоду.

Вообще, в этой гонке победят компании, которые поймут, как правильно использовать Big Data для решения своих задач. Сейчас некоторые компании нанимают сотрудников Data Science, дают им данные и просят сделать так, чтобы «все было хорошо». Но так сразу не получится. Нужно понимать, в каких сферах, услугах это может принести пользу бизнесу, а в каких – нет. Если компании понимают, что в конкретном случае решение будет связано с Big Data, и это принесет выгоду, то у таких компаний проблем не будет.

— Мне кажется, что у нас Data Science может иметь отклик только у крупных корпораций, способных вкладывать деньги в подобные эксперименты. Так как потребитель все еще не видит ценности в данных, для него их изучение является чем-то эфимерным, на чем нельзя строить стратегию. Поэтому мелкие и средние компании не вкладывают средства в аналитику. Как Вы думаете, насколько они правы?

— В таких компаниях также есть смысл использовать, но для этого руководство должно абсолютно чётко понимать что они могут добиться при использовании Big Data, иначе могут быть завышенные ожидания.

Есть такое понятие – Business Intelligence. Мне кажется, это выход для компаний среднего уровня при решении конкретных задач.

BI относится к немного другой области, к области аналитики. С его помощью можно построить графики, отчеты по работе и процессам компании. Методы анализа данных нужны, в основном, для построения некой модели, которая бы предсказывала события, находила взаимосвязи. А инструменты Business Intelligence используются для того, чтобы правильно визуализировать и интерпретировать данные, которые собираются в компании, чтобы на их основе принимать те или иные стратегические решения. Понятное дело, что инструменты аналитики и BI востребованы в компаниях любого уровня.

— Кстати, как должен выглядеть Big Data-отдел в компании?

— По моему мнению, должен быть глава отдела который контролирует весь процесс, выполняет формулировку и постановку задач. Чтобы при общении с бизнес-заказчиками они могли бы совместно поставить правильную цель. Также в отделе должен быть человек, который может быстро и эффективно получить все необходимые данные из хранилищ, которые есть в компании. Ведь обычно эти данные, хранятся разрозненно, в разных форматах, в разных таблицах. И, конечно, сами Data Scientist’ы, которые бы строили необходимые модели. Обычно в компаниях это делает один человек – он выявляет бизнес-требования, он обращается с данными, он еще и строит модели. В принципе, если строить именно отдел, можно эти роли распределить.

При каких условиях большие данные могут приносить реальную пользу бизнесу?

— Конечно, не только наличие большого количества данных и толковых специалистов в компании является достаточным условием. Если бы люди, которые принимают участие в управлении бизнесом хотя бы немного понимали, как устроена Big Data изнутри, всем было бы проще.

Estee Shlain, DataReview

Добавить комментарий

Ваш адрес email не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =