Станислав Семенов: Кому-то достаточно просто работать в офисе… Я же ставлю себе более амбициозные цели

AAEAAQAAAAAAAAJCAAAAJGNmMTZjY2U2LTA2ZTAtNGE0Zi04MjY0LTc4YzFlOGUzNjRmYgМне всегда казалось, что у data scientist’ов за плечами – первые места в олимпиадах по алгебре, высшее математическое образование и годы опыта в программировании. Глядя на таких, создается впечатление, что попасть в Big Data простому смертному просто невозможно.

Станислав Семенов – яркий и едва ли не единственный пример в моей практике того, как можно, всего лишь имея желание, упорство и уверенность в своих силах, войти в мировой топ исследователей Big Data.

Поэтому, прежде чем задать ему несколько общих вопросов о современной индустрии больших данных, я расспросила о его истории.

Вкратце: в 2013 закончил МФТИ, по направлению «Прикладная математика и физика», в том же году начал обучение в Школе Анализа Данных (ШАД) Яндекса и Высшей Школе Экономики факультета компьютерных наук, закончил в 2015. Консультант по анализу данных, Входит в ТОП-3 лучших аналитиков мира по версии Kaggle.

— Меня удивило то, что у Вас знания отходят на второй план, на первом — опыт и практика. Обычно главная преграда для будущего специалиста по большим данным – именно специфические знания, причем они должны быть очень глобальными. Что Вы думаете на этот счет? Как быстро можно овладеть этими знаниями и какие знания действительно нужны?

В целом, достаточно базовых знаний программирования и математики. Нужно просто взять и начать действовать. Брать конкретную задачу, которую хочется решить, и изучать примеры подобных решений, искать советы в интернете, книгах.

То есть многочисленные формулы, высшую математику знать необязательно?

Высшая математика не так часто используется. Конечно, она тоже применяется, но в более специфических случаях. Чтобы решить задачу, часто достаточно понимать, какие есть методы, модели, как они устроены, и как работать с ними. Высшая математика желательна, но гораздо важнее – понимать, где и как лучше применить один метод, а где другой.

Как Вам помогло первое образование, полученное в МФТИ, в анализе данных?

— Развивалось базовое техническое мышление, умение искать информацию для решения задач, находить что-то ценное и полезное из полученной информации.

То есть весь багаж знаний Вы уже получили в Яндексе?

— Да, все, что связано с Data Science я получил, учась в Школе Анализа Данных Яндекса. В программу входил предмет «Машинное обучение», это как раз основной предмет. Мне он сразу понравился, я начал тщательно его изучать и буквально через 2-3 месяца после этого стал участвовать в соревнованиях на Kaggle.

Вы сразу стали применять полученные знания или потребовалось дополнительно изучать область, например, на примерах (извиняюсь за тавтологию)?

— Да, я стал изучать примеры, искать информацию в интернете – методы, подходы… Конечно, мне в этом ШАД сильно помог, но это скорее было самообразование.

— Вы ведь не единственный выпускник ШАД, но почему-то только Вы добились такого выдающегося результата. А как же Ваши сокурсники? Что у них последовало после обучения?

— У всех судьба сложилась по-разному. Большинство после ШАДа идут работать в Яндекс на позиции разработчиков и исследователей, многие уезжают за границу – работать в Google, Microsoft и так далее. И в целом очень хорошо устраиваются! Кому-то достаточно работать спокойно в офисе положенные часы, я же обычно ставлю себе более глобальные и амбициозные цели.

Каким был основной мотив заниматься анализом данных?

Мне понравилось все, что связано с машинным обучением, анализом данных, понравилось погружаться в задачи, находить много интересного внутри самих данных. В будущем я понял, что если правильно применять анализ данных при решении определенных задач, то на этом можно неплохо заработать, при чем не только на Kaggle.

Да и всегда круто знать немного больше, чем остальные. Что нового сейчас в области Big Data и искусственного интеллекта? Какие темы, вопросы, направления стоят на повестке дня?

— Сегодня на повестке дня – любое проявление глубоких нейросетей в решении реальных задач. Вот недавно с помощью нейросетей машину научили играть в «Го».

— По-вашему, в какой из областей Big Data сегодня находит наибольшее применение?

— Я считаю, что это области, связанные с IT-технологиями, потому что там накапливается большое число данных. Да и в целом, IT занимаются наиболее продвинутые технологические компании, для которых не составляет большого труда внедрить Big Data, увидеть результаты.

Стоит ли молодым специалистам строить карьеру в области Big Data? Будет ли расти спрос на таких специалистов?

— Почему бы и нет, если эта тема интересна? Что касается перспективы карьерного, зарплатного роста – я думаю, что в ближайшее время спрос будет вполне определенный. И если вдруг на отечественном рынке будут возникать сложности, то за рубежом всё равно активно ищут и будут искать подобных специалистов.

Если говорить об отечественном рынке, прогнозируемый бум Big Data-технологий пока так и не случился. А случится ли?

— Не совсем верное понятие «бума» Big Data-технологий. Мне кажется, те компании, которые понимают, как их применять – они уже ими активно пользуются. Тот же самый Яндекс использует методы машинного обучения для построения выдачи запросов. Они этим пользуются, получают от этого выгоду.

Вообще, в этой гонке победят компании, которые поймут, как правильно использовать Big Data для решения своих задач. Сейчас некоторые компании нанимают сотрудников Data Science, дают им данные и просят сделать так, чтобы «все было хорошо». Но так сразу не получится. Нужно понимать, в каких сферах, услугах это может принести пользу бизнесу, а в каких – нет. Если компании понимают, что в конкретном случае решение будет связано с Big Data, и это принесет выгоду, то у таких компаний проблем не будет.

— Мне кажется, что у нас Data Science может иметь отклик только у крупных корпораций, способных вкладывать деньги в подобные эксперименты. Так как потребитель все еще не видит ценности в данных, для него их изучение является чем-то эфимерным, на чем нельзя строить стратегию. Поэтому мелкие и средние компании не вкладывают средства в аналитику. Как Вы думаете, насколько они правы?

— В таких компаниях также есть смысл использовать, но для этого руководство должно абсолютно чётко понимать что они могут добиться при использовании Big Data, иначе могут быть завышенные ожидания.

Есть такое понятие – Business Intelligence. Мне кажется, это выход для компаний среднего уровня при решении конкретных задач.

BI относится к немного другой области, к области аналитики. С его помощью можно построить графики, отчеты по работе и процессам компании. Методы анализа данных нужны, в основном, для построения некой модели, которая бы предсказывала события, находила взаимосвязи. А инструменты Business Intelligence используются для того, чтобы правильно визуализировать и интерпретировать данные, которые собираются в компании, чтобы на их основе принимать те или иные стратегические решения. Понятное дело, что инструменты аналитики и BI востребованы в компаниях любого уровня.

— Кстати, как должен выглядеть Big Data-отдел в компании?

— По моему мнению, должен быть глава отдела который контролирует весь процесс, выполняет формулировку и постановку задач. Чтобы при общении с бизнес-заказчиками они могли бы совместно поставить правильную цель. Также в отделе должен быть человек, который может быстро и эффективно получить все необходимые данные из хранилищ, которые есть в компании. Ведь обычно эти данные, хранятся разрозненно, в разных форматах, в разных таблицах. И, конечно, сами Data Scientist’ы, которые бы строили необходимые модели. Обычно в компаниях это делает один человек – он выявляет бизнес-требования, он обращается с данными, он еще и строит модели. В принципе, если строить именно отдел, можно эти роли распределить.

При каких условиях большие данные могут приносить реальную пользу бизнесу?

— Конечно, не только наличие большого количества данных и толковых специалистов в компании является достаточным условием. Если бы люди, которые принимают участие в управлении бизнесом хотя бы немного понимали, как устроена Big Data изнутри, всем было бы проще.

Estee Shlain, DataReview

Автор публикации

не в сети 9 часов

DataReview

Комментарии: 16Публикации: 944Регистрация: 05-06-2014

Вам также может понравиться

2 комментария

  1. Алекс:

    Хорошее интервью.

  2. Vld:

    Видел интервью со Стасом на json, у меня кстати остались те же вопросы, которые в итоге здесь заданы! Круто, спасибо

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =
Авторизация
*
*

Login form protected by Login LockDown.


Регистрация
*
*
*
*
Генерация пароля