Анна Ледникова: Не стесняйтесь быть чертовски любознательными

Как стать Data Science-специалистом? Какие задачи и сложности нужно преодолеть для достижения успеха? Об этом и многом другом мы беседуем с главой аналитического департамента DataRoot Анной Ледниковой.

— Анна, Вы заведуете отделом аналитики. Расскажите о своем образовании, карьере, как Вы пришли к этой должности?

— По образованию я системный аналитик, окончила ИПСА в КПИ. Как и большинство моих одногруппников в свое время не сидела на месте и проходила дополнительные курсы, искала стажировку или работу. Наиболее активно взялась за это дело в середине третьего курса, когда самое сложное было уже позади, и именно тогда мне попалось объявление о наборе на стажировку в DataRoot. Тогда о компании я ничего не знала, R&D отдел только формировался, рабочие материалы увлекали, хотя из-за учебы иногда не успевала с заданным темпом. В итоге моих успехов оказалось достаточно, т.к. летом мне предложили работу, а по завершению двух долгосрочных зарубежных проектов — текущую должность. К этому времени в команде появились новые ребята и штат расширился до 10 человек.

— Расскажите подробнее о деятельности DataRoot.

— Мы — технологическая консалтинговая компания, специализирующаяся на Big Data- решениях для бизнеса, в т.ч. на разработке высоконагруженных аналитических систем и всего, что связано с жизненным циклом данных.

Кроме того, мы проводим стажировки для студентов по направлениям Scala и Data Science.

— В чем заключаются непосредственно Ваши задачи и задачи Вашего отдела?

— Мои задачи условно можно поделить на управленческие и технические. Первые включают в себя ведение проектов и стажировки по соответствующему направлению, вторые — разработку аналитических решений для текущих проектов. Собственно, последнее распространяется на весь отдел.

— Какими инструментами Вы пользуетесь при анализе данных? И что это за данные?

— Сначала в ходу был лишь «джентльменский набор»: Pandas, Sklearn, Keras. Первые проекты были направлены преимущественно на проверку гипотез, построение простых моделей, так что в большем и не было необходимости. Сейчас количество серьезных проектов, где требуется построение систем машинного обучения для работы большими данными, увеличилось, поэтому в ход идут собственные наработки и Apache Spark. Последние полгода мы активно занимаемся разработкой когнитивных продуктов с помощью IBM Watson. Проекты, как и данные, у нас были в самых разных областях: недвижимость, медицина, реклама, SEO, окулография, лингвистика, финансы и др.

— С какими сложностями Вы сталкиваетесь в работе? Как находите решения?

— Как правило сложности возникают с обработкой данных и/или их объемом. Первый случай наиболее частый и “болезненный”, ведь чаще всего компании начинают собирать информацию ради того, чтобы собирать, а не преследуя определенную цель. Тут помогает более детальный анализ данных, чистка, предобработка и выведение новых характеристик на основе замеченных закономерностей. Во втором случае — оптимизация алгоритмов или изменение общей архитектуры.

Также есть сложность другого рода — правильно оценить время, необходимое на проект. Ведь иногда не подтверждаются наиболее реалистичные гипотезы, или новая предметная область может иметь свои подводные камни. Поэтому студентам на последнем этапе стажировки мы даем достаточно большой промежуток времени на выполнение: так, у кандидата есть возможность пройтись по тернистым дорожкам, ничего при этом не теряя. Потом ребята, как правило, продолжают работать в этой сфере или понимают, на какую бы хотели сменить. Таким образом мы формируем общество более узких специалистов с опытом реального проекта и проблем, которые могут во время него возникнуть.

— Расскажите реальный кейс из Вашей практики, связанный с Machine Learning или AI.

— Первый относительно сложный проект был связан с анализом путей пользователей. Особенно интересной была первая часть: изучение данных и формирование новых характеристик. Сессии веб-пользователей представлялись в виде дерева, а не линейной последовательности событий, что позволило использовать его характеристики для выявления более эмоциональных, чем просто информационных особенностей. В результате адаптации алгоритма обработки данных под Spark и обучение простой модели удалось получить кластера, описывающие характер пользователя: как быстро/глубоко он изучает информацию, насколько серьезно подходит к выбору, каким критериям отдает предпочтение. Сейчас это тестируется как часть lead matching системы.

— Дайте 3-4 совета людям, которые хотели бы стать Data Science — специалистами.

— Во-первых, позитивно мыслить, потому что, пожалуй, именно такое состояние больше способствует находкам и творчеству. Во-вторых, не бояться трудностей и не стесняться быть чертовски любознательным. Если есть задача — она должна быть решена. Если возникают трудности, значит, будет интересно, если не получается, то возможно просто не обратили внимание на альтернативное развитие событий. В третьих, понимать предназначение результатов вашего труда, что как минимум поможет понять заказчика и, возможно, выбрать наиболее оптимальный путь.

Автор публикации

не в сети 22 часа

DataReview

Комментарии: 16Публикации: 944Регистрация: 05-06-2014

Вам также может понравиться

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =
Авторизация
*
*

Login form protected by Login LockDown.


Регистрация
*
*
*
*
Генерация пароля