Дмитрий Игнатов: Big Data — всего-навсего кирпичик в здании анализа данных

Сегодня мы беседуем с доцентом факультета компьютерных наук Высшей школы экономики Дмитрием Игнатовым.

— Дмитрий, у Вас обширная сфера научных интересов. Над чем конкретно работаете сейчас?

— Сейчас я занимаюсь двумя-тремя темами. Одна из них — мультимодальная кластеризация. На самом деле, началось все с анализа формальных понятий и бикластеризации как расширения кластеризации.

Вторая тема — это рекомендательные системы. Не сказать, что она идет особняком от первой, они взаимосвязаны, так как методы бикластеризации помогают и в рекомендательных системах.

Есть разные рекомендательные системы — например, рекомендующие фильмы (я консультирую Имхонет). Помимо этого, я сотрудничал с ресурсом Host.fm, который занимается радиохостингом. В отличие от классического случая, когда пользователю необходимо рекомендовать отдельную композицию, пользователю Host.fm нужно рекомендовать радиостанцию. Задача усложняется тем, что, с одной стороны, меняется поведение пользователя, с другой — диджей на радиостанции может менять репертуар. Эти два меняющихся интереса надо учитывать. Мы придумали алгоритм, представили его на разных международных конференциях. Сервис был одним из первых и существует и по сей день.

Вообще, задача рекомендаций мне сама по себе интересна. Если перефразировать Яна Амоса Коменского “Учить всех всему”, то здесь, в машинном обучении, получается “Рекомендовать все всем”. Но у каждой задачи — свои данные, своя специфика, требующая оригинального метода. И я здесь скорее не инженер, а модельер: прихожу, смотрю на данные и говорю, какая модель будет полезнее. Но нужен еще и “портной”, который все это запрограммирует, и экспериментатор, который проведет эксперименты. Конечно, я тоже это делаю в какой-то мере, однако я больше сосредотачиваюсь на математическом моделировании, на поиске того, что подойдет конкретным данным.

Третья тема — это обучение людей анализу данных.

— То есть Ваша преподавательская деятельность?

— Да, и нельзя сказать, что она в отрыве от науки. Она входит в сферу научных интересов, то есть, как правильно преподавать машинное обучение, как людям объяснить основы, как включить творческую составляющую, когда человек, видя данные, начинает на уровне кубиков сопоставлять: это можно решить с помощью методов классификации, это — с помощью кластеризации. Одним словом, как активизировать мышление data scientist’а.

— По-моему, Вы стали лучшим преподавателем в 2011 году…

— Это по мнению студентов. Потом пришлось больше наукой заниматься, стало тяжело всех удовлетворять 🙂

Но не думаю, что рейтинг такой уж плохой, хотя и не столь блестящий. Да и потоки тогда были большие, бакалавров было много, а сейчас я в основном преподаю в магистратуре. Когда-то Machine Learning был большим потоковым курсом, а сейчас он разбит на отдельные модули по разным специализациям. Например, у нас на факультете компьютерных наук есть специализация по наукам о данных, и группы достаются небольшие, зато можно с людьми индивидуально работать.

Небольшие группы связаны с невысоким спросом на такие специальности?

— Не совсем. Дело в том, что у нас на факультете компьютерных наук так сложилось, что мы развивались последние годы, привлекалось много кафедр. Когда-то мы “Яндекс” привели в ВШЭ. Не я лично, конечно, мой научный руководитель — Сергей Олегович Кузнецов.  Тогда создавалась специализация анализа интернет-данных. А та специализация, которая существовала на тот момент, называлась просто “Математическое моделирование”. Сейчас также у нас есть специализация “Науки о данных”, специализация по сложным системам. Еще открывается направление по стохастике и оптимизации (информацию можно найти на сайте). То есть здесь, как на рынке: если есть какой-то популярный йогурт, чтобы сделать его еще более популярным и привлекательным, его разливают по разным баночкам и вешают другие ярлыки.

— К разговору о йогурте, разлитом по разным баночкам: сегодня существует масса модных понятий — KDD, Data Mining, Machine Learning… Новичку легко запутаться в терминологии. Как считаете, де-факто это одно и то же?

— По-хорошему, это все-таки разные вещи. Те люди, которые начинают заниматься наукой, конечно, сталкиваются с терминологией, и если их учат под одной вывеской, они часто остаются ей привержены.

Но люди, прошедшие путь с момента становления науки о данных в России, Советском Союзе, они-то помнят, как эти термины менялись. У нас есть профессор Борис Григорьевич Миркин, он начинал заниматься анализом данных еще в Академгородке в Новосибирске во времена СССР, а позже жил и работал в США, преподавал 10 лет в Лондоне. В советское время его часто не воспринимали как чистого математика или экономиста. Например, он брал экономические данные, кластеризовал их. Но математики считали, что здесь какая-то странная математика, а экономисты говорили: “Да, это интересно, но относится к инженерным наукам”. Так Борис Григорьевич пришел в технические науки, в своей диссертации он по сути говорил, что надо заниматься анализом данных, что одной статистики мало.

Он помнит как появилось такое понятие, как распознавание образов. Потом появилось машинное обучение или обучение машин. Здесь тоже много было советскими исследователями сделано.

Данные тогда были небольшие, как и вычислительные возможности. Даже психологи активно занимались этими проблемами: на небольших выборках пытались найти закономерности обучению понятиям.

Позже, с развитием ЭВМ, стало возможным появление больших баз данных, потребовались средства для их анализа. В конце 80-х в обиход вошел термин Data Mining как часть более крупного направления KDD (Knowledge Discovery in Databases — обнаружение знаний в базах данных). До этого под Data Mining понимали что-то вроде спекулятивных манипуляций с данными: как бы там в данных чего-то «нарыть», чтобы статистическую гипотезу сформулировать и проверить.

Можно найти фамилию человека, который этот термин предложил. Он предлагал и вариант Data Dredging (намывание данных), но в итоге редактор изменил его на Data Mining, чтобы как-то сгладить. Этим направлением начинали заниматься такие люди, как Григорий Пятецкий-Шапиро (у него до сих пор есть ресурс KDnuggets).

Таким образом, можно проследить историю, начиная с 50-60-х годов — как от распознавания образов через машинное обучение пришли к Data Mining.

Ни термин “распознавание образов”, ни “машинное обучение” никуда не пропали. Это разные пласты ученых, но все они примерно одним и тем же сейчас занимаются: обнаружением скрытых закономерностей в данных, обучением с помощью алгоритмов решения задач анализа данных, группировкой по сходству.

Если же взять пересечение методов Data Mining и машинного обучения, получится, что это все же разные методы. В Data Mining есть поиск частых товаров, последовательностей и ассоциативных правил, а в машинном обучении этого изначально не было.

— А как бы Вы перевели термин Data Mining?

— Сейчас я перевожу его как “майнинг данных”. Мы это обсуждали и с профессором Миркиным, и с Кузнецовым. Хотя изначально мы использовали термин “разработка данных”.

— По аналогии с разработкой горных пород?

— Да, потому что он передает тот смысл, что мы не данные добываем, не выцарапываем их откуда-то. Данные нам, скажем, уже кто-то дал, а мы в них пытаемся найти полезные закономерности, которые могли бы стать какими-то знаниями или гипотезами. Это как разработка горных пород с целью добыть полезные ископаемые.

— Но в итоге вы склонились к термину “майнинг”?

— Сейчас мы предпочитаем говорить “майнинг”, потому что слово “разработка” вызывает ассоциации с разработкой ПО. Инженеры и программисты могут поморщиться.

— А какую выгоду компании или организации получают от внедрения технологий Data Mining, и с какими трудностями могут при этом столкнуться?

— На самом деле, эти методы пытаются активно внедрять с начала 90-х. Трудности, конечно, более или менее понятны. Не очень понятно, какой конкретно компании какой метод может пригодиться. Данные у разных компаний могут быть очень разные. У кого-то это данные о технических системах, у кого-то — о поведении людей.

Мне, например, наиболее интересны данные о поведении людей. Где их сейчас можно получить?

— В социальных сетях?

— Да, например, в Интернете. То есть выгода возникает у компаний, когда они узнают больше о своих клиентах, о рынке, на котором собираются работать. Примером могут служить поисковые запросы. Например, имея статистику запросов Яндекса можно посмотреть, в каких районах Москвы какие лекарства пользователи ищут. Это могло бы стать полезной информацией для владельцев сети аптек. Компания, владеющая такой сетью, даже если у нее есть свой сайт, максимум могла бы узнать, как часто люди заходят на страницу того или иного товара.

Проблемы и трудности заключаются в том, что сначала нужно понять, стоит ли вообще анализировать ваши данные, есть ли в них заведомо то, что вам поможет. Если у вас этих данных действительно много, и они потенциально полезны, тогда стоит понять, какие методы необходимо применить. В небольших организациях штатного специалиста по анализу данных может и не быть, поэтому нужно обратиться в правильную компанию.

Если же для вас такой анализ провели, возникает вопрос, нужен ли он на постоянной основе, желаете ли вы сделать это частью своего бизнеса. Если да, то нужно создавать единицу в штате, которая будет этим заниматься, внедрить конкретные технологии. Это тоже задача непростая.

Непростая задача и интерпретация данных. Можно найти тривиальные факты, а можно — странные, которые, на первый взгляд, не поддаются объяснению. Так было с пивом и памперсами, которые, как оказалось, часто покупают вместе.

Еще один момент, когда говорят про большие данные. Здесь не надо спешить за модными технологиями. Если данных не так много (не терабайты, а мегабайты) можно справиться своими мощностями? открытыми системами и библиотеками для анализа данных. Таких много: например, Weka, Orange, Scikit-learn.

— Вы упомянули о больших данных. Недавно читала отчет Oracle под заголовком “В Россию пришли большие данные”. Как считаете, так и есть?

— В России существуют несколько факторов, влияющих на приход таких технологий. С одной стороны, мы наблюдаем массовое сворачивание на различных рынках. С другой — компании, даже если их обороты снижались, стремятся вложиться в анализ того, что же происходит на рынке. Тем, кто занимается продажей товаров через интернет и не только, интересно узнать, какие точки стоит закрыть, где поменять ассортимент.

Те, кто и до этого использовал анализ данных, ищут более совершенные алгоритмы — корреляции временных рядов им уже не дают приемлемых прогнозов. И здесь мы сталкиваемся с вопросом применимости.

Тем не менее, слово Big Data по-прежнему очень привлекательно. Там, где я сейчас преподаю (Big Data Acceleration Program) люди заинтересовались этим потому, что у них есть бизнес, или они работают в каких-то компаниях и хотят применять эти технологии на практике. При этом у многих из них нет даже общего представления о современном положении дел в Data Mining и машинном обучении. Для нас — людей, которые этим занимаются, Big Data — это всего-навсего технологический кирпичик во всем здании анализа данных. Он будет меняться, а подходы, скажем, к распараллеливанию алгоритмов, сильно не изменятся. Если вы хотите обработать большой массив данных, вам нужно что-то из них выбирать, эти выборки раздавать разным процессам, потом как-то собирать результаты. Технология MapReduce не много новизны продемонстрировала с точки зрения математики. То есть придумать алгоритм, который работает хорошо параллельно, математик может. А вот технологиями должны, по-хорошему, заниматься не только математики, но и программисты, инженеры.

Поэтому, если людям действительно нужно анализировать терабайты и петабайты данных, тогда им необходимо знать технологии. А вот тем, кто был привлечен этим словом просто потому, что оно из области анализа данных, скорее нужно машинное обучение и Data Mining.

В последнее время частные и государственные компании демонстрируют большой интерес к этой теме. Но на деле то, что им действительно нужно на начальном этапе, это скорее не Big Data, а нормальная постановка задач и поиск способов их обработки “малой кровью”.

Лариса Шурига, DataReview

 

Добавить комментарий

Ваш адрес email не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =