Александр Панченко: Data Science помогает нам найти полезный сигнал в зашумленных данных

Сегодня DataReview беседует с ведущим исследователем Digital Society Laboratory Александром Панченко на тему интеллектуального анализа текстов и его практического применения  в бизнесе.

— Александр, Вы работаете в Digital Society Laboratory в Москве. Чем занимается компания и какую роль Вы в ней играете?

— На самом деле это небольшой стартап. Изначально идея состояла в том, чтобы открыть частную лабораторию, которая будет заниматься исследованием Интернета. Однако сейчас мы ушли в область анализа соцсетей и разработки некоего продукта для таргетирования рекламы.

Все наши технологии крутятся вокруг сбора данных из социальных сетей. К примеру, мы знаем что-то о человеке — его интересы, преференции. Это помогает нам более “умно” показывать рекламу.

Кроме соцсетей мы собираем данные и из других источников — сейчас коллаборируем с партнерами, которые больше работают с Интернетом: это RTB-технологии, поисковые запросы, истории посещения страниц и другие веб-данные.

Пока наша концепция заключается в создании некоторых кастомных, премиальных сегментов, а также сегментов пользователей, которые не присутствуют в социальных сетях. Например, вы хотите “открутить” рекламу на московских хипстеров или директоров и их окружение….

Вот, собственно, что касается профиля компании. А я занимаюсь, в частности, анализом текстов из социальных сетей. У нас есть небольшая команда data scientist’ов — мы строим разного рода модели для семантического анализа.

— Фактически это то, что называют text mining?

— Да, это можно назвать Text Mining-ом или Natural Language Processing-ом. Конкретно сейчас мы занимаемся тематической категоризацией. Это задача классификации. То есть несколько категорий, сегментов, которые могут привлечь рекламодателей: люди, заинтересованные в покупке недвижимости, автомобилей определенного класса, детских товаров и т.д. Мы ищем информацию в социальных сетях, которая бы указывала на подобного рода интерес. Показ рекламы такой аудитории будет более эффективен.

— А как оценивается эффективность?

— Существуют численные характеристики. Это и CTR, и СPC: сколько раз пользователь кликнул на рекламу, сколько раз он сделал какое-то действие (к примеру, зашел на сайт и позвонил). На самом деле весь этот семантический анализ в конечном итоге оценивается с точки зрения того, насколько он помог улучшить показатели, то есть метрика достаточно четкая.

— Какие конкретно тексты в социальных сетях Вы анализируете?

С точки зрения категоризации, есть тексты про Интернет, СМИ, недвижимость, искусство и т.д. Если человек каким-то образом связан с текстами определенной тематики, например, об английских автомобилях, вероятно, он заинтересован в покупке такого авто.

Что касается источников, это могут быть посты на стене, “расшаренные” тексты, группы и сообщества, в которых состоит пользователь. Допустим, если вы лайкаете группу в Facebook, она добавляется в ваши интересы: вам видны все ее обновления и модификации. А если к тому же вы активно участвуете в дискуссиях, это непосредственно указывает на вашу вовлеченность в данную тематику.

Сейчас соцсети отдают много информации. На этом действительно можно построить достаточно детальное профилирование. А Data Science здесь важен, потому что информация очень “шумная” — нужны хорошие алгоритмы и статистические методы, которые будут ее “просеивать” и находить песчинки золота.

— Какими алгоритмами Вы пользуетесь в работе?

— В моей презентации на AI Ukraine было достаточно точное описание технической стороны вопроса — некоторых подходов и алгоритмов, которые мы используем. В основном это классический стек машинного обучения: дискриминативные и линейные модели, машины опорных векторов, разновидности логистической регрессии, деревья решений и т.д. На самом деле мы используем достаточно простые модели, потому что более сложные не всегда хорошо работают с большими данными.

Важна не столько сложность алгоритма, сколько качество обучающей выборки.

На самом деле базовые модели могут показать отличный результат, если вы аккуратно подходите к вопросу сбора, подготовки, очистки, структурирования и балансировки данных.

— Сейчас Вы перечислили этапы работы с данными. Расскажите, как происходит процесс: каждый человек отвечает за отдельный этап или это командная игра?

— Разделение, конечно, существует. Я занимаюсь анализом данных, так как имею некий научный бэкграунд. Другие специалисты отвечают непосредственно за сбор данных. Информация помещается в распределенные БД, затем специалист по анализу может использовать такую платформу, чтобы сформировать обучающую выборку. То есть сбор данных от анализа отделен, хотя есть люди, которые занимаются и тем, и тем.

— Как инструменты используете в работе?

— Мы любим Linux, все серверы у нас на Ubuntu. Вообще компания использует  технологии с открытым исходным кодом. С точки зрения языков программирования, для сбора данных — это Scala, для анализа — Python (scikit-learn, IPython  и весь “питоновский” научный стек). Python приятен тем, что может все и при этом является языком общего назначения в отличие от R или Matlab.

Если касаться хранилищ данных, мы предпочитаем горизонтальные решения: это файловая система Amazon S3 для хранения сырых данных, ElasticSearch для обработки данных (кстати, хорошая замена MongoDB).

— Что ж, давайте перейдем к последней теме нашего разговора — конференции АИСТ, которую вы организовываете в апреле следующего года.

АИСТ — научная конференция по Data Science. Наша главная цель — собрать людей, которые делают что-то новое в области анализа данных. Мы стремимся стать площадкой для специалистов, использующих современные походы к Machine Learning и Data Mining для того, чтобы строить какие-то интересные приложения по семантическому анализу текстов,  изображений, эконометрических данных, социальных сетей.

В этом году мероприятие будет проводится уже четвертый раз. Мы стараемся построить его по образцу европейской конференции для того, чтобы люди, которые в дальнейшем хотят в своих исследованиях выйти на международный уровень, видели и знали эти стандарты.

Первая отличительная вещь — это рецензирование. Мы находим экспертов, которые пишут отзывы о работах. Труды, прошедшие конкурс (порядка 35%), попадают в сборник Springer (немецкое международное издательство, признанное лидером среди издательств научной литературы). В прошлом году мы отобрали порядка 30 работ из 80.

То есть с одной стороны, участники конференции — это аспиранты, исследователи, которые хотят опубликовать свою работу в хорошем научном сборнике, чтобы она была видима для научного сообщества; с другой стороны мы также являемся площадкой, куда могут прийти люди из бизнеса, из индустрии, чтобы узнать о событиях, происходящих в научном мире, перенять идеи и концепции.

— То есть конференция не лишена и определенной бизнес-составляющей?

— Безусловно. У нас даже есть бизнес-день, когда выступают докладчики из индустрии. Им не нужно проходить процедуру рецензирования. Также к нам приезжают инвестиционные фонды с анонсом программ по вкладам в стартапы. В этом смысле мы максимально содействуем общению между членами научного сообщества и представителями бизнес-кругов.

Еще один очень важный момент: мы в отличие от многих профильных конференций собираем людей из разных областей Data Science.

Лариса Шурига, DataReview

 

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =