Александр Панченко: Data Science помогает нам найти полезный сигнал в зашумленных данных

Сегодня DataReview беседует с ведущим исследователем Digital Society Laboratory Александром Панченко на тему интеллектуального анализа текстов и его практического применения  в бизнесе.

— Александр, Вы работаете в Digital Society Laboratory в Москве. Чем занимается компания и какую роль Вы в ней играете?

— На самом деле это небольшой стартап. Изначально идея состояла в том, чтобы открыть частную лабораторию, которая будет заниматься исследованием Интернета. Однако сейчас мы ушли в область анализа соцсетей и разработки некоего продукта для таргетирования рекламы.

Все наши технологии крутятся вокруг сбора данных из социальных сетей. К примеру, мы знаем что-то о человеке — его интересы, преференции. Это помогает нам более “умно” показывать рекламу.

Кроме соцсетей мы собираем данные и из других источников — сейчас коллаборируем с партнерами, которые больше работают с Интернетом: это RTB-технологии, поисковые запросы, истории посещения страниц и другие веб-данные.

Пока наша концепция заключается в создании некоторых кастомных, премиальных сегментов, а также сегментов пользователей, которые не присутствуют в социальных сетях. Например, вы хотите “открутить” рекламу на московских хипстеров или директоров и их окружение….

Вот, собственно, что касается профиля компании. А я занимаюсь, в частности, анализом текстов из социальных сетей. У нас есть небольшая команда data scientist’ов — мы строим разного рода модели для семантического анализа.

— Фактически это то, что называют text mining?

— Да, это можно назвать Text Mining-ом или Natural Language Processing-ом. Конкретно сейчас мы занимаемся тематической категоризацией. Это задача классификации. То есть несколько категорий, сегментов, которые могут привлечь рекламодателей: люди, заинтересованные в покупке недвижимости, автомобилей определенного класса, детских товаров и т.д. Мы ищем информацию в социальных сетях, которая бы указывала на подобного рода интерес. Показ рекламы такой аудитории будет более эффективен.

— А как оценивается эффективность?

— Существуют численные характеристики. Это и CTR, и СPC: сколько раз пользователь кликнул на рекламу, сколько раз он сделал какое-то действие (к примеру, зашел на сайт и позвонил). На самом деле весь этот семантический анализ в конечном итоге оценивается с точки зрения того, насколько он помог улучшить показатели, то есть метрика достаточно четкая.

— Какие конкретно тексты в социальных сетях Вы анализируете?

С точки зрения категоризации, есть тексты про Интернет, СМИ, недвижимость, искусство и т.д. Если человек каким-то образом связан с текстами определенной тематики, например, об английских автомобилях, вероятно, он заинтересован в покупке такого авто.

Что касается источников, это могут быть посты на стене, “расшаренные” тексты, группы и сообщества, в которых состоит пользователь. Допустим, если вы лайкаете группу в Facebook, она добавляется в ваши интересы: вам видны все ее обновления и модификации. А если к тому же вы активно участвуете в дискуссиях, это непосредственно указывает на вашу вовлеченность в данную тематику.

Сейчас соцсети отдают много информации. На этом действительно можно построить достаточно детальное профилирование. А Data Science здесь важен, потому что информация очень “шумная” — нужны хорошие алгоритмы и статистические методы, которые будут ее “просеивать” и находить песчинки золота.

— Какими алгоритмами Вы пользуетесь в работе?

— В моей презентации на AI Ukraine было достаточно точное описание технической стороны вопроса — некоторых подходов и алгоритмов, которые мы используем. В основном это классический стек машинного обучения: дискриминативные и линейные модели, машины опорных векторов, разновидности логистической регрессии, деревья решений и т.д. На самом деле мы используем достаточно простые модели, потому что более сложные не всегда хорошо работают с большими данными.

Важна не столько сложность алгоритма, сколько качество обучающей выборки.

На самом деле базовые модели могут показать отличный результат, если вы аккуратно подходите к вопросу сбора, подготовки, очистки, структурирования и балансировки данных.

— Сейчас Вы перечислили этапы работы с данными. Расскажите, как происходит процесс: каждый человек отвечает за отдельный этап или это командная игра?

— Разделение, конечно, существует. Я занимаюсь анализом данных, так как имею некий научный бэкграунд. Другие специалисты отвечают непосредственно за сбор данных. Информация помещается в распределенные БД, затем специалист по анализу может использовать такую платформу, чтобы сформировать обучающую выборку. То есть сбор данных от анализа отделен, хотя есть люди, которые занимаются и тем, и тем.

— Как инструменты используете в работе?

— Мы любим Linux, все серверы у нас на Ubuntu. Вообще компания использует  технологии с открытым исходным кодом. С точки зрения языков программирования, для сбора данных — это Scala, для анализа — Python (scikit-learn, IPython  и весь “питоновский” научный стек). Python приятен тем, что может все и при этом является языком общего назначения в отличие от R или Matlab.

Если касаться хранилищ данных, мы предпочитаем горизонтальные решения: это файловая система Amazon S3 для хранения сырых данных, ElasticSearch для обработки данных (кстати, хорошая замена MongoDB).

— Что ж, давайте перейдем к последней теме нашего разговора — конференции АИСТ, которую вы организовываете в апреле следующего года.

АИСТ — научная конференция по Data Science. Наша главная цель — собрать людей, которые делают что-то новое в области анализа данных. Мы стремимся стать площадкой для специалистов, использующих современные походы к Machine Learning и Data Mining для того, чтобы строить какие-то интересные приложения по семантическому анализу текстов,  изображений, эконометрических данных, социальных сетей.

В этом году мероприятие будет проводится уже четвертый раз. Мы стараемся построить его по образцу европейской конференции для того, чтобы люди, которые в дальнейшем хотят в своих исследованиях выйти на международный уровень, видели и знали эти стандарты.

Первая отличительная вещь — это рецензирование. Мы находим экспертов, которые пишут отзывы о работах. Труды, прошедшие конкурс (порядка 35%), попадают в сборник Springer (немецкое международное издательство, признанное лидером среди издательств научной литературы). В прошлом году мы отобрали порядка 30 работ из 80.

То есть с одной стороны, участники конференции — это аспиранты, исследователи, которые хотят опубликовать свою работу в хорошем научном сборнике, чтобы она была видима для научного сообщества; с другой стороны мы также являемся площадкой, куда могут прийти люди из бизнеса, из индустрии, чтобы узнать о событиях, происходящих в научном мире, перенять идеи и концепции.

— То есть конференция не лишена и определенной бизнес-составляющей?

— Безусловно. У нас даже есть бизнес-день, когда выступают докладчики из индустрии. Им не нужно проходить процедуру рецензирования. Также к нам приезжают инвестиционные фонды с анонсом программ по вкладам в стартапы. В этом смысле мы максимально содействуем общению между членами научного сообщества и представителями бизнес-кругов.

Еще один очень важный момент: мы в отличие от многих профильных конференций собираем людей из разных областей Data Science.

Лариса Шурига, DataReview

 

Добавить комментарий

Ваш адрес email не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =