Сегодня DataReview беседует с ведущим исследователем Digital Society Laboratory Александром Панченко на тему интеллектуального анализа текстов и его практического применения в бизнесе.
— Александр, Вы работаете в Digital Society Laboratory в Москве. Чем занимается компания и какую роль Вы в ней играете?
— На самом деле это небольшой стартап. Изначально идея состояла в том, чтобы открыть частную лабораторию, которая будет заниматься исследованием Интернета. Однако сейчас мы ушли в область анализа соцсетей и разработки некоего продукта для таргетирования рекламы.
Все наши технологии крутятся вокруг сбора данных из социальных сетей. К примеру, мы знаем что-то о человеке — его интересы, преференции. Это помогает нам более “умно” показывать рекламу.
Кроме соцсетей мы собираем данные и из других источников — сейчас коллаборируем с партнерами, которые больше работают с Интернетом: это RTB-технологии, поисковые запросы, истории посещения страниц и другие веб-данные.
Пока наша концепция заключается в создании некоторых кастомных, премиальных сегментов, а также сегментов пользователей, которые не присутствуют в социальных сетях. Например, вы хотите “открутить” рекламу на московских хипстеров или директоров и их окружение….
Вот, собственно, что касается профиля компании. А я занимаюсь, в частности, анализом текстов из социальных сетей. У нас есть небольшая команда data scientist’ов — мы строим разного рода модели для семантического анализа.
— Фактически это то, что называют text mining?
— Да, это можно назвать Text Mining-ом или Natural Language Processing-ом. Конкретно сейчас мы занимаемся тематической категоризацией. Это задача классификации. То есть несколько категорий, сегментов, которые могут привлечь рекламодателей: люди, заинтересованные в покупке недвижимости, автомобилей определенного класса, детских товаров и т.д. Мы ищем информацию в социальных сетях, которая бы указывала на подобного рода интерес. Показ рекламы такой аудитории будет более эффективен.
— А как оценивается эффективность?
— Существуют численные характеристики. Это и CTR, и СPC: сколько раз пользователь кликнул на рекламу, сколько раз он сделал какое-то действие (к примеру, зашел на сайт и позвонил). На самом деле весь этот семантический анализ в конечном итоге оценивается с точки зрения того, насколько он помог улучшить показатели, то есть метрика достаточно четкая.
— Какие конкретно тексты в социальных сетях Вы анализируете?
С точки зрения категоризации, есть тексты про Интернет, СМИ, недвижимость, искусство и т.д. Если человек каким-то образом связан с текстами определенной тематики, например, об английских автомобилях, вероятно, он заинтересован в покупке такого авто.
Что касается источников, это могут быть посты на стене, “расшаренные” тексты, группы и сообщества, в которых состоит пользователь. Допустим, если вы лайкаете группу в Facebook, она добавляется в ваши интересы: вам видны все ее обновления и модификации. А если к тому же вы активно участвуете в дискуссиях, это непосредственно указывает на вашу вовлеченность в данную тематику.
Сейчас соцсети отдают много информации. На этом действительно можно построить достаточно детальное профилирование. А Data Science здесь важен, потому что информация очень “шумная” — нужны хорошие алгоритмы и статистические методы, которые будут ее “просеивать” и находить песчинки золота.
— Какими алгоритмами Вы пользуетесь в работе?
— В моей презентации на AI Ukraine было достаточно точное описание технической стороны вопроса — некоторых подходов и алгоритмов, которые мы используем. В основном это классический стек машинного обучения: дискриминативные и линейные модели, машины опорных векторов, разновидности логистической регрессии, деревья решений и т.д. На самом деле мы используем достаточно простые модели, потому что более сложные не всегда хорошо работают с большими данными.
Важна не столько сложность алгоритма, сколько качество обучающей выборки.
На самом деле базовые модели могут показать отличный результат, если вы аккуратно подходите к вопросу сбора, подготовки, очистки, структурирования и балансировки данных.
— Сейчас Вы перечислили этапы работы с данными. Расскажите, как происходит процесс: каждый человек отвечает за отдельный этап или это командная игра?
— Разделение, конечно, существует. Я занимаюсь анализом данных, так как имею некий научный бэкграунд. Другие специалисты отвечают непосредственно за сбор данных. Информация помещается в распределенные БД, затем специалист по анализу может использовать такую платформу, чтобы сформировать обучающую выборку. То есть сбор данных от анализа отделен, хотя есть люди, которые занимаются и тем, и тем.
— Как инструменты используете в работе?
— Мы любим Linux, все серверы у нас на Ubuntu. Вообще компания использует технологии с открытым исходным кодом. С точки зрения языков программирования, для сбора данных — это Scala, для анализа — Python (scikit-learn, IPython и весь “питоновский” научный стек). Python приятен тем, что может все и при этом является языком общего назначения в отличие от R или Matlab.
Если касаться хранилищ данных, мы предпочитаем горизонтальные решения: это файловая система Amazon S3 для хранения сырых данных, ElasticSearch для обработки данных (кстати, хорошая замена MongoDB).
— Что ж, давайте перейдем к последней теме нашего разговора — конференции АИСТ, которую вы организовываете в апреле следующего года.
— АИСТ — научная конференция по Data Science. Наша главная цель — собрать людей, которые делают что-то новое в области анализа данных. Мы стремимся стать площадкой для специалистов, использующих современные походы к Machine Learning и Data Mining для того, чтобы строить какие-то интересные приложения по семантическому анализу текстов, изображений, эконометрических данных, социальных сетей.
В этом году мероприятие будет проводится уже четвертый раз. Мы стараемся построить его по образцу европейской конференции для того, чтобы люди, которые в дальнейшем хотят в своих исследованиях выйти на международный уровень, видели и знали эти стандарты.
Первая отличительная вещь — это рецензирование. Мы находим экспертов, которые пишут отзывы о работах. Труды, прошедшие конкурс (порядка 35%), попадают в сборник Springer (немецкое международное издательство, признанное лидером среди издательств научной литературы). В прошлом году мы отобрали порядка 30 работ из 80.
То есть с одной стороны, участники конференции — это аспиранты, исследователи, которые хотят опубликовать свою работу в хорошем научном сборнике, чтобы она была видима для научного сообщества; с другой стороны мы также являемся площадкой, куда могут прийти люди из бизнеса, из индустрии, чтобы узнать о событиях, происходящих в научном мире, перенять идеи и концепции.
— То есть конференция не лишена и определенной бизнес-составляющей?
— Безусловно. У нас даже есть бизнес-день, когда выступают докладчики из индустрии. Им не нужно проходить процедуру рецензирования. Также к нам приезжают инвестиционные фонды с анонсом программ по вкладам в стартапы. В этом смысле мы максимально содействуем общению между членами научного сообщества и представителями бизнес-кругов.
Еще один очень важный момент: мы в отличие от многих профильных конференций собираем людей из разных областей Data Science.
Лариса Шурига, DataReview