Информационные каскады, вирусный контент и «серьезные отношения»

Я редко имею дело с данными социальных сетей, но знаком со стандартными задачами, с которыми сталкиваются data scientists, работающие в этой области. Сюда относятся следующие вопросы: структура сетей, вирусный контент и динамика информационных каскадов.

На конференции Strata + Hadoop World, состоявшейся в прошлом году в Нью-Йорке, Джон Клейнберг (Jon Kleinberg), профессор Корнелльского университета и лауреат премии Неванлинны, представил аудитории ряд примеров из области анализа социальных сетей, затронув такие темы, как содержание фотографий и текста, которыми делятся пользователи, а также структуры сетей. Это было действительно выдающееся выступление одного из ведущих экспертов в области анализа сетей. Каждая из рассмотренных им проблем представляет интерес для специалистов в области маркетинга, а описанные методы анализа доступны многим data scientist’ам. Меня поразило то, что хотя эти темы легко описать, но чтобы правильно сформулировать задачу, требуется достаточно большой опыт работы с исходными данными.

Прогнозируем, увеличится ли размер информационного каскада вдвое

Можете ли вы предсказать, сколько раз люди поделятся фрагментом информации (например, фотографией) – всего лишь несколько раз или сотни раз (если не тысячи)? Большие каскады встречаются очень редко, поэтому прогнозирование итогового размера является сложной задачей. Вы либо приходите к неверному ответу (ведь большинством фрагментов информации пользователи делятся только один раз), либо создаете уравновешенное множество данных (balanced data set) (состоящее из равного числа больших и малых каскадов) и приходите к решению искусственной задачи.

Вместо этого, представляя социальную сеть, как транспортный слой для информации, Клейнберг и его коллеги решили проследить эволюцию каскадов. В процессе они сформулировали интересную уравновешенную алгоритмическую задачу прогнозирования: дан каскад размера k; необходимо предсказать, достигнет ли этот каскад размера 2k (оказывается, что 2k – это приблизительно медианный размер каскада, при условии, что он достигнет размера k).

Их результирующая прогнозная модель использовала многие признаки, такие как контент (был ли текст наложен на фотографию), корневой узел (степень вершины), временные факторы (время достижения размера k, ускорение) и многие другие. Не стало сюрпризом то, что временные признаки оказались наиболее эффективны для прогноза – каскады, очень быстро достигающие определенного размера, с большой вероятностью продолжают увеличиваться. Но команда также обнаружила избыточность признаков: модели, не использовавшие временные признаки, по-прежнему давали достаточно хорошие результаты.

Роль контента в каскадах. Характеристики «запоминающихся» фраз

Какова роль контента в формировании каскадов? В среде социальных сетей сложно изучать такие вопросы, поскольку трудно узнать, в результате чего контент стал вирусным (является ли причиной контент сам по себе, или играет роль другой фактор, например, человек, который им поделился). Неплохо было бы иметь лабораторию, где можно было бы создавать вирусный контент и сопоставлять его с «менее вирусным».

Проанализировав порядка 1 000 киносценариев, находящихся в свободном доступе, Клейнберг и его коллеги определили идеальные условия. Вирусные («запоминающиеся») фразы из сценариев сопоставлялись с фразами, которые не стали знаменитыми, но при этом были произнесены теми же персонажами примерно в те же моменты времени, что и вирусные фразы.

Существуют ли какие-либо свойства текста, позволяющие предсказать, будет он запоминаться или нет? Команда оценила запоминаемость фраз с помощью поисковых систем (Google/Bing) и IMDB. В качестве отправной точки можно создать простой классификатор на основе модели «мешок слов» (bad of words) (запоминающаяся/незапоминающаяся фраза), используя полученные вектора терминов. Команда также использовала такие признаки, как своеобразие текста (distinctiveness of text) (частоты юниграмм, биграмм и триграмм) и структура фразы относительно «частей речи» (part of speech).

Последние из перечисленных факторов (своеобразие и части речи) оказались существенными при прогнозировании запоминаемости текста. Клейнберг и его коллеги пришли к выводу, что запоминающиеся фразы обычно состоят из «… последовательностей необычных слов, объединенных на основе обычных синтаксических конструкций». Впоследствии они обнаружили, что некоторые результаты их исследований применимы к цепочкам комментариев в социальных сетях: цепочки имеют большую длину, если текст более своеобразный.

Выявление «серьезных отношений», основанное исключительно на структуре сети

Зная окружение человека в социальной сети, можем ли мы определить его наиболее значимые социальные связи? Естественной отправной точкой является использование такой метрики, как «встроенность» (embeddedness) ребра e (эта метрика определяется, как количество общих друзей для вершин ребра e). Логично думать, что если ребро обладает высокой встроенностью, то это, вероятно, означает наличие более сильной связи.

Ребро между вершинами V и W имеет встроенность, равную 4, потому что вершины имеют 4 общих друга.

Ребро между вершинами V и W имеет встроенность, равную 4, потому что вершины имеют 4 общих друга.

Основываясь только на структуре сети, можем ли мы определить другого человека, с которым пользователь V находится в «серьезных отношениях» (брак и т.п.)? Оказывается, используя одну только встроенность для ранжирования друзей, мы получим неудовлетворительные результаты. Встроенность позволяет найти узлы крупнейших скоплений в сетевом графе пользователя, и на практике часто это будут его коллеги.

Используя большую выборку пользователей Facebook, Ларс Бекстром (Lars Backstrom) и Джон Клейнберг исследовали другие метрики, основанные на активности, такие как количество фотографий, на которых отмечены пользователи V и W, а также количество просмотров профиля W пользователем V за последние 90 дней. Путем визуального анализа сетевых диаграмм в течение длительного периода времени, они обнаружили закономерность и соответствующую метрику, которую можно получить, используя только структуру сети. Дисперсия между двумя узлами – это мера расстояния между их общими друзьями, если бы ребро между этими узлами не существовало.

Бекстром и Клейнберг сформулировали следующую алгоритмическую задачу: (1) для каждого пользователя V ранжировать всех друзей W на основе конкурирующих метрик (встроенность, дисперсия, метрики на основе активности); (2) определить, для какой части пользователей наивысший по рангу друг является партнером в «серьезных отношениях». Дисперсия дала существенно лучшие результаты по всем категориям по сравнению со встроенностью. А для супружеских пар, дисперсия превзошла метрики на основе активности, описанные выше.

Доля пользователей, для которых наивысший по рангу друг является реальным партнером в «серьезных отношениях» («фотографии» (photo) = количество фотографий, на которых отмечены оба пользователя V и W; «просмотры профиля» (profile view) = количество просмотров профиля W пользователем V за последние 90 дней).

Доля пользователей, для которых наивысший по рангу друг является реальным партнером в «серьезных отношениях» («фотографии» (photo) = количество фотографий, на которых отмечены оба пользователя V и W; «просмотры профиля» (profile view) = количество просмотров профиля W пользователем V за последние 90 дней).

Первая строка в таблице иллюстрирует силу правильного алгоритма. При использовании надлежащей метрики (дисперсии), структурный анализ превосходит анализ на основе показателей активности при выявлении «серьезных отношений».

Три приведенных примера дают общее представление о многих интересных исследованиях. Их целью является понимание принципов взаимодействия информации, человеческой аудитории и данных. Мы будем рассматривать разработки в этой области в будущих статьях.

Автор: Бен Лорика

Перевод Станислава Петренко 

По материалам: O’Reilly Radar

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =