Энциклопедия цифрового века: Визуализируя Википедию

С наступлением эры цифровых технологий, появлением Интернета и персональных компьютеров на смену Большой советской энциклопедии, которая была настольной книгой для многих из нас, пришла Википедия.

Онлайн справочник, открытый для свободного редактирования, официально был создан в 2001 году и набирал популярность стремительными темпами. На сегодняшний день Википедия насчитывает более 25 миллионов статей и является одним из самых посещаемых сайтов в мире.

Однако такое количество информации нуждается в анализе и обработке. Еще в 2003 году Мартин Воттенберг (Martin Wattenberg) и Фернанда Вегас  (Fernanda Viegas) из IBM начали собирать данные из онлайн энциклопедии с целью визуализировать сложные связи внутри ресурса.

History Flow: Визуализация историй редактирования

Википедия утроена так, что пользователь может посмотреть добавленные и удаленные слова, однако не имеет доступа к полной картине редакторских правок за все время существования статьи. Этот недостаток и натолкнул ученых на мысль о создании техники визуализации под названием history flow (исторический поток).

Шаг 1. На первом этапе перед исследователями стояла задача найти способ описания различий между разными вариантами текстов. Например, у нас есть два предложения:

  • Быстрый пятнистый леопард перепрыгнул через большую ограду.
  • Большой пятнистый леопард перепрыгнул через высокую ограду.

Почти все алгоритмы скажут, что слово «быстрый» было удалено, а слово «высокий» добавлено. А как насчет слова «большой»: было ли оно стерто, а затем вновь напечатано, или его просто скопировали с конца предложения и вставили в начало?

Шаг 2. Следующей задачей было кодирование позиций документов и нахождение соответствий между записями. Ученые решили изобразить различные версии статьи в виде вертикальных линий, длина которых соответствовала длине каждой отредактированной версии. Это решение и помогло определить дальнейшую стратегию визуализации истории редактирования.

Ниже представлена одна из первых версий визуализации history flow. В ней простые линии соединяют фрагменты текста, которые остались неизменными в ходе нескольких редакторских правок.

Визуализация Википедии

А вот history flow-диаграмма статьи об эволюции. Каждый цвет представляет правки, внесенные отдельно зарегистрированным автором. Белым и серым цветом отмечены правки, сделанные анонимными пользователями:

Википедия history flow

Хромограмма: Визуализация действий отдельного пользователя

В 2006 году, когда Википедия насчитывала уже десятки тысяч статей, все тех же ученых из IBM, заинтересовала возможность визуализации действий пользователей, которые давно зарегистрированы на сайте и проявляют на нем максимальную активность – вносят много редакторских правок в статьи на разные темы.

Прежде всего, такими людьми были модераторы. Для этого исследователям предстояло проанализировать огромные объемы данных, ведь один модератор мог вносить в статьи до 100 000 правок (!).

Так, ученые разработали схему цветов, где каждый отдельный цвет представлял первые буквы, с которых начиналась каждая отдельная статья.

Ниже – пример хромограммы, в которой представлены более  1000 правок, внесенных одним автором в статьи, которые начинаются с аббревиатуры USS (Unites States Ship):

Хромограмма википедия

А вот хромограмма статей о рождениях и смертях:

хромограмма википедия

Другие варианты визуализации Википедии

Тод Холлоуэй: «Борьба за власть» в Википедии.

визуализация википедии

Диаграмма показывает все 650 000 статей Википедии, которые существовали в то время. Аналогичные статьи сгруппированы. Желтые точки указывают на редакторские правки, крупные точки – на большое количество таких правок.

Ласло Козма: WikipediaVision.

Wikipedia vision

WikipediaVision – визуализация, позволяющая (почти) в режиме реального времени видеть правки в статьях и географическое местопожение пользователя, которые их вносит.

Крис Харрисон: Clusterball.

визуализация википедии

На рисунке представлены три уровня категорий страниц. Страницы, которые связаны с центральным узлом, находятся внутри шара, остальные – на внешнем кольце. Связи между страницами категорий имеют цветовую маркировку по глубине от родительского узла. Узлы сгруппированы таким образом, что длина кромки сведена к минимуму.

Заинтересовались темой визуализации? Подробнее читайте здесь:

Визуализация данных как система передачи сложных идей

Визуализация: от прошлого к будущему

Лариса Шурига, DataReview

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =