С наступлением эры цифровых технологий, появлением Интернета и персональных компьютеров на смену Большой советской энциклопедии, которая была настольной книгой для многих из нас, пришла Википедия.
Онлайн справочник, открытый для свободного редактирования, официально был создан в 2001 году и набирал популярность стремительными темпами. На сегодняшний день Википедия насчитывает более 25 миллионов статей и является одним из самых посещаемых сайтов в мире.
Однако такое количество информации нуждается в анализе и обработке. Еще в 2003 году Мартин Воттенберг (Martin Wattenberg) и Фернанда Вегас (Fernanda Viegas) из IBM начали собирать данные из онлайн энциклопедии с целью визуализировать сложные связи внутри ресурса.
History Flow: Визуализация историй редактирования
Википедия утроена так, что пользователь может посмотреть добавленные и удаленные слова, однако не имеет доступа к полной картине редакторских правок за все время существования статьи. Этот недостаток и натолкнул ученых на мысль о создании техники визуализации под названием history flow (исторический поток).
Шаг 1. На первом этапе перед исследователями стояла задача найти способ описания различий между разными вариантами текстов. Например, у нас есть два предложения:
- Быстрый пятнистый леопард перепрыгнул через большую ограду.
- Большой пятнистый леопард перепрыгнул через высокую ограду.
Почти все алгоритмы скажут, что слово «быстрый» было удалено, а слово «высокий» добавлено. А как насчет слова «большой»: было ли оно стерто, а затем вновь напечатано, или его просто скопировали с конца предложения и вставили в начало?
Шаг 2. Следующей задачей было кодирование позиций документов и нахождение соответствий между записями. Ученые решили изобразить различные версии статьи в виде вертикальных линий, длина которых соответствовала длине каждой отредактированной версии. Это решение и помогло определить дальнейшую стратегию визуализации истории редактирования.
Ниже представлена одна из первых версий визуализации history flow. В ней простые линии соединяют фрагменты текста, которые остались неизменными в ходе нескольких редакторских правок.
А вот history flow-диаграмма статьи об эволюции. Каждый цвет представляет правки, внесенные отдельно зарегистрированным автором. Белым и серым цветом отмечены правки, сделанные анонимными пользователями:
Хромограмма: Визуализация действий отдельного пользователя
В 2006 году, когда Википедия насчитывала уже десятки тысяч статей, все тех же ученых из IBM, заинтересовала возможность визуализации действий пользователей, которые давно зарегистрированы на сайте и проявляют на нем максимальную активность – вносят много редакторских правок в статьи на разные темы.
Прежде всего, такими людьми были модераторы. Для этого исследователям предстояло проанализировать огромные объемы данных, ведь один модератор мог вносить в статьи до 100 000 правок (!).
Так, ученые разработали схему цветов, где каждый отдельный цвет представлял первые буквы, с которых начиналась каждая отдельная статья.
Ниже – пример хромограммы, в которой представлены более 1000 правок, внесенных одним автором в статьи, которые начинаются с аббревиатуры USS (Unites States Ship):
А вот хромограмма статей о рождениях и смертях:
Другие варианты визуализации Википедии
Тод Холлоуэй: «Борьба за власть» в Википедии.
Диаграмма показывает все 650 000 статей Википедии, которые существовали в то время. Аналогичные статьи сгруппированы. Желтые точки указывают на редакторские правки, крупные точки – на большое количество таких правок.
WikipediaVision – визуализация, позволяющая (почти) в режиме реального времени видеть правки в статьях и географическое местопожение пользователя, которые их вносит.
На рисунке представлены три уровня категорий страниц. Страницы, которые связаны с центральным узлом, находятся внутри шара, остальные – на внешнем кольце. Связи между страницами категорий имеют цветовую маркировку по глубине от родительского узла. Узлы сгруппированы таким образом, что длина кромки сведена к минимуму.
Заинтересовались темой визуализации? Подробнее читайте здесь:
Визуализация данных как система передачи сложных идей
Визуализация: от прошлого к будущему
Лариса Шурига, DataReview