Как создать хорошую визуализацию: 5 ключевых правил

Существует большое количество «правил» визуализации. Некоторые из них действительно являются правилами, а некоторые представляют собой рекомендации, призванные помочь сделать выбор. Многие правила могут быть нарушены, если этого требуют данные, и если вы знаете, что делаете.

Но есть такие правила, которые нельзя нарушать. Обычно они касаются специфических типов диаграмм, читающихся особым образом. Если эти правила нарушаются, – все проигрывают. Давайте рассмотрим их.

Началом отсчета для столбчатой диаграммы должен быть ноль

Столбчатая диаграмма (bar chart) визуализирует данные посредством высоты столбцов. Чем ниже столбец, тем меньше представляемое им значение, чем выше столбец, – тем больше значение. Чтобы сравнить значения, необходимо сравнить высоту столбцов. Этот принцип лежит в основе данного типа диаграмм.

Если же сместить начало отсчета, тогда визуальное представление будет искажено.

Для примера посмотрите на рисунок выше. На первой диаграмме слева сопоставляются значения 50 и 100. При этом началом отсчета является ноль. Все правильно. Столбец, представляющий значение 100, в два раза выше столбца, представляющего значение 50, потому что 100 в два раза больше, чем 50.

Но если сдвинуть начало отсчета и установить его на другом значении, превышающем ноль, высота левого столбца уменьшится. Высота правого столбца останется неизменной. Исходное соотношение между высотами столбцов нарушится. Если продолжать дальше, левый столбец полностью исчезнет, и это будет означать, что 100 бесконечно больше, чем 50.

Пример.

Следующая диаграмма была показана на канале Fox News.

Значение, представленное правым столбцом (7 066 000) на 17,8% больше значения, представленного левым столбцом (6 000 000), но при этом правый столбец почти в три раза выше левого.

Кто-то может возразить, что акцент сделан на различии двух значений, а не самих значениях. Даже если так, все равно столбчатая диаграмма – это не лучший выбор. В данном случае более рациональным решением было бы применение временного ряда (time series), представляющего суммарное значение за каждый месяц.

Круговая диаграмма не должна содержать слишком большое количество секторов

Некоторые рекомендуют полностью отказаться от круговых диаграмм (pie chart). Возможно, они правы, а может, и нет. Кто-то может сказать, что само по себе использование круговых диаграмм – непростительное нарушение правил. Я с этим не согласен. В любом случае, такие диаграммы достаточно широко распространены, поэтому мы, по крайней мере, должны уметь правильно с ними обращаться.

Избегайте слишком большого количества секторов, потому что в итоге диаграмма может стать нечитаемой.

Что подразумевает под собой «слишком большое количество»? Ответ субъективен, но если становится трудно понять, что один сектор в два раза больше другого, или маленькие секторы начинают казаться одинаковыми, значит, пора уменьшить их количество. В качестве решения можно объединить маленькие секторы в один более крупный под названием «Другие». Это правило касается также и кольцевых диаграмм (doughnut chart).

Кроме того, для визуализации соотношений можно использовать различные другие типы диаграмм.

Пример.

Следующие круговые диаграммы, размещенные в Википедии, представляют площади стран мира.

Левая диаграмма уже и так содержит большое количество секторов, но для малых стран создана еще одна диаграмма также с немалым их количеством. Существует множество других способов визуализации таких данных, например, карта дерева (treemap), различные графические элементы, отмасштабированные соответствующим образом, или обычная карта. Круговые диаграммы в виду своих ограничений просто не предназначены для наборов данных, содержащих более десятка значений.

Необходимо соблюдать соответствие частей целого

Диаграммы, на которых для визуализации применяются графические элементы, являющиеся частями целого, должны использоваться для представления значений, являющихся частями целого. Это касается таких типов диаграмм, как столбчатая диаграмма с накоплением (stacked bar chart), диаграмма с областями с накоплением (stacked area graph), карта дерева, мозаичная диаграмма (mosaic plot), кольцевая диаграмма и круговая диаграмма. Каждая секция такой диаграммы представляет собой часть целого.

Чаще всего это правило нарушается в тех случаях, когда вопрос, задаваемый при проведении опроса, допускает несколько вариантов ответа. Например: «Какими видами транспорта вы пользовались на прошлой неделе? Отметьте все подходящие варианты». В таких случаях, чтобы при создании диаграммы не произошло наложение, следует обратить особое внимание на те анкеты, в которых респонденты выбрали более одного варианта ответа.

Пример.

Сумма процентных долей, представленных тремя секторами круговой диаграммы показанной на канале Fox News, превышает 100%.

В данном случае каждое значение является самостоятельной процентной долей от целого. Следовательно, столбчатая диаграмма была бы более уместна в этой ситуации.

Элементы визуализации должны быть хорошо различимы

В этом заключается смысл визуализации. Если диаграмма не читается, она становится бесполезной. Такая ситуация часто возникает при попытке визуализировать слишком большой объем данных на одной диаграмме. В результате наложения графических элементов интересующие нас области становятся недоступными для восприятия.

Это классическая проблема перегруженной диаграммы, ставшая предметом многих исследований. Существует несколько простых способов ее решения.

Можно уменьшить размер элементов визуализации (точек или др.), чтобы они занимали меньше места. В общем случае необходимо постараться увеличить объем свободного пространства.

Также можно использовать прозрачность, чтобы элементы были видны, даже если поверх них расположены другие элементы.

Разбейте данные на подгруппы, сделав несколько выборок или используя естественные категории. Далее можно создать набор малых диаграмм (small multiple), чтобы на каждой из них отображалось меньшее количество элементов.

Кроме того, можно агрегировать данные, чтобы получить небольшое количество интервалов.

Пример.

На следующей диаграмме представлены позиции, с которых игроки баскетбольной команды Golden State Warriors выполняли броски в сезоне 2008-09.

По диаграмме невозможно определить, с какой дистанции было выполнено наибольшее количество бросков: с ближней, средней или дальней (из-за трехочковой линии). В этом случае поможет агрегация.

 Диаграмма должна иметь хорошую аннотацию

При  визуализации данные кодируются с помощью формы, цвета и положения. Чтобы этот подход работал, должна быть возможность декодировать графическое представление обратно в исходные значения. Классическим примером нарушения этого правила является отсутствие названий осей координат.

Иногда диаграммы не требуют пояснений. Например, ваша аудитория, скорее всего, знает, как читать столбчатую диаграмму. Соответственно, нет необходимости объяснять, что высота столбца соответствует представляемому им значению. В то же время обязательно необходимо пояснять сами данные, являющиеся предметом визуализации, и указывать единицы измерения.

Всегда подписывайте оси координат и не забывайте про легенду.

Пример.

Несоответствующие метки на диаграмме из газеты Winnipeg Sun:

Если бы мы только знали, каким был вопрос на самом деле.

Заключение

Теперь вы знаете основные правила, которым нужно следовать при создании диаграмм. Чтобы не нарушать их, прежде всего, необходимо понимать, как данные связаны со своим визуальным представлением. Если вы это понимаете, тогда вы легко можете создавать диаграммы и даже собственные типы визуализации. Следует быть особенно внимательным при создании специфических типов диаграмм, которые должны читаться особым образом.

Вникните в логику графического представления данных. Тогда вы поймете разницу между рекомендациями и настоящими правилами.

По материалам: FolowingData

Добавить комментарий

Ваш адрес email не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =