Сегодня мы расскажем о том, почему визуализация данных важна для мира big data, напомним о сути термина и главных вариантах использования концепции в ее двумерном варианте.
Визуализация данных
Визуализация данных – инструмент, широко использующийся во многих сферах деятельности – от научных изысканий до модной инфографики и детсадовских презентаций. Но не будем углубляться в пространные описания – нас с вами прежде всего интересует область больших данных, в которой визуализация играет не последнюю роль.
Визуализация данных – не только инструмент для наглядного представления закономерностей (хотя каждому еще со школы знаком ее простейший пример – график зависимости функции y от аргумента x со всеми вытекающими), но и эффективнейшее средство для понимания абстрактных процессов.
Почему это так? Для начала определим сферы применения графической визуализации на абстрактном уровне, естественно, с перспективы информатики. Итак, визуализация используется для:
- представления информации (в общем смысле этого слова – то есть, наглядного изображения разнообразных данных, через которое можно определить связи и закономерности);
- изображения итерационных архитектур и моделей различного генеза;
- представления моделей;
- представления методов принятия решений;
- поддержки самих алгоритмов визуализации;
- визуализации объемных форм – без математического описания вспомогательных поверхностей.
Специалисты склонны полагать, что визуализация не просто способна «сблизить» абстрактные данные с нашими представлениями о них, а еще и в некотором смысле расширить человеческий интеллект. Вывод напрашивается всего один, но грандиозный: визуализация данных – шаг на пути к двустороннему диалогу человека и искусственного интеллекта, полезный и важный для обеих сторон.
Двумерная визуализация данных
Первый пример 2d-визуализации данных, который приходит на ум – это, естественно, разнообразные графики. Концепция графика функции при всей своей простоте позволяет точно определить значение и назначение двумерной визуализации – отражение зависимости одной переменной — функции (или класса переменных) от другой переменной — аргумента (или, соответственно, класса аргументов).
Наверное, не стоит упоминать, чем такая модель отличается от трехмерной визуализации, однако в целях бизнес-анализа можно во многих случаях ограничиться всего двумя измерениями. Простой, но мощный смысл концепции – в том, чтобы повысить наглядность представления разрозненных (или даже на первый взгляд структурированных) сложных данных путем графического изображения на плоскости. Среднестатистический аналитик буквально «захлебывается» в море больших данных – и двумерное представление может стать настоящим спасательным кругом.
Какие варианты?
Конечно же, визуализация – это не только графики. Попробуем подробнее разобрать варианты использования концепции на практике и сферы их применения.
-
Графики рассеяния
Об этом варианте в нашей статье мы упоминали уже неоднократно – и не случайно. График функции y(x), самый простой и наглядный метод представления данных, который сегодня знаком каждому школьнику – это не что иное как частный случай графика рассеяния. В общем случае, двумерный график рассеяния – это точечная проекция данных на плоскость, представленная на экране в классическом формате декартовой системы координат.
График рассеяния можно, подобно любому графику функции, трансформировать и отображать в различных направлениях. Точки графика обладают такими атрибутами как цвет, размер, форма, текстура, сдвиг и даже звук – в случае взаимодействия с ними извне. Главные варианты использования этого метода визуализации – построение иконографических моделей и пиксельных дисплеев.
-
Матрицы графиков рассеяния
Этот вариант визуализации представляет собой массив графиков, отображающих все возможные комбинации координат (или измерений, если речь идет о многомерной визуализации).
Возможен вариант позиционирования графиков рассеяния в формате, отличном от табличного – круговом, многоугольном и так далее. Возможность объединить графики в одну картину, чтобы визуально связать их характеристики, позволяет говорить о том, что матричный метод визуализации является весьма мощным инструментом первичного анализа данных.
-
Теплокарты
Теплокарта представляет собой массив клеток, в котором каждая клетка окрашена в определенный цвет в соответствии с определенным значением или функцией данных, связанных с этой клеткой.
Метод представляет собой частный случай все тех же графиков рассеяния – где точки на графике представляют собой цветные клетки решетки.
-
Линейные графики
Этот метод визуализации заключается в изображении функций от одного аргумента или кусочных функций в одном измерении. Для того, чтобы применить линейный графический метод к многомерным данным, несколько графиков объединяются в один график с множеством линий (кусочная функция).
Измерения изображаются разным цветом или типом линий – например, пунктиром.
-
Круговые диаграммы
Этот метод визуализации, также называемый полярной диаграммой, используется для изображения полярных координат. Это означает, что данные изображаются на плоскости при помощи двух атрибутов – угла отклонения от осей и радиуса (расстояние от 0 координат), — создавая «свернутую» версию линейного графика.
Такая постановка вопроса позволяет решить проблему «предельного эффекта», который наблюдается при попытке отображения на линейном графике большого количества измерений (линии накладываются друг на друга, и их уже невозможно различить). Хотя для двумерной модели это не столь актуально, никто не станет спорить с тем, что всегда полезно взглянуть на одни и те же данные, что называется, с разных сторон.
Резюме
Визуализация данных нужна и полезна – пожалуй, спорить с этой простой истиной никто не станет. Разнообразие вариантов и сфер применение позволяет считать этот метод полноправным участником процессов, помогающих специалистам разобраться в хитросплетениях больших данных. К тому же, эксперты справедливо полагают, что двумерная визуализация – не только в виде графиков и диаграмм, но и в ее более сложных вариантах – приближает нас к пониманию абстрактных концепций не только и не столько психологически, но и интеллектуально.
В следующих статьях мы постараемся раскрыть эту без преувеличения необъятную тему, рассказывая нашим читателям о современных средствах, методологиях и концепциях двумерной визуализации данных.
Автор: Елизавета Филиппова