Вы говорите: «Данные», я говорю: «Система»

Осенью 2009 года я написал несколько алгоритмов, позволяющих разместить около 3000 имен на поверхности мемориала 11 сентября в Манхэттене. Задача заключалась в том, чтобы расположение имен соответствовало концепции, которую дизайнеры мемориала назвали «значимым соседством». Эта концепция стала результатом многочисленных просьб ближайших родственников о том, чтобы имена погибших располагались рядом с именами тех, с кем они были близки при жизни. Братья и сестры, матери и дочери, деловые партнеры, сослуживцы – это лишь несколько примеров глубоких связей, объединяющих нас в реальном мире. В расположении имен необходимо было учесть около 1400 подобных связей.

В декабре того же года я прилетел в Нью-Йорк, чтобы встретиться с кураторами проекта и представить результаты разработанных мной алгоритмов. Я пришел на встречу далеко не в лучшем настроении. Мне было трудно собраться с мыслями, поскольку я приземлился в Ла-Гуардия утром того же дня, при этом в течение всего перелета я снова и снова перерабатывал свою презентацию. Кроме того, я нервничал, поскольку накануне узнал, что над поставленной задачей также работала другая команда: группа финансовых аналитиков, так называемых «квантов» («quant»), многие из которых имели хотя бы одну степень PhD.

Вероятно, это было странное зрелище. С одной стороны стола сидела маленькая армия финансовых экспертов в костюмах, а напротив них длинноволосый программист из Канады со старым поломанным ноутбуком. Кванты сделали первый ход. На своих кластерах они выполняли одну перестановку за другой и были уверены, что нашли оптимальное решение: полученное ими расположение имен учитывало около 93% связей. Они попросили провести презентацию первыми, чтобы «сэкономить нам всем немного времени», поскольку знали, что их решение было математически оптимальным.

Это был убедительный аргумент. Я позволил им закончить, а затем развернул ноутбук и показал свой вариант расположения имен, позволяющий реализовать 99.99% связей.

Урок заключается не в том, что «не следует получать степень PhD по математике», и не в том, что «нужно взять на работу длинноволосого программиста из Канады». Урок состоит в том, что данные являются частью системы, и мы всегда должны смотреть не на сами данные, а на систему в целом. Системный стиль мышления при работе с данными позволяет не только более эффективно решать задачи, но и глубже понимать (и критиковать) «механику» данных, оказывающую существенное влияние на нашу повседневную жизнь.

Крайне упрощенная диаграмма системы данных выглядит следующим образом:

Сбор данных → Вычисление → Представление

Каждый раз, когда мы видим данные – будь то электронная таблица, таблица базы данных или визуализация – мы видим перед собой артефакт подобной системы. Представленная выше диаграмма не показывает один важный аспект: огромное многообразие вариантов выбора на каждом этапе. Принимая каждое из решений – исключить строку данных, реализовать некоторую структуру базы данных или использовать конкретную цветовую палитру – мы прокладываем путь через дикие заросли возможностей. Может показаться заманчивым оглянуться и посмотреть на пройденный путь, как на единственно возможный, однако в реальности незначительно отличающиеся решения могли привести нас совсем в другое место. Мышление в контексте системы данных должно одновременно охватывать все три этапа, представленные на диаграмме выше. Далее мы рассмотрим каждый из них.

Сбор данных

Путь в систему данных начинается со сбора данных. Поскольку данные являются результатом измерений, они во многом зависят от самого процесса измерения. Это означает, что когда мы видим перед собой CSV-файл, JSON-фид, или диаграмму Excel, мы должны понимать, что данные неизбежно испытали влияние методологии, ограничений и недостатков процесса сбора и записи информации.

Типичной проблемой на начальных этапах создания системы данных являются ошибки, представляющие собой распространенное явление при сборе данных. Возьмем область медицины. В результате исследования, проведенного в 2012 году в ряде престижных медицинских учреждений Восточного побережья США, было выявлено, что правильное время показывают лишь 3% часов, работающих на устройствах в данных учреждениях. Это означает, что данные, несущие в себе метку времени, преимущественно были неверными. В 2013 году ученые исследовали аналоговые тонометры в индийских клиниках и повсеместно выявили приборы с ошибкой калибровки в диапазоне до 10%.

Подобные ошибки измерений широко распространены, как в области медицины, так и за ее пределами. Ошибки могут возникать непреднамеренно, в результате неправильной настройки датчиков, неточностей при формулировке опросов, невнимательности при подсчете бюллетеней. В то же время ошибки могут быть результатом умышленных действий, направленных на достижение какой-либо выгоды.

Двигаясь дальше от вопроса «как данные были собраны», мы также должны задавать вопрос «почему данные были собраны (или наоборот не собраны)». Исследователь в области данных Мими Онуоха (Mimi Onuoha), специализирующаяся на отсутствующих данных, утверждает, что любое решение относительно того, какие данные собирать, а какие – нет, является политическим. «Если в отношении каких-либо данных есть стимул не собирать, – пишет она, – обязательно существует группа людей, для которых эти данные были бы полезны». В рамках своего выступления на фестивале Eyeo в Миннеаполисе Онуоха подчеркнула, что понимание процесса сбора данных является необходимым элементом для понимания системы данных в целом. «Если мы не проанализировали процесс сбора данных, — сказала она, — мы не сможем проанализировать данные».

Вычисление

После того, как данные собраны, в большинстве случаев они проходят через процесс вычислений. В процессе вычислений может быть выполнено округление вверх или вниз, фильтрация, масштабирование или редактирование. Затем данные, как правило, обрабатываются определенными алгоритмами с целью классификации, выявления закономерностей или прогнозирования будущих наблюдений. За последние несколько лет мы видели немало примеров, говорящих о том, что подобные алгоритмы могут заключать в себе большую мощь и большую предвзятость. Но в этой статье мы не будем обсуждать предвзятость алгоритмов. Существует множество других аспектов процесса вычислений, которые следует принимать во внимание, анализируя систему данных.

В своем эссе «Задумайтесь над булевыми переменными» («Consider the Boolean») от 2015 года Джейкоб Харрис (Jacob Harris) пишет о том, что незначительные, на первый взгляд, решения, принятые в процессе программирования, могут оказать огромное влияние на итоговые выводы, сделанные на основе данных. Харрис отмечает, что строгая двоичная логика (истина/ложь) и «идеализированные представления» данных, которые мы склонны создавать, зачастую являются недостаточными для представления «многоликой реальности, которую пытаются описать данные». Он также подчеркивает, что причиной предвзятости алгоритмов, могут быть не только «большие» решение, но также и «малые». Таким образом, в процессе разработки систем машинного обучения мы должны внимательно относиться не только к глобальным решениям, но также и к процедурным мелочам, например, к тому, как мы храним данные: в виде булевых переменных или в виде строк.

Представление

Процессы сбора данных и вычислений насыщены различными решениями, каждое из которых может в значительной мере предопределить качества системы данных. Когда же мы переходим к стадии представления и начинаем думать о том, каким способом представить данные зрителю, пространство возможностей приобретает критическое значение. Всякий раз, когда мы выбираем тип диаграммы, цветовую гамму или толщину линии, мы ограничиваем возможности коммуникации. Более того, выбор носителя для представления также имеет предопределяющий эффект. Веб-страница, буклет, бронзовая панель – каждый из этих носителей обладает своими собственными специфическими возможностями и неизбежными ограничениями.

Каким бы ни был носитель, многие утверждения Мими Онуоки относительно сбора данных можно непосредственно применить к представлению данных: вопросы о том, что показано на визуализации, и как это показано, должны быть заданы совместно с вопросами о том, что не показано, и почему кто-то решил это не показывать. Стремясь не допустить появление устрашающего призрака предвзятости, специалисты по визуализации данных обычно позиционируют себя вне политики. Однако сам процесс визуализации неизбежно является политическим. В течение многих лет я говорил своим студентам в Нью-Йоркском университете о том, что истинным носителем визуализации данных является не цвет и не форма. Истинным носителем является решение.

Принимая взвешенные решения в процессе создания собственных визуализаций, мы можем улучшить результат своей работы. Понимая, какие решения были приняты при создании визуализаций другими авторами, мы получаем возможность более критично относиться к воспринимаемой информации.

При работе с системой данных основная проблема заключается в том, что часто мы занимаем такое положение, которое не позволяет нам увидеть всю систему в целом. Специалисты, выполняющие сбор данных, редко участвуют в разработке визуализаций. При этом специалисты по визуализации обычно настолько удалены от процесса сбора данных, что нюансы измерений в большинстве случаев им просто неизвестны. Независимо от того, на чем вы специализируетесь (сбор данных, вычисление или представление), в любом случае будет полезно найти место повыше, чтобы максимально расширить свой обзор.

Теперь пришло время вернуться к мемориалу и алгоритму.

Я думаю, основная ошибка квантов заключалась в том, что они упустили из вида физические характеристики мемориала. Они смотрели на сами данные, а не на способ их представления. В то время как их модель обобщала задачу, рассматривая имена, как эквивалентные унифицированные объекты, моя модель рассматривала каждое имя, как уникальный объект в реальной системе. В частности, моя модель учитывала фактическое начертание шрифта, который предполагалось использовать при гравировке на бронзе. Кроме того, были учтены полудюймовые деформационные швы между парапетами мемориала. В частности, для каждого имени я проработал оптимальные варианты пересечения шва этим именем с учетом отдельных символов. Этот подход затронул как треугольные угловые блоки, так и длинные прямоугольные парапеты. Все эти нестандартные физические характеристики мемориала могут показаться ограничениями, но благодаря им моя система обрела эластичность, недоступную упрощенной модели.

После работы над мемориалом, я старался культивировать системный подход к данным во всех последующих проектах, в которых я принимал участие. Я занимался сбором данных, создавая сенсорные станции на ледниках, чудом избегая нападений бегемотов и спускаясь на дно океана в глубоководных аппаратах. Я разрабатывал веб-инструменты и системы машинного обучения для анализа веб-рекламы, стремясь создать средства для коллективного противодействия дискриминации. Я исследовал предельные возможности представления данных посредством звука, скульптуры, перформанса и практики участия.

Впрочем, чтобы применять системный подход к данным, не обязательно заниматься такой активной деятельностью. Вполне достаточно замены одного слово. В следующий раз, когда вы будете читать статью, в заголовке которой присутствует слово «данные», замените его на «система данных». Когда вы видите визуализацию данных, воспринимайте ее, как визуализацию системы данных. Если правительство предлагает новую политику в отношении персональных данных, воспринимайте это, как новую политику в отношении людей и населяемых ими систем данных. Подобное расширенное мышление позволит критически относиться к системам данных, а также к тем, кто их создает и представляет.

В конечном счете, недостаточно просто критиковать алгоритм Uber или последнюю инфографику FOX News. Мы должны распространить наше внимание на системы, частью которых являются эти механизмы, на системы, наше участие в которых зачастую является как прозрачным, так и невольным. Я убежден в том, что системный подход к данным позволит нам добиться лучших результатов. Кроме того, этот подход может помочь нам найти более глубокие и более значимые вопросы – вопросы не только о том, как функционируют те или иные механизмы, но, в первую очередь, о том, почему они вообще существуют.

Источник

Перевод Станислава Петренко

Автор публикации

не в сети 2 дня

DataReview

Комментарии: 16Публикации: 955Регистрация: 05-06-2014

Вам также может понравиться

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =
Авторизация
*
*

Login form protected by Login LockDown.


Регистрация
*
*
*
*
Генерация пароля