Приводим данные в порядок: 5 типовых проблем

Обычно, когда мы сталкиваемся с необходимостью привести данные в порядок, нас подстерегают одни и те же проблемы. В этой статье мы попробуем определить 5 типовых проблем и найти их решение.

Проблема 1: С чего начать?

Чаще всего, приводя данные в порядок, мы приступаем сразу же к их классификации и распределению по папкам. Это огромная ошибка. Как и в любом деле, в систематизации данных важно очертить план работы, выработать своеобразную стратегию. Таким образом, поделив весь объем работ на конкретные этапы, вы не упустите важных деталей и получите в результате качественную и удобную в пользовании базу данных. Мы предлагаем приводить данные в порядок по такому плану:

  1. определение характеристик необходимой информации;
  2. проверка качества информации;
  3. классификация и систематизация информации;
  4. презентация данных.

Проблема 2: Отсеивание информации

Согласно вышеуказанному плану, эта проблема возникает на первом этапе систематизации данных и состоит она в том, что большинство просто игнорирует этап, когда нужно задать себе вопрос: «В какой информации мы нуждаемся?».

Ярким примером компании, отлично отфильтровывающей лишнюю информацию, является британская розничная сеть Tesco. Благодаря специальной клубной карте, которую предоставляют покупателям, Tesco наблюдает тенденции спроса в реальном времени, не тратя драгоценное время на анализ того, что не имеет значения для достижения поставленных целей.

Проблема 3: Качество информации

При создании систематизированной базы данных особое внимание следует обратить на контроль качества информации. Для этого необходимо скрупулезно изучить данные по таким критериям:

  • Достоверность источников

    Проверка источника информации – первый фильтр, через который необходимо пропустить данные, чтобы привести их в порядок. Таким образом, если источником данных, например, является социологическое исследование, то оно должно быть проведено профессионалом, согласно всем правилам и требованиям.

  • Эффективность используемых инструментов

    Некоторый инструментарий, ранее используемый для получения данных, нынче стал неактуальным. В особенности это касается исследований, оперирующих фиктивными величинами. Очевидно, что вам вряд ли пригодятся результаты, где искомая величина – средняя высота домов на улице.

  • Актуальность данных

    Здесь важно учесть, что у данных тоже есть срок годности. Если внести в базу данных результаты опроса, который проводили 3 года назад, такая информация будет в лучшем случае просто засорять базу, а в худшем, приведет к ошибочным суждениям.

Проблема 4: Поиск наиболее удобной системы хранения данных

Эта проблемавозникает на этапе непосредственной систематизации данных, и к ее решению нужно приложить немало усилий. Прежде всего, следует более детально ознакомиться с информацией, которая осталась после отсеивания на двух предыдущих этапах. Дальше предстоит определиться с целевой аудиторией, для которой предназначена информация, а также с целями, в которых будут использованы данные. От этих особенностей зависит разработка критериев, по которым потом классифицируют информацию, ведь будущий пользователь базы данных должен легко ориентироваться в информации и понимать ее.

Пример удобной систематизации — базы данных компании Yahoo. Для того, чтобы быть в курсе изменений и предпочтений своих пользователей, сотрудники компании путем случайного отбора назначают одну-две сотни человек, исполняющих роль экспериментальной группы, в то время как остальные посетители остаются в контрольной. Цель компании – увидеть реакцию пользователей на изменения и обновления на главной странице и оптимизировать таким образом свои предложения, увеличив доход. Анализируя этот пример, можно заметить, что компания делит данные на две большие категории: информацию, полученную от экспериментальной и от контрольной группы. Каждая категория делится на небольшие разделы. Сравнивая соответствующие разделы в каждой из категорий, результат эксперимента можно увидеть в течении нескольких секунд, и все благодаря хорошей систематизации данных.

Важным моментом, о котором следует помнить, работая с данными и приводя их в порядок, является такое свойство современных баз данных как многомерные форматы. Если вам нужно систематизировать данные, которые имеют физическую форму, например, создать каталог в библиотеке, вы ограничены определенными рамками, поскольку должны выбрать единственную и наиболее логическую структуру хранения и поиска данных. Многомерный формат современных баз данных позволяет хранить одну и ту же информацию в разных категориях и создавать множество слоев. Это очень удобно, поскольку такой подход не ограничивает целевое предназначение базы данных и позволяет использовать ее в разных целях, просто меняя критерий поиска.

Проблема 5: Оформление данных

Эта проблема возникает на конечном этапе работы с базой данных, когда нужно подать информацию в максимально доступной и понятной форме. Самые популярные способы — занесение информации в таблицы, представление ее в виде схем, диаграмм и т.д.

Подводя итоги, стоит отметить, что для успешной систематизации данных, или простыми словами, для приведения данных в порядок, очень важно действовать по плану. Если же при этом вы столкнулись с рядом вышеупомянутых проблем, необходимо системно работать над их решением.

Автор: Анна Коваленко 

1 комментарий

  1. Wolf_mr_wolf:

    Интересная, и важная тема «Выработка стратегии работы с данными», по опыту это то, с чего начинается первый конфликт работы в новой компании, подобной FMCG или Ритейла.
    Но при этом статья весьма абстрактно говорит что проблема есть и что она где то решена. Хотелось бы больше рекомендаций, или хотя бы упоминания ключевых слов, по тэгам которых, молодые аналитики могут начать развивать свою стратегию.

    И реальных проблем тут не упоминается об стоимости данных, о «дублированнии с ошибкой», и конечно о жизненном цикле данных, что они переходят от сотрудника к сотруднику, не говорится об элементарном языке нотаций, на котором можно записать стратегию.

    Хотелось бы чуть более глубокого решения этого сложного и насущного вопроса).

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =