5 ошибок при развертывании БД: Как не оплошать?

1 Star2 Stars (2 votes, average: 5,00 out of 5)
Загрузка...

 

jy1-549x220Как не допустить распространенные ошибки при развертывании аналитической базы данных?

Ведущие компании, решения в которых принимаются на основе данных, делятся своим опытом.

Аналитические базы данных (АБД) становятся все более важным компонентом инфраструктуры для обработки больших данных. Эти системы разработаны специально для того, чтобы обеспечить более высокую производительность и масштабируемость по сравнению с традиционными реляционными базами данных. АБД позволяют бизнес-пользователям, аналитикам и data scientist’ам легко извлекать полезные знания из крупномасштабных сложных наборов данных.

Чтобы получить как можно большую отдачу от данных, которые ежеминутно (или даже ежесекундно) собирает ваша компания, очень важно следовать определенным правилам при развертывании АБД для больших данных. Далее мы рассмотрим рекомендации от ведущих компаний, чей опыт позволит вам избежать 5 распространенных ошибок в процессе становления инфраструктуры больших данных.

  1. Выбирая инструменты АБД, всегда следует помнить о конечных пользователях

«Бизнес-пользователи, аналитики и data scientist’ы – очень разные люди», – говорит Крис Бон (Chris Bohn), старший инженер по базам данных в компании Etsy, предоставляющей торговую площадку, где встречаются миллионы людей со всего мира, чтобы создавать, продавать и покупать уникальные товары. В частности, data scientist’ы комфортно себя чувствуют, работая с Hadoop, MapReduce, Scalding и Spark, в то время как аналитики живут в мире SQL. «Если вы предложите своим пользователям незнакомые инструменты, они просто не будут их использовать», – продолжает Бон.

При выборе АБД, компания Etsy ориентировалась на конечных пользователей, которые в своем большинстве оказались аналитиками. Соответственно, была выбрана система на основе того же SQL, что и PostgreSQL. Таим образом, конечные пользователи получили в свое распоряжение знакомый инструмент, позволивший повысить производительность труда.

  1. На начальных этапах не следует возлагать на большие данные слишком большие надежды

В последнее время большие данные постоянно находятся в центре внимания. Руководители компаний читают о них в деловой прессе и стремятся использовать корпоративные данные для решения всевозможных задач, таких как формирование индивидуальных предложений, повышение производительности труда, повышение качества продукции и т.д. Многие компании начинают свой путь в большие данные с внушительным бюджетом и еще большими ожиданиями. Они хотят добиться слишком многого. В итоге, спустя 18 месяцев, им удается достичь очень скромных результатов.

Необходимо мыслить реалистично. Сконцентрируйте внимание на одной приоритетной бизнес-задаче, которую можно решить путем более эффективного использования данных. Решите эту задачу с помощью базовых аналитических инструментов: может подойти даже Excel. Сформулируйте гипотезу и выполните анализ данных для проверки этой гипотезы. Даже если полученный результат не будет соответствовать ожиданиям, вы все равно чему-то научитесь. Повторите процесс. «Выполняйте все больше и больше проектов, используя эту методику, и вы уже не сможете остановиться, – будут появляться все новые и новые задачи», – утверждает Колин Махони (Colin Mahony), старший вице-президент и генеральный директор HPE Software Big Data.

Это мнение поддерживает и Лари Ланкастер (Larry Lancaster), бывший главный data scientist в компании, поставляющей аппаратные и программные решения для хранения и резервного копирования данных. «Просто определите приоритетную задачу и вместо того, чтобы для ее решения нанимать нового руководящего специалиста, лучше наймите data scientist’а», – советует Ланкастер.

  1. Не следует недооценивать потенциальный объем данных

Большинству компаний, работающих с большими данными, приходилось сталкиваться с непредвиденным ростом объема данных. Базирующаяся в Канзас-Сити компания Cerner также не стала исключением. Деятельность Cerner находится на пересечении здравоохранения и информационных технологий, а поставляемые ею решения объединяют людей и системы в более чем 20000 учреждений по всему миру.

Несмотря на то, что на этапе проектирования системы в 2012 году специалисты учли существенный рост объема данных, на практике темпы роста превзошли самые смелые предположения.

«В то время мы предвидели высокие темпы роста объема данных и знали, что процесс будет определенно нелинейным, – рассказывает Дэн Войке (Dan Woicke), директор по управлению корпоративными системами в Cerner. – Однако мы все равно недооценили масштаб. По факту объем данных в два или в три раза превысил ожидаемый».

Вывод: выбирайте базу данных с широкими возможностями масштабирования, которая позволит справиться с непредвиденными объемами данных.

  1. Сохраняйте все доступные данные

Одна из распространенных ошибок заключается в том, что многие компании пренебрегают некоторыми данными. Например, руководство может считать, что с течением времени данные устаревают и становятся бесполезными, а значит, их можно удалить. Иногда аналитики не могут найти применение для определенных наблюдений и поэтому не сохраняют их. Это серьезная ошибка. В дальнейшем легкомысленно удаленные данные могут потребоваться для принятия важного бизнес-решения.

«Никогда не знаешь, что может пригодиться», – говорит Крис Бон из Etsy.

Благодаря современным технологиям длительное хранение данных обходится достаточно дешево. Так почему бы не хранить все, что у нас есть? Подберите для себя аналитическую базу данных, способную вместить все ваши данные. «Если у вас есть возможность хранить данные – храните их, – советует Бон. – Пройдет время, и, возможно, вы найдете в них золото».

  1. Данные должны определять выбор инфраструктуры

По словам Бона, всегда нужно помнить, что именно данные являются центральным элементом вашей системы. Соответственно, при выборе инфраструктуры необходимо учитывать специфику данных.

«Что вы используете? Облако или аппаратные средства, размещенные в дата-центре поблизости? – спрашивает Бон. – Это имеет большое значение, поскольку, чтобы выгрузить данные в облако, потребуется передать их через Интернет, что займет намного больше времени, чем отправка данных в локальную аналитическую систему, размещенную в том же здании, где и ваша компания».

«Кроме того, очень важно остерегаться «слишком» передовых технологий, ведь некоторые из них могут не выдержать испытание временем, – добавляет Бон. – Лучше всего ориентироваться на технологии, уже заслужившие определенное доверие, а не на экспериментальные разработки». Например, очередь сообщений стала важным компонентом инфраструктуры для распределенных данных. За последние десять лет множество подобных систем появилось на рынке в сопровождении большой шумихи и массы обещаний. Многие компании инвестировали в эти технологии, но в итоге обнаружилось, что обещания не соответствуют действительности. «В результате, инвесторы понесли существенные издержки», – отмечает Бон.

В настоящее время Etsy использует Kafka в качестве конвейера для событий и данных, а в скором времени, возможно, будет применять этот инструмент для импорта данных в аналитическую базу данных HPE Vertica. «В последнее время Kafka набирает популярность, и мы считаем, что эта система имеет большое будущее. Нам нравится применяемая Kafka модель, доказавшая свою надежность. Vertica имеет хороший коннектор для Kafka. Соответственно, Kafka вполне может стать основным путем импорта данных в Vertica», – резюмирует Бон.

Источник

Автор публикации

не в сети 3 дня

Лариса Шурига

Комментарии: 16Публикации: 871Регистрация: 05-06-2014

Вам также может понравиться

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =
Авторизация
*
*

Login form protected by Login LockDown.


Регистрация
*
*
*
*
Генерация пароля