Как создать корпоративное озеро данных, которое окупит себя

Построение Data Lake в облаке или локальном хранилище может занять от 6 месяцев до 1 года, а в некоторых случаях, на полное развертывание системы уходит до 2 лет. Для многих IT-директоров срок слишком большой. Компании, которые создают и используют Big Data, хотят не просто окупить свои вложения, но и получить существенную отдачу.

Проще говоря, создание качественного озера данных займет у вас много времени. Формирование фундамента для аналитики, проверка преобразования данных (для их беспрепятственного использования), сопровождение/защита системы и, конечно же, надлежащее управление – это те задачи, которые встанут на пути развертывания Data Lakes.

Все, что вам необходимо знать о Data Lake

Если сформулировать понятие без громких продающих фраз, то звучать это будет так: Data Lakes представляет собой группу систем для хранения данных, где вы способны захватывать, управлять и анализировать большие объемы исходной информации. Здесь вы можете хранить «грязные» данные, такие как веб-журналы, социальные данные, текстовые файлы, PDF-файлы и многое другое. Но это не значит, что система не подходит для стандартных, «чистых» данных.

Как правило, Data Lakes строятся на платформе Hadoop. Однако NoSQL БД или облачные системы хранения данных (S3 от Amazon) работают так же хорошо.

Первый этап

С финансовой точки зрения, двухэтапный подход хорошо демонстрирует целесообразность использования Data Lakes и позволяет оценить будущие затраты. На первом этапе большую часть времени мы потратим на изучение системы, определение структуры хранения данных и источников их получения, а также оценку имеющегося функционала и возможности по его расширению, которые необходимы для масштабирования бизнеса.

В дальнейшем вам предстоит выбор облачного сервиса и выделение средств на закупку оборудования для локального хранения данных. Процесс может занять от 1 до 3 месяцев.

На протяжении этого периода вы будете отстаивать свою концепцию и предлагать варианты использования «озера». В целом, первый этап – это всесторонняя аналитика и борьба за финансирование идеи. На данной стадии реализации, затраты будут незначительными. В основном вам придется потратиться на аппаратные средства, программное обеспечение для управления данными и техническую модернизацию для расширения функционала системы.

Второй этап

Мы рассмотрели первую «инвестиционную» часть плана по построению озера данных. На втором этапе вы будете производить и проделывать «волшебные штуки», такие как активация Apache Spark и подключение его различных алгоритмических библиотек для структурирования собранных данных, а также построение BI-подобных отчетов для бизнес-аналитиков. Это хорошая возможность сэкономить на консолидации данных различных объектов вашей компании и разгрузить ETL-процессы для Hadoop.

Честно говоря, при создании озера данных, количество этапов не имеет особого значения. Важно лишь то, что без первой «инвестиционной» части, реализовать вторую весьма затруднительно. Комбинирование двух этапов позволяет трезво оценить рентабельность идеи и рассчитать примерный бюджет на реализацию проекта.

Итог

Вышеупомянутый анализ не является идеальным вариантом построения Data Lakes и принятие решений должно основываться на положении дел вашей компании. Существует вероятность того, что вы не начнете зарабатывать больше, чем инвестируете на первом этапе. Тем не менее, вы всегда сможете позиционировать свои ошибки и улучшить предполагаемую финансовую отдачу при помощи командной работы.

Добавить комментарий

Ваш адрес email не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =