Озера данных и их (пока) сказочно далекие берега

В мире больших данных новые тренды появляются с завидной периодичностью, но далеко не всегда вокруг них возникает ажиотаж. Сегодня мы расскажем об озерах данных – феномене, уже успевшем сформировать вокруг себя своеобразный культ, объясним, почему восторги по этому поводу имеют под собой основания и постараемся определить вектор развития этого направления big data-разработок.

Что такое озера данных?

Впервые об озерах данных заговорили не так уж давно – в конце 2013 года, когда стало окончательно ясно, что система Apache Hadoop (как минимум на ближайшие пару лет) закрепила за собой лидерские позиции в индустрии больших данных. Именно тогда основные разработчики Hadoop – каждый немного по-своему – обозначили стратегию развития технологии. Аудитории запомнился один интересный термин, о котором в один голос говорили вендоры: озера данных (data lakes) обещали стать «хитом нового сезона».

Что же имеется в виду под этим красивым названием? Хочется сразу предупредить любителей четких и однозначных категорий: строгого определения понятия «озера данных» нет – по крайней мере, пока. Однако примерно под этим словосочетанием понимается вот что: озеро данных – это репозиторий, в котором хранится очень большое количество необработанных данных в их первоначальном виде.

Аналогия с озером предельно ясна и интуитивно понятна: действительно, обитатели озера разнообразны по своей природе, и любая рыба, пока она не попалась на крючок и не была приготовлена (то есть обработана надлежащим образом), плавает в озере в том виде, в котором и была создана природой.

Принципы работы

Однако, вернемся к техническим деталям и обозначим еще одно принципиальное отличие озера данных от классического хранилища с иерархической структурой: в последних данные хранятся в составе файлов или папок, тогда как озеро является примером «плоской» архитектуры, где все данные до поры до времени находятся в «свободном плавании».

Каждому «обитателю» озера данных присваивается уникальный идентификатор, кроме того, он сопровождается метаданными (то есть каждому элементу присваиваются определенные теги). Таким образом, когда возникает необходимость, получить доступ к необходимым данным можно посредством запроса. Как уже было сказано, термин «озеро данных» ассоциируется с хранилищами данных, работающих в рамках кластера Hadoop.

Надо заметить, что многие ошибочно считают феномен озер данных чисто маркетинговым ходом (также, кстати, было в свое время и с термином «большие данные») – даром, что пока он употребляется и «продвигается», в основном, вендорами Apache Hadoop. Однако постепенно понятие начинает расширять сферу применения, и сегодня эксперты все чаще употребляют именно его для обозначения большого хранилища данных, структура которого не определена до того момента, пока не произведен запрос данных.

В теории такая постановка вопроса выглядит прекрасно – кто не мечтает построить распределенную, ориентированную на данные, масштабируемую систему, которая при этом еще и будет работать быстро и почти безотказно? В этом идеальном мире больше нет функциональных анклавов: все приложения сосуществуют в едином облаке, позволяя запросам «улетать» на другую сторону бесконечно расширяющегося кластера на небывалых скоростях. Архитектура больше не налагает никаких ограничений на структуру, формат и свойства данных – просто сказка, не правда ли? Но как достичь «кисельных берегов» озер данных, и возможно ли это вообще?

Мнения экспертов

Тут мнения экспертов расходятся. Одни специалисты считают, что растущая шумиха вокруг озер данных культивирует преждевременный оптимизм: действительно, не окажется ли на практике, что анализ таких разнородных данных будет под силу лишь избранным? Кроме того, очевидно, что такое хранилище сложно поддается управлению – если поддается вообще – а значит, озеро со временем рискует превратиться в «болото».

Оппоненты утверждают, что создать механизмы управления озерами данных возможно, и хотя это требует времени и средств, на текущий момент есть все предпосылки к тому, чтобы воплотить эту весьма привлекательную концепцию в жизнь.

Как ни странно, сделать сказку былью в какой-то степени уже удалось: сервисы Google и Facebook предоставляют своим пользователям возможность ощутить на себе некоторые прелести «озерной» архитектуры. Споры по поводу нового феномена по-прежнему не утихают и не утихнут, кажется, еще долго – однако это только доказывает актуальность нового тренда для настоящего и его потенциальную важность для будущего больших данных.

Автор: Елизавета Филиппова

 

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =