Инструментарий специалиста по большим данным: Apache Hadoop

С этой статьи мы начинаем серию материалов, посвященных инструментарию больших данных, сферам его применения, основным компонентам и грамотному использованию. Сегодня мы напомним, зачем вообще нужно специальное ПО для обработки больших массивов информации в эпоху корпоративных хранилищ данных, и предложим краткий обзор, пожалуй, главного на текущий момент инструмента для работы с большими данными – Apache Hadoop.

Когда на помощь приходит Hadoop

Корпоративные реляционные базы и хранилища данных, конечно же, могут хранить и обрабатывать огромное количество структурированной информации – правда, есть одно «но»: эти технологии налагают существенные ограничения на типы данных и на скорость обработки разнородной информации. При этом они требуют существенных вложений в поддержание одной только работоспособности, так что результат неутешительный: на практике анализ корпоративных данных – явление крайне редкое. Вот здесь-то и приходит на помощь инструмент под названием Hadoop от фонда Apache.

ApacheHadoop – без преувеличения, главная движущая сила роста индустрии больших данных. Эта система, что называется, «широко известна в узких кругах» специалистов по большим данным – и о ней часто упоминают в одном контексте с не менее известными технологиями Hive и Pig. Почему? Цифры говорят сами за себя: Hadoop позволяет без существенных затрат обработать от 10 – 100 гигабайтов данных, вне зависимости от их структуры.

Названная в честь любимого плюшевого слоника сына разработчика, система Hadoop – отнюдь не «детский» инструмент, сформировавший вокруг себя целую «экосистему» программных продуктов, работающих с ней в идеальном симбиозе. Рассмотрим структуру ApacheHadoop подробнее.

MapReduce и HDFS

В «сердце» системы – технология MapReduce, модель распределенных вычислений, разработанная компанией Google. Фреймворк создан для обработки данных на большом количестве (кластере) мощных компьютеров – узлов, или «нодов» – одновременно, когда после получения входных данных задачи главный узел распределяет их частями по всему кластеру, а затем собирает результаты воедино и предоставляет пользователю искомое решение.

Для того чтобы каждый узел распределенной системы смог получить доступ к данным, в рамках кластера функционирует еще один элемент HadoopHDFS (Hadoop Distributed File System – распределенная файловая система Hadoop). Здесь хранятся как входные данные, так и выходные данные, полученные после окончания вычислений – чем это удобно, объяснять, пожалуй, излишне; однако именно наличие единой распределенной файловой системы позволяет говорить о Hadoop как о сверхмощном самостоятельном продукте.

Экосистема Hadoop

Поддержка работоспособности Hadoop обеспечивается такими элементами, как собственный язык программирования Pig и инструмент доступа к корпоративным хранилищам данных Hive. Кроме того, в «экосистему» Hadoop входят база данных HBase, обеспечивающая быстрый доступ к данным в рамках HDFS, Sqoop, позволяющий без проблем импортировать данные из реляционных БД, Zookeeper, необходимый для синхронизации работы кластера, и другие инструменты – всего в большое семейство ApacheHadoop входит 13 элементов, о которых, кажется, можно говорить бесконечно. Чуть не забыли: ApacheHadoop является свободно распространяемым программным обеспечением, так что стоимость внедрения системы ограничится для компании фактически лишь затратами на обучение штата или наем соответствующих специалистов.

Повсеместное распространение корпоративных хранилищ данных и все возрастающая необходимость их быстрой обработки добавила «головной боли» ИТ-отделам, вынужденным искать выход из сложившейся ситуации. И он нашелся, став оптимальным как для специалистов, так и для бизнесменов. Преимущества ApacheHadoop укладываются в одну простую формулу: распределенные вычисления + самостоятельность + скорость + никаких затрат на ПО = непревзойденная эффективность работы с большими данными, что на сегодня равноценно важнейшему конкурентному преимуществу любой крупной компании.

В следующих статьях мы расскажем о других компонентах инструментария специалистов по большим данным – а также о том, как грамотно составить комплекс ПО, чтобы получить оптимальный результат без лишних рисков и затрат.

Автор: Елизавета Флиппова

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =