В LinkeIn рассказали о специфике обработки больших данных

Компания LinkedIn сообщила дополнительные подробности о системе для работы с большими данными Gobblin. ПО позволяет социальной сети собирать и анализировать терабайты разнородной информации как с самого сайта, так и из внешних источников, пишет издание Venture Beat.

Наряду с внутренними данными (информация о действиях пользователей, их аккаунтах), которые хранятся в базах данных таких, как Espresso и системах регистрации событий таких, как Kafka, LinkeIn собирает сведениях из внешних источников, включая Twitter и Salesforce.

В итоге для перемещения этой информации в централизованную систему Hadoop компании приходится принимать во внимание огромное количество переменных — типы источников данных (потоки событий, файлы журналов и пр.), разновидности потоков (пакетная загрузка или трансляция) и даже транспортные протоколы (REST, Kafka, внутренние API и пр.).

По словам представителей LinkedIn, специалисты используют более 15 типов механизмов получения данных. Упростить их обработку и призвана система Gobblin, которая действует как шлюз в Hadoop, направляя данные в нужные файловые каталоги.

По аналогии с проектами Azkaban, Kafka и Voldemort, Gobblin будет распространяться как ПО с открытым исходным кодом, лицензию Open Source система получит уже в ближайшие две недели, сообщила в своем блоге на сайте LinkeIn инженер проекта Лин Чиао.

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =