ТОП-10 ПО с открытым кодом для анализа данных

Вашему вниманию —  ТОП-10 программных продуктов для анализа данных с открытым исходным кодом.

R

R – одновременно и язык программирования, и среда разработки, предназначенная для целей статистического анализа и визуализации. Он широко используется в среде специалистов по статистике и большим данным – не только в целях аналитики, но и для разработки пользовательских функций или целых программных продуктов.

Weka

Этот программный продукт – по сути, целая коллекция инструментов и алгоритмов для анализа данных и прогнозирования. Хочется отметить не только удобный пользовательский интерфейс, но и тот факт, что Weka поддерживает множество стандартных задач data mining, такие как классификация, кластеризация, визуализация данных, а также способен предварительно обрабатывать сырые данные для их дальнейшего использования.  

Tangara

В продолжение разговора о типичных задачах интеллектуального анализа данных упомянем еще один свободный программный продукт – Tangara, решающий, среди прочих, задачи визуализации, описательной статистики, факториального анализа и, конечно же, кластеризации, классификации и ассоциации. 

ITALASSI

Это свободное ПО призвано облегчить пользователю задачу интерпретации регрессионных моделей, которые рассматриваются как уравнения, содержащие две и более независимых переменных с периодом взаимодействия. ITALASSI использует сырые данные для решения подобных уравнений; кроме того, разнообразные регрессионные модели программа умеет изображать в виде 2D и 3D визуализации. 

Waffles

Waffles – набор инструментов машинного обучения, анализа данных и визуализации, среди запоминающихся «фишек» которого – поддержка многомерных меток графов, классификации, регрессии, а также применение автоматических фильтров для преобразования данных в определенный тип. 

Data Applied

Мы уже неоднократно говорили об удобстве инструментария, целиком и полностью работающего в режиме онлайн. Вот вам пример: онлайн-решение для интеллектуального анализа и визуализации данных с говорящим само за себя названием Data Applied поддерживает как «классику» data mining вроде корреляционного анализа, кластеризации и построения правил классификации, так и, например, самоорганизующиеся карты Кохонена и, что особенно важно для многих компаний, прогнозирование временных рядов.

Encog

Encog – это фреймворк для машинного обучения с продвинутыми функциями. Это громкое выражение означает, что ПО поддерживает целое множество сложных алгоритмов и классов для работы с большими данными, к примеру, искусственные нейронные сети, генетическое программирование, сети Байеса, скрытые марковские модели. Дополнительно отметим, что фреймворк работает и с Java, и с C++, и с .Net.  

MOA, Massive On-Line Analysis

И снова фреймворк, теперь уже предназначенный для интеллектуального анализа потоков данных. Плюс ко всему, MOA включает в себя инструменты для оценки данных и машинного обучения. Способный работать в идеальном симбиозе с вышеупомянутым Weka, этот инструмент считывает данные в формате ARFF (AttributeRelation File Format, файловый формат атрибут-связь), а также включает в себя искусственные генераторы файловых потоков, такие как вращающаяся гиперплоскость (rotating hyperplane) и случайное дерево (random tree).  

Matplotlib

Matplotlib – библиотека языка Python, предназначенная для построения разнообразных графиков. Прежде всего инструмент поможет в создании математически четкой и при этом красивой визуализации; библиотека работает в оболочках python и ipython и на серверах веб-приложений, а еще легко «уживается» со списком из шести пользовательских интерфейсов для анализа и визуализации данных. 

SkiLab

Последний, но лишь по порядку, в нашем сегодняшнем списке инструмент – одновременно кросс-платформенный пакет программ с открытым кодом и язык программирования высокого уровня SkiLab, который, среди всего прочего, можно использовать в целях численной оптимизации и статистического анализа, а также для таких «экзотических» задач, как, например, вычислительная гидродинамика (совокупность методов для вычисления характеристик потоковых процессов).

Резюме

Выбор свободного программного ПО, призванного помочь в решении самых разнообразных задач мира больших данных и отвечающего самым жестким требованиям, сегодня на удивления велик. Наш небольшой список – всего лишь капля в море, однако он, как мы надеемся, подтолкнет наших читателей к размышлениям, настроит на экспериментальный лад и, возможно, даст начало полезным дискуссиям и далеко идущим планам.

Автор: Елизавета Филиппова

Добавить комментарий

Ваш адрес email не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =