Вашему вниманию — ТОП-10 программных продуктов для анализа данных с открытым исходным кодом.
R
R – одновременно и язык программирования, и среда разработки, предназначенная для целей статистического анализа и визуализации. Он широко используется в среде специалистов по статистике и большим данным – не только в целях аналитики, но и для разработки пользовательских функций или целых программных продуктов.
Weka
Этот программный продукт – по сути, целая коллекция инструментов и алгоритмов для анализа данных и прогнозирования. Хочется отметить не только удобный пользовательский интерфейс, но и тот факт, что Weka поддерживает множество стандартных задач data mining, такие как классификация, кластеризация, визуализация данных, а также способен предварительно обрабатывать сырые данные для их дальнейшего использования.
Tangara
В продолжение разговора о типичных задачах интеллектуального анализа данных упомянем еще один свободный программный продукт – Tangara, решающий, среди прочих, задачи визуализации, описательной статистики, факториального анализа и, конечно же, кластеризации, классификации и ассоциации.
ITALASSI
Это свободное ПО призвано облегчить пользователю задачу интерпретации регрессионных моделей, которые рассматриваются как уравнения, содержащие две и более независимых переменных с периодом взаимодействия. ITALASSI использует сырые данные для решения подобных уравнений; кроме того, разнообразные регрессионные модели программа умеет изображать в виде 2D и 3D визуализации.
Waffles
Waffles – набор инструментов машинного обучения, анализа данных и визуализации, среди запоминающихся «фишек» которого – поддержка многомерных меток графов, классификации, регрессии, а также применение автоматических фильтров для преобразования данных в определенный тип.
Data Applied
Мы уже неоднократно говорили об удобстве инструментария, целиком и полностью работающего в режиме онлайн. Вот вам пример: онлайн-решение для интеллектуального анализа и визуализации данных с говорящим само за себя названием Data Applied поддерживает как «классику» data mining вроде корреляционного анализа, кластеризации и построения правил классификации, так и, например, самоорганизующиеся карты Кохонена и, что особенно важно для многих компаний, прогнозирование временных рядов.
Encog
Encog – это фреймворк для машинного обучения с продвинутыми функциями. Это громкое выражение означает, что ПО поддерживает целое множество сложных алгоритмов и классов для работы с большими данными, к примеру, искусственные нейронные сети, генетическое программирование, сети Байеса, скрытые марковские модели. Дополнительно отметим, что фреймворк работает и с Java, и с C++, и с .Net.
MOA, Massive On-Line Analysis
И снова фреймворк, теперь уже предназначенный для интеллектуального анализа потоков данных. Плюс ко всему, MOA включает в себя инструменты для оценки данных и машинного обучения. Способный работать в идеальном симбиозе с вышеупомянутым Weka, этот инструмент считывает данные в формате ARFF (Attribute—Relation File Format, файловый формат атрибут-связь), а также включает в себя искусственные генераторы файловых потоков, такие как вращающаяся гиперплоскость (rotating hyperplane) и случайное дерево (random tree).
Matplotlib
Matplotlib – библиотека языка Python, предназначенная для построения разнообразных графиков. Прежде всего инструмент поможет в создании математически четкой и при этом красивой визуализации; библиотека работает в оболочках python и ipython и на серверах веб-приложений, а еще легко «уживается» со списком из шести пользовательских интерфейсов для анализа и визуализации данных.
SkiLab
Последний, но лишь по порядку, в нашем сегодняшнем списке инструмент – одновременно кросс-платформенный пакет программ с открытым кодом и язык программирования высокого уровня SkiLab, который, среди всего прочего, можно использовать в целях численной оптимизации и статистического анализа, а также для таких «экзотических» задач, как, например, вычислительная гидродинамика (совокупность методов для вычисления характеристик потоковых процессов).
Резюме
Выбор свободного программного ПО, призванного помочь в решении самых разнообразных задач мира больших данных и отвечающего самым жестким требованиям, сегодня на удивления велик. Наш небольшой список – всего лишь капля в море, однако он, как мы надеемся, подтолкнет наших читателей к размышлениям, настроит на экспериментальный лад и, возможно, даст начало полезным дискуссиям и далеко идущим планам.
Автор: Елизавета Филиппова