TОП-5 инструментов для Text Mining

Text mining – или интеллектуальный анализ текста – процесс автоматического анализа обычных неструктурированных текстовых документов компьютером с целью извлечения высококачественной структурированной информации. Сегодня мы обсудим пять инструментов, способных помочь аналитику в решении самых популярных задач text mining.

GATE

GATE (General Architecture for Text Engineering – основная архитектура для обработки текста) – масштабный программный продукт с открытым кодом, который включает в себя инструменты для поддержания всего жизненного цикла ПО – от проектирования и разработки (GATE Developer, интегрированный с разнообразными плагинами и с системой извлечения информации) до совместного использования множеством серверов в целях аннотации документов (GATE Teamware, использующий парадигму потоков работ). Плюс ко всему инструмент предоставляет интерфейс (GATE Embedded) для приложений внутри организации – при помощи библиотеки объектов Java.

Среди плюсов GATE – не только развитая «экосистема», но и почти двадцатилетний опыт существования на рынке и перевод на десяток языков (в том числе, русский). Из чисто практических преимуществ – обработка документов не перегружает память, поскольку осуществляется последовательно – но скорость работы системы от этого существенно падает. Хрестоматийную дилемму между скоростью и надежностью разработчики с самого начала разрешили в пользу надежности – возможно, в этом секрет «долголетия» GATE.

Gate text miningKNIME

Система интеллектуального анализа данных KNIME содержит плагин для обработки текста с нехитрым называнием KNIME Text Processing. Плагин, как и вся система, имеет открытый код и поддерживает шестиступенчатый процесс обработки текста – от чтения и синтаксического анализа через распознавание сущностей, фильтрации и манипуляции до подсчета количества слов, выделения ключевых понятий и, наконец, визуализации. Все это дает пользователю широкие возможности работы с текстом, однако он найдет у KNIME пару существенных недостатков. К примеру, KNIME не читает данные из MS Excel (хотя для текста это не критично) и не работает с технологией OLAP.

textprozessinglogo_small

Orange

Инструмент для интеллектуального анализа данных Orange включает в себя расширение для работы с неструктурированными массивами данных – в том числе, с текстами. При этом широкие возможности визуализации Orange используются в целях text mining. Расширения подобного толка удобны тем, что можно не отказываться от привычного ПО, когда появляются новые задачи. Удобный графический пользовательский интерфейс и инструменты визуального программирования делают Orange привлекательным для юзеров, однако его «завязка» на Python не всем может прийтись по душе.

Orange text miningRapidMiner

Расширение для работы с текстами известного инструмента RapidMiner понравится консерваторам. Оно отличается широкими возможностями в решении задач text mining. Упор делается на статистический анализ, а данные выгружаются из множества популярных форматов – в том числе, PDF.

Несомненный плюс – графический интерфейс, позволяющий управлять потоками данных, буквально просто «перетаскивая» их с места на место. Правда, вместе с достоинствами, аддон унаследовал и недостатки «родительской системы» — ограниченный объем данных, которые можно обработать при помощи бесплатной версии ПО. Правда, для текста один гигабайт – цифра порядочная (вспомнить хотя бы, что «Война и мир» в формате txt занимает всего 300 Кб памяти), так что как минимум в академических кругах этого недостатка могут вообще не заметить.

RapidMiner

LPU

LPU (Learning from Positive and Unlabeled Examples – обучение на основе положительных и неопределенных примеров) – система текстового обучения и классификации, использующая технологии SVM (Support Vector Machines) и EM (Expectation Maximization – максимизация ожиданий).

Вкратце, система обучается только на положительных и неопределенных примерах, тогда как классические алгоритмы классификации/обучения подразумевают использование как положительных (верных), так и отрицательных (неверных) примеров. По иронии, предыдущие четыре инструмента могут похвастаться отменным пользовательским интерфейсом – LPU же запускается в DOS-овском окне. Можно ли простить этот недостаток (да и недостаток ли?) за оригинальный подход к работе с текстом – решать пользователям.

LPU

Резюме

Мы представили нашим читателям пятерку интересных и полезных инструментов, способных помочь специалисту в работе с неструктурированной текстовой информацией, в том числе, в коммерческих целях. Все они имеют одно общее преимущество – у этих программных продуктов открытый код, так что на пути эксперимента и поиска новых решений ценовой вопрос не стоит. В остальном — выбор за вами!

Автор: Елизавета Филиппова

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =