Основные технологии text mining

В продолжение разговора об интеллектуальном анализе текстов (англ. text mining) сегодня мы расскажем о методах и технологиях, которые используются в этом направлении, а также о теоретических особенностях их применения.

Несколько слов о text mining

Строго говоря, text mining – это частный случай data mining для текстовой информации; напомним, что основной целью интеллектуального анализа текстов является превращение неструктурированных текстовых данных в пригодный для дальнейшей работы набор структурированных данных в удобном для машинной обработки виде. То есть, посредством методов text mining мы можем извлекать знания из огромного массива информации, лишенной понятной компьютеру структуры.

Очевидно, что, как ответвление интеллектуального анализа данных, направление изначально взяло на вооружение такие классические методы как классификация и кластеризация, однако этими методами технологический инструментарий text mining далеко не ограничивается. Далее мы расскажем читателям о собственных методах интеллектуального анализа текстов – извлечение феноменов/понятий (feature (information) extraction), ответ на запросы (question answering), тематическое индексирование (thematic indexing) и поиск по ключевым словам (keyword searching).

Извлечение понятий

Под этим термином в text mining подразумевается технология улучшения качества классификации, кластеризации и поиска путем извлечения из текста неких новых понятий. Вообще говоря, извлечение понятий – разновидность информационного поиска в текстовом массиве, написанном на естественном языке.

Типичный случай применения этого метода text mining – когда необходимо составить базу данных полезной информации из набора документов на естественном языке. Понятно, что целесообразно было бы использовать методы естественной обработки языка, рассчитанные на узкий набор тем; как мы уже писали в случае сентимент-анализа (англ. sentiment analysis), имеются в виду статистические методы, использующие машинное обучение. Типичными подзадачами технологии являются:

  • Извлечение так называемых сущностей – именованных элементов, таких как имена, названия, обозначения самого разного толка; в общем-то, это и есть основная подзадача извлечения понятий;

  • Поиск кореференций (связей, принадлежащих одному и тому же объекту);

  • Извлечение терминологии – нахождение ключевых слов и словосочетаний;

  • Автореферирование – термин, обозначающий выделение из текста смысловой, оценочной, эмотивной и пр. информации.

Ответ на запросы

Как «научить» систему не только понимать вопрос на естественном языке, но и выдавать понятный человеку ответ? Этим занимается крупный подраздел text mining, носящий название question answering (ответ на запросы); известны целые системы, построенные на принципах этой технологии (как пример – «Помощь» в Windows). Алгоритм работы выглядит так:

  1. Поиск информации в документе для отбора тех частей текста, которые потенциально могут содержать ответ.

  2. Фильтрация фраз, похожих на ожидаемый ответ. На этом этапе все зависит от вопроса: например, если он начинается со слова «где», фильтр выделит, в частности, фразы, где содержатся географические названия.

  3. Поиск правильного ответа. При помощи вспомогательных методов выводится ответ на запрос.

Тематическое индексирование

Под термином «индексирование» первоначально понималось присвоение документам/запросам тематических индексов, отражающих некие атрибуты их классификации (по принципу библиотечных каталогов). С развитием направление приобрело смысл процесса своеобразного «перевода» описаний документов/запросов с естественного языка на формализованный, когда эти описания представляют собой перечни ключевых слов и словосочетаний, отражающие их тематическое содержание. Такая форма получила называние поискового образа описаний; при этом поисковый образ запроса представляет собой логическую конструкцию, где слова и словосочетания соединены при помощи логических и синтаксических операторов.

Поиск по ключевым словам

Этот метод text mining, по сути, использует результаты тематического индексирования для поиска документов, отвечающих указанным требованиям, в частности, содержащих указанные пользователем ключевые слова.

Ключевое слово в text mining определяется как набор слов, отражающих и представляющих содержимое текста. Существует множество лингвистических и математических методов, позволяющих находить ключевые слова; наиболее распространенный из них – анализ частоты появления слов в тексте.

Резюме

В этом материале мы кратко рассказали об основных технологиях text mining – не ограничивающихся только лишь «классикой» интеллектуального анализа данных вроде кластеризации и классификации. Однако сегодня мы коснулись лишь некоторых теоретических аспектов их применения; в следующих статьях мы рассмотрим эти вопросы более подробно, и постараемся осветить не только теорию, но и практику применения основных методов интеллектуального анализа текста.

Автор: Елизавета Филиппова

Добавить комментарий

Ваш адрес email не будет опубликован.