Text mining: подходы, особенности, перспективы

Сегодня мы расскажем об одном из наиболее перспективных направлений даталогии – извлечении информации (в частности – семантических связей) из текстов. Предлагаем нашим читателям вместе с нами рассмотреть концепцию направления, его основные задачи, перспективы развития и проблемы, которые встают на его пути.

Что такое text mining?

По сути, text mining, или извлечение информации из неструктурированных текстов – это текстовое направление data mining, то есть интеллектуального анализа данных. Основное отличие text mining от последнего заключается не в цели (а цель у этих направлений одна – извлечение информации для принятия некоего решения), а в задачах.

Задача text mining – находить новые знания в больших объемах неструктурированной текстовой информации. С другой стороны, text mining можно рассматривать как расширение интеллектуального анализа данных, поскольку к процессу добавляется дополнительный этап – превращение неструктурированного текста в структурированный текстовый массив, чтобы впоследствии к нему можно было применить стандартные методы data mining.

Концепция довольно прозрачна – но для чего text mining нужен в прикладном смысле? Среди самых распространенных областей применения направления:

  • пополнение онтологических баз знаний – всеобъемлющих и детальных формализаций в виде концептуальной схемы;
  • вопросно-ответные системы и фактографический поиск – еще один шаг на пути к созданию «разумного» Интернета;
  • определение семантической (смысловой) близости текстов – в целях анализа данных и обработки естественного языка, в том числе применимой в разработке искусственного интеллекта и машинном переводе.

Подходы к text mining и их особенности

Понятно, что такое популярное и перспективное направление не могло не «произвести на свет» многочисленные подходы, с их достоинствами и недостатками. В общем случае они представляют собой «оцифровку» текста и, в общем-то, используют механизмы «классического» интеллектуального анализа данных, такие как:

  • Классификация – как всегда, необходима для того, чтобы построить некие правила, по которым объекты (в нашем случае, текстовые документы) распределяются по классам. Особенность классификации в контексте text mining – типично большое количество объектов и атрибутов. Это означает, что должны быть предусмотрены механизмы оптимизации самого процесса классификации, и эти механизмы должны быть интеллектуальными. Такая постановка задачи, в свою очередь, означает одновременно перспективность и проблематичность поисков ее решения: статистические методы хороши, когда мы имеем дело с цифрами, но слова и их семантика – другое дело. Исследователям еще предстоит найти оптимальный подход к задаче классификации – и это лишь вопрос времени.
  • Кластеризация. Предположим, что текст обладает некими признаками, но использовать определенные категории для их анализа не представляется возможным. Для кластеризации в рамках text mining также используются лингвистические и математические методы – причем, опять же, идеального среди них нет. В результате кластеризации (и последующей визуализации) мы можем получить визуальную карту, которая, в свою очередь, даст нам возможность «охватить взглядом» достаточно большой объем данных.

Среди типичных элементов text mining основными методами являются:

  • Построение семантических сетей. Другими словами, поиск и анализ связей в тексте. Например, это используется для облегчения навигации в тексте – при помощи определения так называемых ключевых фраз.
  • Извлечение фактов (понятий). Этот элемент text mining можно отнести к вспомогательным методам, поскольку он позволяет улучшить и оптимизировать классификацию, кластеризацию и поиск определенной информации в текстовом массиве.

Резюме

Совершенно ясно, что проблема text mining и его развитие интересна многим. Лингвисты, программисты, аналитики, переводчики – вот представители группы «заинтересованных лиц». Эта статья – лишь «капля в море», беглый взгляд на вопросы интеллектуального анализа текстов, однако мы надеемся, что наши читатели «подхватят» интерес к этому направлению. В следующих статьях мы планируем подробнее рассмотреть тему text mining – и постараться ответить на жизненно важные вопросы, которые волнуют наших с вами коллег по всему миру.

Автор: Елизавета Филиппова

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =