5 качеств, которыми должен обладать инструмент текстовой аналитики

Теги: text miningтекстовая аналитика

Получить доступ к любым объемам данных сегодня достаточно просто, а вот «выудить» из них полезную информацию — нет. Всевозможные системы архивации позволяют хранить текстовые данные на различных носителях. С одной стороны, это помогает принимать быстрые и эффективные решения, с другой — инструментов для анализа всей этой информации порой просто не хватает.

Задачу по сбору и обработке данных из внешних источников (соцсети, форумы, отзывы клиентов), решает текстовая аналитика. Семантический анализ неструктурированных текстовых данных позволяет компаниям найти интересующую информацию и разбить ее по категориям.

Почему это важно? Бесспорно, основной элемент «информационной разведки» — анализ фактов. Определение того, какие факты нужны и полезны компании и отделение их от слухов или вымысла, как правило, проходит следующим образом:

определение наиболее актуальных «заявлений» или «запросов» из тысяч доступных источников;
анализ контекстной информации в максимально возможных объемах, чтобы оценить их обоснованность;
сбор доказательств и предоставление информации конечному потребителю.

Например, вы хотите знать, когда ваши конкуренты планируют представить новый продукт, изменить стратегию или начать освоение новых рынков. Для этого нужно разделить имеющиеся заявления о конкурирующей компании на несколько типов — от новостей и блогов до постов в социальных медиа.

Для получения эффективного и значимого результата вам потребуются не только квалифицированные кадры, но и соответствующее программное обеспечение.

Давайте разберемся, какие задачи должны решать инструменты текстовой аналитики. Безусловно, уметь «читать» и анализировать текст. При этом конечный результат должен отвечать 5 ключевым характеристикам:

1) Конкретность и категорийность. Если вы заинтересованы в мониторинге инноваций, внедряемых вашими конкурентами, — выбранный инструмент должен анализировать заявления и запросы, связанные с «анонсированием продукта» или «приобретением/регистрацией патента». Следует учитывать, что такая информация может быть записана в различных формах, с использованием разных стилей письма и визуальных изображений, разного набора слов. Такие данные легко воспринимаются человеком и должны также легко распознаваться машиной.

2) Способность выявлять связи между объектами. Система должна быть в состоянии понять, есть ли соответствующая связь между событием и объектом вашего мониторинга. Если вы исследуете деятельность компании Х, и новость гласит, что компания Y под руководством господина Смита, бывшего вице-президента компании X, запустила новый смартфон, то система должна быть достаточно умна, чтобы понять, что компания Х не запускает новый продукт. Этот параметр сможет значительно повысить производительность работы за счет снижения ложных срабатываний системы.

3) Понимание сущности анализируемых запросов, даже если они не включены в начальный целевой список. Вернувшись к изложенному в предыдущем абзаце примеру, отметим, что программа должна суметь определить значимые для анализа, но не связанные с ним непосредственно, факты. Например, господин Смит, хоть и не является уже сотрудником компании интересующего вас конкурента, однако все же его деятельность может представлять определенный интерес для вас, поэтому программа должна сигнализировать о появлении в анализе новостей или информации, связанных с ним.

4) Способность к анализу анафоры (или взаимозаменяемых слов). В приведенном выше примере, при замене второго сочетания «господин Смит» в тексте на «он», система должна понимать, что «он» — это и есть господин Смит, а, следовательно, информация «о нем» актуальна для вашего анализа.

5) Включить создание локальной базы знаний. Анализ информации является постоянной задачей.

Данные должны собираться и храниться в форме, которая может быть легко применима в целях аналитики. Не позволяйте работе выполняться впустую! Подбирайте только надежные и удобные инструменты тестовой аналитики, способные максимально точно выполнить поставленные перед ними задачи.

Алена Успешная, DataReview

5 качеств, которыми должен обладать инструмент текстовой аналитики

Добавить комментарий Отменить ответ

Поделиться

Вход

Регистрация