5 качеств, которыми должен обладать инструмент текстовой аналитики

Получить доступ к любым объемам данных сегодня достаточно просто, а вот «выудить» из них полезную информацию — нет. Всевозможные системы архивации позволяют хранить текстовые данные на различных носителях. С одной стороны, это помогает принимать быстрые и эффективные решения, с другой — инструментов для анализа всей этой информации порой просто не хватает.

Задачу по сбору и обработке данных из внешних источников (соцсети, форумы, отзывы клиентов),  решает текстовая аналитика. Семантический анализ неструктурированных текстовых данных позволяет компаниям найти интересующую информацию и разбить ее по категориям.

Почему это важно? Бесспорно, основной элемент «информационной разведки» — анализ фактов. Определение того, какие факты нужны и полезны компании и отделение их от слухов или вымысла, как правило, проходит следующим образом:

  • определение наиболее актуальных «заявлений» или «запросов» из тысяч доступных источников;
  • анализ контекстной информации в максимально возможных объемах, чтобы оценить их обоснованность;
  • сбор доказательств и предоставление информации конечному потребителю.

Например, вы хотите знать, когда ваши конкуренты планируют представить новый продукт, изменить стратегию или начать освоение новых рынков. Для этого нужно разделить имеющиеся заявления о конкурирующей компании на несколько типов — от новостей и блогов до постов в социальных  медиа.

Для получения эффективного и значимого результата вам потребуются не только квалифицированные кадры, но и соответствующее программное обеспечение.

Давайте разберемся, какие задачи должны решать инструменты текстовой аналитики. Безусловно, уметь «читать» и анализировать текст. При этом конечный результат должен отвечать 5 ключевым характеристикам:

1) Конкретность и категорийность. Если вы заинтересованы в мониторинге инноваций, внедряемых вашими конкурентами, — выбранный инструмент должен анализировать заявления и запросы, связанные с «анонсированием продукта» или «приобретением/регистрацией патента». Следует учитывать, что такая информация может быть записана в различных формах, с использованием разных стилей письма и визуальных изображений, разного набора слов. Такие данные легко воспринимаются человеком и должны также легко распознаваться машиной.

2) Способность выявлять связи между объектами. Система должна быть в состоянии понять, есть ли соответствующая связь между событием и объектом вашего мониторинга. Если вы исследуете деятельность компании Х, и новость гласит, что компания Y под руководством господина Смита, бывшего вице-президента компании X, запустила новый смартфон, то система должна быть достаточно умна, чтобы понять, что компания Х не запускает новый продукт. Этот параметр сможет значительно повысить производительность работы за счет снижения ложных срабатываний системы.

3) Понимание сущности анализируемых запросов, даже если они не включены в начальный целевой список. Вернувшись к изложенному в предыдущем абзаце примеру, отметим, что программа должна суметь определить значимые для анализа, но не связанные с ним непосредственно, факты. Например, господин Смит, хоть и не является уже сотрудником компании интересующего вас конкурента, однако все же его деятельность может представлять определенный интерес для вас, поэтому программа должна сигнализировать о появлении в анализе новостей или информации, связанных с ним.

4) Способность к анализу анафоры (или взаимозаменяемых слов). В приведенном выше примере, при замене второго сочетания «господин Смит» в тексте на «он», система должна понимать, что «он» — это и есть господин Смит, а, следовательно, информация «о нем» актуальна для вашего анализа.

5) Включить создание локальной базы знаний. Анализ информации является постоянной задачей.

Данные должны собираться и храниться в форме, которая может быть легко применима в целях аналитики. Не позволяйте работе выполняться впустую! Подбирайте только надежные и удобные инструменты тестовой аналитики, способные максимально точно выполнить поставленные перед ними задачи.

Алена Успешная, DataReview

Добавить комментарий

Ваш адрес email не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =