Получить доступ к любым объемам данных сегодня достаточно просто, а вот «выудить» из них полезную информацию — нет. Всевозможные системы архивации позволяют хранить текстовые данные на различных носителях. С одной стороны, это помогает принимать быстрые и эффективные решения, с другой — инструментов для анализа всей этой информации порой просто не хватает.
Задачу по сбору и обработке данных из внешних источников (соцсети, форумы, отзывы клиентов), решает текстовая аналитика. Семантический анализ неструктурированных текстовых данных позволяет компаниям найти интересующую информацию и разбить ее по категориям.
Почему это важно? Бесспорно, основной элемент «информационной разведки» — анализ фактов. Определение того, какие факты нужны и полезны компании и отделение их от слухов или вымысла, как правило, проходит следующим образом:
- определение наиболее актуальных «заявлений» или «запросов» из тысяч доступных источников;
- анализ контекстной информации в максимально возможных объемах, чтобы оценить их обоснованность;
- сбор доказательств и предоставление информации конечному потребителю.
Например, вы хотите знать, когда ваши конкуренты планируют представить новый продукт, изменить стратегию или начать освоение новых рынков. Для этого нужно разделить имеющиеся заявления о конкурирующей компании на несколько типов — от новостей и блогов до постов в социальных медиа.
Для получения эффективного и значимого результата вам потребуются не только квалифицированные кадры, но и соответствующее программное обеспечение.
Давайте разберемся, какие задачи должны решать инструменты текстовой аналитики. Безусловно, уметь «читать» и анализировать текст. При этом конечный результат должен отвечать 5 ключевым характеристикам:
1) Конкретность и категорийность. Если вы заинтересованы в мониторинге инноваций, внедряемых вашими конкурентами, — выбранный инструмент должен анализировать заявления и запросы, связанные с «анонсированием продукта» или «приобретением/регистрацией патента». Следует учитывать, что такая информация может быть записана в различных формах, с использованием разных стилей письма и визуальных изображений, разного набора слов. Такие данные легко воспринимаются человеком и должны также легко распознаваться машиной.
2) Способность выявлять связи между объектами. Система должна быть в состоянии понять, есть ли соответствующая связь между событием и объектом вашего мониторинга. Если вы исследуете деятельность компании Х, и новость гласит, что компания Y под руководством господина Смита, бывшего вице-президента компании X, запустила новый смартфон, то система должна быть достаточно умна, чтобы понять, что компания Х не запускает новый продукт. Этот параметр сможет значительно повысить производительность работы за счет снижения ложных срабатываний системы.
3) Понимание сущности анализируемых запросов, даже если они не включены в начальный целевой список. Вернувшись к изложенному в предыдущем абзаце примеру, отметим, что программа должна суметь определить значимые для анализа, но не связанные с ним непосредственно, факты. Например, господин Смит, хоть и не является уже сотрудником компании интересующего вас конкурента, однако все же его деятельность может представлять определенный интерес для вас, поэтому программа должна сигнализировать о появлении в анализе новостей или информации, связанных с ним.
4) Способность к анализу анафоры (или взаимозаменяемых слов). В приведенном выше примере, при замене второго сочетания «господин Смит» в тексте на «он», система должна понимать, что «он» — это и есть господин Смит, а, следовательно, информация «о нем» актуальна для вашего анализа.
5) Включить создание локальной базы знаний. Анализ информации является постоянной задачей.
Данные должны собираться и храниться в форме, которая может быть легко применима в целях аналитики. Не позволяйте работе выполняться впустую! Подбирайте только надежные и удобные инструменты тестовой аналитики, способные максимально точно выполнить поставленные перед ними задачи.
Алена Успешная, DataReview