Анализ тональности текста: концепция, методы, области применения

В этой статье мы расскажем о сентимент-анализе (sentiment analysis), или, как эту концепцию принято называть в русскоязычных научных кругах, анализе тональности текста, а также объясним, почему этот метод важен для развития многих сфер деятельности человека и как он связан с миром больших данных.

Концепция

Об обработке естественного языка сегодня много говорят – причем, не только в научных кругах, где эта концепция справедливо считается основополагающей для дальнейшего развития искусственного интеллекта, но и среди наших с вами коллег, студентов и просто интересующихся современным положением дел в IT-индустрии.

Среди наиболее интересных и популярных методов этого широкого научного направления особняком стоит один, носящий название sentiment analysis, что в переводе на научный русский означает «анализ тональности текстов». Общее определение гласит, что анализ тональности текстов – это класс методов контент-анализа, предназначенный для автоматического выявления в тексте эмоционально окрашенной лексики, а также мнений (эмоциональных оценок) автора по поводу объектов, о которых идет речь в тексте.

Области применения

Из определения можно сделать несколько выводов о том, где теоретически (и, если уж на то пошло, практически) концепция анализа тональности текста могла бы найти применение и прояснить некоторые ее детали.

  • Во-первых, анализ тональности текстов способен помочь разобраться в законах, по которым живет естественный язык и научить компьютер воспринимать его на уровне, приближенном к человеческому. До недавнего времени машина понимала тексты на абстрактном уровне – в основном, через лексемы (слова), которые для нее обладали формой (набор букв) и содержанием (значение). Данная концепция предлагает ввести еще одну функцию – так называемую лексическую тональность текста (в простейшем случае она будет определяться как сумма лексических тональностей каждой отдельной лексемы).
  • Во-вторых, анализ тональности способен значительно повысить качество машинного перевода. Известно, что эталоном машинного перевода служит результат перевода текста человеком – профессиональным переводчиком. За 50 с лишним лет разработок в этой области исследователи убедились в том, что научить машину «думать, как переводчик» можно лишь приняв во внимание все те соображения, которыми пользуется профессионал, переводя тот или иной текст. Естественно, при переводе не обойтись без первичного анализа текста и отдельных слов – в том числе, анализа тональности как таковой.
  • В-третьих, целью анализа тональности текста может быть некое мнение автора или сам автор. Это – наиболее интересная сфера применения, поскольку здесь видится не только способ делегирования машине некоторых полномочий ученого (например, филолога, который исследует произведение того или иного автора), но и снова попытка приблизить образ мышления компьютера к человеческому. С этой точки зрения анализ тональности, возможно, является одним из самых важных и перспективных шагов к развитию искусственного интеллекта.

Методы

Анализ тональности текста предполагает использование одного или нескольких методов, каждый из которых обладает достоинствами и недостатками:

  • Методы, основанные на правилах и словарях

    В рамках этих подходов текст анализируется на основе заранее составленных тональных словарей. Однако процесс создания этих «фолиантов» очень трудоемкий; основной проблемой является тот факт, что одно и то же слово в разных контекстах может обладать различной тональностью. Это означает, что для адекватной работы системы требуется составить большое количество правил – поэтому чаще всего системы анализа тональности текста создаются с привязкой к определенной предметной области.

  • Методы, основанные на теоретико-графовых моделях

    В рамках этих методов текст изображается в виде графа на основании того предположения, что некоторые слова имеют больший вес и, следовательно, сильнее влияют на тональность всего текста. После ранжирования вершин графа слова классифицируются в соответствии со словарем тональности, где каждому слову присваивается определенная характеристика («положительное», «отрицательное» или «нейтральное»). Результат вычисляется как соотношение количества слов с положительной оценкой к количеству слов с отрицательной оценкой.

  • Методы, основанные на машинном обучении – с учителем и без

    Большие данные могут оказать существенную помощь в обучении нейронных сетей, которые также используются в анализе тональности текста. Причем, точность оценки тональности таким способом возрастает до 85% — по крайней мере, такой цифры удалось достичь ученым из Стэнфорда. Принцип работы программы прост: она строит дерево с оценкой тональности каждого слова, каждой фразы и всего текста целиком. Самое интересное: программа понимает, что изменение порядка слов изменяет тональность текста. Можно предположить, что именно этот факт и обеспечивает такую высокую точность оценки текста и позволяет считать нейронные сети перспективным инструментом такого анализа.

Резюме

Мы с вами рассмотрели одну из самых интересных концепций в мире естественной разработки языка – анализ тональности текста, разобрали области его применения и методы. Однако стоит сказать, что вещи, о которых мы рассказали в этой статье – лишь вершина айсберга. Тема компьютерной лингвистики и ее отдельных направлений поистине неиссякаема и заслуживает более детального рассмотрения. В будущем мы планируем «пролить больше света» на вопросы естественной обработки языка, особенно в контексте их связи с миром big data.

Автор: Елизавета Филиппова

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =