Обзор научной публикации: Машинное чтение и понимание естественного языка

Исследователи Оксфордского университета разработали способ создания универсальных больших наборов данных для обучения компьютера чтению и пониманию естественного языка.

Ознакомиться с оригинальной версией статьи можно здесь.

Аннотация

Научить машину читать и понимать тексты на естественном языке было и остается трудновыполнимой задачей. Так называемые системы машинного чтения (machine reading systems) можно тестировать на предмет их способности отвечать на вопросы по документам, которые они уже «видели» — однако до сегодняшнего дня не существовало достаточно больших наборов данных для обучения и тестирования таких систем.

В данной работе определяется новая методология, которая позволяет избежать «узких мест» и предоставляет большие наборы данных для обучения чтению и пониманию «с учителем». А это, в свою очередь, позволит разработать класс нейронных сетей с глубоким обучением, которые могут научиться читать реальные документы и отвечать на вопросы по их содержанию с минимальными первоначальными знаниями о структуре языка.

Детали исследования

В своей работе исследователи напрямую обращались к проблеме нехватки реальных обучающих данных на естественных языках – и предложили подход, позволяющий составить набор данных для обучения чтения и понимания «с учителем». Выяснилось, что обобщающие предложения и парафразы, вместе с соответствующими документами, можно конвертировать в тройки «контекст-вопрос-ответ» при помощи простых алгоритмов определения сущностей и анонимизации. Этот подход позволил исследователям составить два новых корпуса текстов примерно из миллиона статей (вместе со связанными запросами) с сайтов телеканала CNN и газеты Daily Mail.

Качественный анализ запросов

Чтобы объективно оценить сложность задачи, исследователи провели качественный анализ небольшого набора проверочных данных. Запросы классифицировались по глубине «умозаключений», необходимых для ответа на них, и распределились на шесть категорий. На простые запросы можно было ответить без предварительных синтаксических или семантических изысканий. Лексические запросы требовали лексической генерализации (то есть подбора слова с более широким, обобщенным значением: к примеру, машина должна понимать, что существительное «овчарка» определяет собаку, а прилагательное «лазурный» — синий цвет) – в случае методов, полагающихся в основном на синтаксический анализ, задача усложнялась. Кореферентные запросы нуждались в кореферентной интерпретации (то есть определения отношения между именами — компонентами высказывания, в котором имена ссылаются на один и тот же объект (ситуацию) внеязыковой действительности), а кореферентно-лексические запросы – как в кореферентной интерпретации, так и в лексической генерализации.

Для ответа на сложные запросы требовалось, как пример, определение причинно-следственной зависимости. Все остальные запросы исследователи поместили в категорию не имеющих ответа. Сюда входили двусмысленные запросы, вопросы, ответы на которые невозможно было понять из контекста, а также те запросы, которые по итогам анонимизации были признаны не имеющими ответа. По итогам анализа стало ясно, что около 30% запросов являются сложными, а еще 10% не имеют ответа.

Модели

Традиционно для того, чтобы попытаться научить машину отвечать на вопросы (запросы), используется сразу несколько моделей обработки естественного языка – то есть тех моделей, которые предполагают множество лексических пояснений, структурированные знания об окружающем мире и семантический анализ, а также модели машинного обучения. Исследователи из Оксфорда использовали следующие модели:

  • Каркасно-семантический анализ позволяет моделям определять предикаты и их аргументы – то есть получать доступ к информации о том, «кто, что и кому сделал»;
  • Эталонный тест расстояния между словами;
  • Так называемые длинные нейронные сети с кратковременной памятью в последнее время успешно используются для решения задач, связанных с машинным переводом и языковым моделированием. В случае машинного перевода, глубокие длинные нейронные сети с кратковременной памятью показали свою способность создавать векторное представление длинных последовательностей слов, содержащее достаточно информации для генерации полноценного перевода на другой язык.
  • Модель «внимательного читателя» кодирует сам документ и запросы к нему, используя отдельные двунаправленные однослойные длинные нейронные сети с кратковременной памятью;
  • «Внимательный читатель» способен сконцентрироваться на фрагментах текста, в которых наиболее вероятно содержится ответ на вопрос. Модель «нетерпеливого читателя» работает еще точнее, каждый раз перечитывая фрагменты документа после того, как прочитана одна лексема запроса.

Заключение

Парадигма машинного чтения и понимания с учителем дает надежду на появление систем, полностью способных воспринимать естественный язык. Исследователи из Оксфорда создали методологию, позволяющую создать большое количество троиц «документ-запрос-ответ» при помощи разнообразных моделей обработки естественного языка, в частности, нейронных сетей. Как показало исследование, модели «внимательного» и «нетерпеливого» читателя способны транслировать и интегрировать семантическую информацию «на большие расстояния» — то есть эффективно связывать исходный текст и запрос.

Рецензии:

Дмитрий Усталов, основатель NLPub, аспирант и ведущий программист ИММ УрО РАН:

«Задача машинного понимания текста на естественном языке — своего рода «философский камень» компьютерной лингвистики. Разработки последних лет в области рекуррентных нейронных сетей позволяют создавать все более сложные и точные языковые модели, показывающие очень впечатляющие результаты. Статья “Teaching Machines to Read and Comprehend” посвящена задаче автоматического построения ответов на вопросы при помощи обучения с учителем: выполняется оценка вероятности того, что выбранный ответ корректно отвечает на запрос в определенном контексте.

Как и во многих других задачах обучения с учителем, проблемой является нехватка размеченных данных. Авторы предлагают три модели на основе длинных нейронных сетей с кратковременной памятью, позволяющие создать обучающий набор данных в виде множества троек «контекст–запрос–ответ». Эксперимент с использованием материалов CNN и Daily Mail показал, что самой удачной из этих трех оказалась модель «нетерпеливого читателя», перечитывающая документ с каждым последующим словом запроса.

Несмотря на то, что в приложении к статье авторы разбирают большое количество примеров работы предложенного метода, мне не удалось найти в тексте статьи ссылку ни на демонстрационную версию системы, ни на набор данных для воспроизведения эксперимента. Получается, что другие коллективы будут вынуждены решать проблему с данными повторно. Возможно, это будет исправлено в финальной версии статьи.

Было бы чрезвычайно интересно посмотреть на адаптации этого метода в задачах с похожими формулировками: анализ пользовательских отзывов и их тональности, автоматическое реферирование документов, подготовка дидактических материалов для изучения иностранных языков, и др.»

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =