Обзор научной публикации: «Полусамостоятельное» обучение искусственной нейронной сети

Финские ученые разработали подход, позволяющий обучать нейронные сети еще более эффективно – одновременно используя обучение с учителем и без учителя. Подробнее с работой можно ознакомиться здесь.

Аннотация

Исследователи объединяют обучение с учителем и обучение без учителя в глубоких нейронных сетях. Предлагаемая модель обучается с одновременной минимизацией суммы функций затрат обучения с учителем и без учителя при помощи метода обратного распространения ошибки, таким образом, избавляя от необходимости послойного предварительного обучения. Данная работа базируется на лестничных сетях (предложенных ранее Х. Валпола (H. Valpola)) – ученые объединили модель и ее обучение с учителем в одном исследовании. Статья демонстрирует, что результирующая модель прекрасно показывает себя при решении различных задач, таких как классификация баз данных MNIST (состоящей из изображений написанных вручную цифр) и CIFAR-10 (БД изображений) в условиях «полусамостоятельного» обучения.

Детали исследования

Предлагаемый подход, как уже было отмечено, базируется на так называемых лестничных сетях, где решается вспомогательная задача устранения шума на изображениях на каждом уровне («ступени») модели. В предыдущих работах такой подход применялся только при обучении без учителя – в данной же статье исследователи рассматривают введение в задачу элементов обучения с учителем.

Ключевые аспекты подхода:

  • Совместимость с методами, предполагающими обучение с учителем. Часть задачи, использующая обучение без учителя, фокусируется на важных деталях, обнаруженных в ходе обучения с учителем. То есть подходом можно пользоваться для работы с уже существующими нейронными сетями с прямой передачей сигнала, например, многослойными перцептронами и сверточными нейронными сетями.
  • Масштабируемость благодаря локальному обучению. Кроме целевой функции обучения с учителем на верхнем уровне, на каждом уровне модели имеются локальные целевые функции обучения без учителя, что делает ее подходящей для работы с очень глубокими нейронными сетями.
  • Вычислительная эффективность. Добавление в модель с кодировщиком декодера, как утверждают исследователи, повышает вычислительную эффективность во время обучения примерно в три раза, при этом вовсе не обязательно увеличивая во столько же раз время обучения – того же результата можно достичь быстрее за счет более эффективного использования доступной информации.

Решение задачи и его обоснование

Модели с ненаблюдаемыми (скрытыми) переменными являются достаточно удобным подходом для «полусамостоятельного» обучения, поскольку они способны принципиально сочетать обучение с учителем и без учителя. Особенно привлекательным свойством таких моделей является их способность обрабатывать детали изображений на нижних слоях (уровнях) сети, тогда как высшие уровни занимаются более абстрактными, инвариантными признаками, которые часто оказываются нужны «под рукой» при решении определенных задач. Процесс обучения моделей со скрытыми переменными можно разделить на два этапа – обнаружение и вычисление правил и собственно обучение, то есть поиск следующей вероятности ненаблюдаемых скрытых переменных и последующее обновление вероятностной модели и приведение ее в соответствие с наблюдениями.

Реализация модели и результаты

Реализация лестничной нейронной сети проходит в три этапа:

  1. Построение (настройка) модели ИНС с прямой передачей сигнала, которая может обучаться с учителем и одновременно служить кодировщиком;
  2. Добавление декодера, который способен инвертировать преобразования на каждом слое кодировщика и при этом поддерживает обучение без учителя;
  3. Обучение всей лестничной ИНС путем минимизации суммы затратных функций.

Предлагаемая модель является простой в использовании и легко реализуется на существующих архитектурах с прямой передачей сигнала, поскольку обучение основано на методе обратного распространения ошибки с использованием простой затратной функции.

Наибольшие успехи в работе данной модели наблюдались в ИНС с большим числом параметров, связанных с несколькими доступными помеченными образцами. Например, при эксперименте с базой данных изображений CIFAR-10 исследователи начали с модели, которая первоначально была разработана исключительно для обучения с учителем. Полученные положительные результаты, по мнению исследователей, могут быть связаны как с тем, что у них была возможность воспользоваться опытом предшественников, так и с тем, что усовершенствованная ими модель способна – и это совершенно естественно – работать с гораздо большим числом параметров, чем любая модель, полностью полагающаяся на обучение с учителем.

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =