О «тайном клубе» и пионерах глубокого обучения

Автор оригинальной публикации: Юрген Шмидхубер (Jürgen Schmidhuber)

Перевод Станислава Петренко

Машинное обучение – это наука о присваивании коэффициентов доверия (credit assignment). Проводя параллель, следует сказать, что сообщество машинного обучения всегда выигрывает от правильного присваивания «коэффициентов доверия» его членам. Изобретатель важного метода должен получить за свое изобретение определенное признание. Изобретатель метода не всегда является его популяризатором. Популяризатор, в свою очередь, тоже должен получить определенное признание за популяризацию метода (но не за его изобретение). Относительно молодые научные направления, такие как машинное обучение, должны принять на вооружение кодекс чести зрелых дисциплин, таких как математика: если вы доказали новую теорему, но при этом использовали метод доказательства, подобный методу, изобретенному кем-то другим, вы должны об этом четко сказать. Если вы «заново изобрели» что-то, что уже было известно до вас, и только потом узнали, что не являетесь первооткрывателем, вы обязаны хотя бы постфактум прояснить этот вопрос.

В связи с этим, позвольте мне представить вам критику статьи «Глубокое обучение» («Deep learning»), недавно опубликованной в журнале «Nature» (2015). Соавторами статьи выступили Лекун (LeCun), Бенджио (Bengio) и Хинтон (Hinton), являющиеся сотрудниками Канадского института перспективных исследований (Canadian Institute for Advanced Research, CIFAR) и называющие себя «тайным клубом глубокого обучения» («Deep Learning Conspiracy»). Они широко цитируют друг друга, но, к сожалению, забыли упомянуть пионеров области, берущей свое начало полвека назад.

1. В своей статье авторы даже не упомянули отца глубокого обучения, Алексея Григорьевича Ивахненко (Alexey Grigorevich Ivakhnenko), который опубликовал первые общие рабочие алгоритмы глубокого обучения [Ivakhnenko and Lapa, 1965]. В публикации 1971 года им уже была описана глубокая нейронная сеть с 8-ю слоями [Ivakhnenko, 1971], обученная с помощью метода, нашедшего широкое применение и популярного по сей день. В рамках этого подхода для данного обучающего набора входных векторов и соответствующих целевых выходных векторов, слои аддитивных и мультипликативных узлов, подобных нейронам, пошагово формируются и обучаются посредством регрессионного анализа. Затем избыточные узлы удаляются с помощью отдельного валидационного набора данных и регуляризации. Количество слоев и количество узлов в слое определяется согласно специфике данной задачи.

2. Авторы обсуждают значимость и проблемы обучения посредством метода обратного распространения ошибки (МОРО, backpropagation, BP), основанного на методе градиентного спуска (МГС, gradient descent, GD). Они цитируют свои собственные работы по МОРО плюс несколько других, но при этом не упоминают изобретателей этого метода. Непрерывная форма МОРО была получена в начале 1960-х [Bryson, 1961; Kelley, 1960; Bryson and Ho, 1969]. Затем был опубликован элегантный способ реализации только на основе цепного правила (chain rule) [Dreyfus, 1962]. В 1970 году была опубликована современная эффективная версия МОРО для дискретных разреженных сетей (включая код на Fortran) [Linnainmaa, 1970]. Далее МОРО был использован для изменения весов контроллеров пропорционально градиентам [Dreyfus, 1973]. К 1980 году машинное дифференцирование позволило применять МОРО для любых дифференцируемых функций [Speelpenning, 1980]. В 1982 году опубликовано первое приложение МОРО для ИНС [Werbos, 1982]. В этой работе получили развитие положения из диссертации 1974 года [Werbos, 1974], которая цитируется авторами, но тем не менее не содержит современную эффективную версию МОРО [Linnainmaa, 1970]. В 1986 году было показано, что применение МОРО для ИНС на компьютерах, которые в 10 000 раз быстрее компьютеров из 1960-х (на один доллар цены), позволяет получить эффективные внутренние представления [Rumelhart et al., 1986]. В данной работе также не были упомянуты изобретатели МОРО.

3. Авторы утверждают: «Интерес к глубоким нейронным сетям прямого распространения (НСПР, feedforward network, FNN) был возрожден в 2006 году группой исследователей из CIFAR». Они ссылаются только на свою собственную лабораторию, что несправедливо. Например, до 2006 года многие исследователи уже десятилетиями использовали глубокие сети, основанные на концепции Ивахненко. Авторы также проигнорировали более ранние исследования в данной области, финансируемые другими организациями. Например, они не упомянули глубокие иерархические сверточные нейронные пирамиды абстракций (deep hierarchical convolutional neural abstraction pyramid) [Behnke, 2003b], которые обучались для восстановления изображений, поврежденных структурированным шумом. При этом более глубокие слои отвечали за представления изображения более высоких уровней абстракции. (Кстати, термин «глубокое обучение», являющийся непосредственным названием обсуждаемой статьи, был введен в область машинного обучения в работе [Dechter, 1986], а в область нейронных сетей – в работе [Aizenberg et al., 2000] . Данные работы также не были упомянуты в статье.)

4. Авторы ссылаются на свою собственную работу (опубликованную после 2006 года), в которой рассматривается предобучение без учителя (unsupervised pre-training) глубоких НСПР перед их тонкой настройкой с помощью МОРО. При этом они забыли сказать, что этот подход по духу и по обоснованию очень похож на подход, описанный в намного более ранней успешной работе, в которой рассматривается предобучение без учителя глубоких рекуррентных нейронных сетей (РНС, recurrent neural network, RNN), называемых нейронными компрессорами истории (neural history compressor) [Schmidhuber, 1992b, 1993b]. Такие РНС являются даже более общим случаем, чем НСПР. Первая РНС применяет обучение без учителя, чтобы предсказать свой следующий вход. Каждая следующая РНС более высокого уровня старается обучиться сжатому представлению (compressed representation) информации в РНС предыдущего уровня, чтобы минимизировать длину описания (или отрицательную лог-вероятность (log probability)) данных. РНС самого верхнего уровня затем может легко классифицировать данные посредством обучения с учителем. Можно даже преобразовать медленную РНС более высокого уровня («учитель») в быструю РНС более низкого уровня («ученик»), заставив вторую из них прогнозировать скрытые нейроны первой. Такие системы позволили решать неразрешимые прежде задачи очень глубокого обучения и еще в 1990-х (задолго до 2006 года) положили начало нашей обширной серии успешных методов глубокого обучения (исследования финансировались SNF (Швейцария), DFG (Германия) и др.). При этом все были вынуждены ждать появления более быстрых компьютеров, чтобы внедрение очень глубокого обучения стало коммерчески целесообразным. Авторы также проигнорировали более ранние НСПР, для которых применялось предобучение без учителя перед использованием МОРО [Maclin and Shavlik, 1995]. Они цитируют работы Бенджио, опубликованные после 2006 года, где рассматриваются стеки автокодеров с обучением без учителя (unsupervised stacks of autoencoders), но не упомянули первоначальную работу по этой теме [Ballard, 1987].

5. Авторы написали, что «обучение без учителя оказало каталитический эффект на возрождение интереса к глубокому обучению, но потом оказалось в тени успехов обучения с учителем». И снова они ссылаются только на собственные работы, опубликованные после 2005 года. Однако еще до 2005 года переход от обучения без учителя к обучению с учителем был далеко не новинкой, потому что еще в 1990-х наши компрессоры истории, основанные на РНС с обучением без учителя (см. выше), в большинстве были вытеснены нашими LSTM-сетями (long short-term memory network, сеть с длительной кратковременной памятью), основанными на РНС с обучением с учителем. Данные LSTM-сети сейчас широко применяются в промышленности и науке для обработки последовательностей, например, голоса и видео. В 2010 году история повторилась: НСПР, обучаемые без учителя, были вытеснены НСПР, обучаемыми с учителем. Это произошло после того, как наша глубокая НСПР, работающая на GPU [Ciresan et al., 2010], обученная посредством МОРО с искажением обучающих данных [Baird, 1990], установила новый рекорд на знаменитом наборе данных рукописных цифр MNIST. Это результат говорил о том, что эффективное использование современных вычислительных средств имеет большее значение, чем достижения в области алгоритмов. Хотя авторы отметили значимость быстрых реализаций нейронных сетей с применением GPU, они не назвали создателей этого подхода [Oh and Jung, 2004].

6. В контексте сверточных нейронных сетей (СНС, convolutional neural network, CNN) авторы упомянули метод субдискретизации (pooling), но не назвали его пионера [Weng, 1992], который заменил пространственное усреднение (spatial averaging) [Fukushima, 1979] на субдискретизацию по максимуму (max-pooling). Сегодня этот подход широко используется многими исследователями, в том числе авторами обсуждаемой статьи, написавшими: «СНС по большей части были забыты в мейнстриме компьютерного зрения и машинного обучения, до соревнования ImageNet 2012», цитируя работу [Krizhevsky et al., 2012]. Это неверно. Ранее, система на основе ансамблей СНС с субдискретизацией по максимуму, ускоренная на GPU [Ciresan et al., 2011a], впервые превзошла человека в задаче распознавания образов. Эти результаты были достигнуты в рамках широко известного официального соревнования по распознаванию дорожных знаков IJCNN 2011, проведенного в Кремниевой долине и имеющего отношение к области беспилотных автомобилей. Данная система в два раза превзошла человека и в три раза – ближайшую компьютерную систему, соавтором которой был Лекун. Также она побила еще несколько рекордов в области машинного обучения, и СНС, лежащие в ее основе, уж точно не были «забыты» сообществом. На самом деле, более поздняя система [Krizhevsky et al., 2012] была очень похожа на описанную систему 2011 года. Здесь также следует отметить, что первые официальные международные соревнования, победу в которых одержали СНС, были проведены еще в 2009 году (три соревнования TRECVID) (сравните [Ji et al., 2013]). Ансамбль СНС с субдискретизацией по максимуму, работающий на GPU, также был первой глубокой системой, выигравшей соревнование по обнаружению объектов на больших изображениях. В частности, данная система одержала победу в соревновании ICPR 2012 «Обнаружение митоза на изображениях гистологических срезов для диагностики рака молочной железы» (Mitosis Detection in Breast Cancer Histological Images) [Ciresan et al., 2013]. Похожая система была первой глубокой НСПР, выигравшей соревнование по сегментации изображений, в частности, соревнование ISBI 2012 «Сегментация нейронных структур на изображениях электронного микроскопа» (Segmentation of Neuronal Structures in EM Stacks) [Ciresan et al., 2012a].

7. Авторы описывают свой успех, достигнутый в области распознавании речи с помощью НСПР в 2009 и 2012 годах, но не говорят о том, что глубокие LSTM-РНС превзошли традиционные системы распознавания речи еще в 2007 году [Fernandez et al., 2007], а к 2009 году также превзошли и традиционные системы распознавания рукописного текста со связанными символами. Кроме того, они умолчали о том, что в настоящее время на конференциях по распознаванию речи доминируют именно (LSTM-) РНС, а не НСПР. Авторы цитируют работу Хинтона, в которой рассматриваются LSTM-РНС с несколькими LSTM-слоями, но этот подход был впервые применен намного раньше [Fernandez et al., 2007].

8. В своей статье авторы упоминают некоторые новейшие технологии, такие как «сети с памятью» (memory network) и «нейронные машины Тьюринга» (neural Turing machine) (название не совсем верно, потому что они не обладают неограниченным количеством ячеек памяти, как настоящие машины Тьюринга). При этом они проигнорировали очень похожие подходы, предложенные в начале 1990-х, в частности, нейронные стековые машины (neural stack machine), сети с быстрыми весами (fast weight network), а также самореферентные РНС (self-referential RNN), которые могут быстро модифицировать собственные веса во время выполнения, и т.д. (см. AMAmemory 2015). Они написали, что «нейронные машины Тьюринга могут обучаться алгоритмам», как будто это что-то новое. На самом деле, LSTM-РНС приобрели эту возможность многими годами ранее и обучались даже целым обучающим алгоритмам [Hochreiter et al., 2001b].

9. Авторы упоминают «РНС, использующие обучение с подкреплением (reinforcement learning), чтобы решить, где искать», но при этом они забыли о том, что было представлено им четверть века назад [Schmidhuber & Huber, 1991]. Также сравните с недавней работой «Поиск сжатых представлений больших управляющих вниманием РНС» («Compressed NN Search for large attention-directing RNNs») (Koutnik et al., 2013).

И еще одно маленькое замечание. Авторы утверждают, что «начало эпохи распознавания образов» относится к 1950-м годам. Однако описанные ими методы по сути очень похожи на линейные регрессоры (linear regressor) начала 1800-х, предложенные Гауссом и Лежандром. Гаусс использовал этот подход для поиска прогнозных признаков в наблюдениях Цереры.

Несмотря на то, что за авторами обсуждаемой статьи стоят лучшие PR-машины западного мира (Хинтон работает в Google, Лекун – в Facebook), в долгосрочной перспективе исторические научные факты (зафиксированные в публикациях) окажутся сильнее любого пиара. Сфера глубокого обучения имеет богатую историю достижений, и сообщество в целом только выиграет, по достоинству оценив ее истоки.

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =