Алгоритмы разума: Что машинное обучение может рассказать нам о самих себе

«Наука часто следует за технологией, поскольку изобретения дают нам новые методы для изучения окружающего мира и новые явления, нуждающиеся в объяснении».

Именно об этом говорит Арам Харроу (Aram Harrow), профессор физики Массачусетского технологического института, в своей публикации «Why now is the right time to study quantum computing» («Почему сейчас самое подходящее время для изучения квантовых вычислений»).

Он считает, что научная идея энтропии не могла быть осмыслена в полной мере, пока технология парового двигателя не потребовала понимания термодинамики. Аналогичным образом квантовые вычисления возникли в результате попыток смоделировать квантовую механику на обычных компьютерах.

Каким же образом все это связано с машинным обучением?

Машинное обучение – это технология, также как и паровой двигатель, предназначенная для решения специфичных классов задач. Тем не менее, результаты из этой области дают нам интригующие и, возможно, фундаментальные научные сведения о том, как работает наш мозг, как он воспринимает информацию и учится. Технология машинного обучения дает нам возможность по-новому взглянуть на науку о человеческом мышлении… и воображении.

Не компьютерное зрение, а компьютерное воображение

Пять лет назад Джефф Хинтон (Geoff Hinton), пионер в области глубокого обучения (который сейчас работает в Торонтском университете и в Google), опубликовал следующий демонстрационный пример.

Хинтон обучил пятислойную нейронную сеть распознавать рукописные цифры по их растровым изображениям. Такая форма компьютерного зрения обеспечивала машиночитаемость рукописного текста.

Но в отличие от предыдущих работ по данной теме, основная цель которых состояла в том, чтобы просто распознать цифры, сеть Хинтона также могла работать в обратном направлении. То есть на основе понятия цифры, она могла воссоздать изображение, соответствующие именно этому понятию.

Мы видим, как машина, в буквальном смысле, воссоздает в своем «воображении» визуальный образ на основе понятия «8».

Магия закодирована в слоях между входами и выходами. Эти слои работают, как своего рода ассоциативная память, выполняющая отображение в обоих направлениях: от изображения к понятию и от понятия к изображению. И все это в пределах одной нейронной сети.

Может ли таким же образом работать человеческое воображение?

Но, выходя за рамки упрощенной, вдохновленной человеческим мозгом технологии машинного зрения, появляется более глобальный научный вопрос: может ли подобным образом работать человеческое воображение (визуализация)? Если да, то можно воскликнуть: «Эврика!»

Ведь разве это не то, что наш мозг делает вполне естественно? Когда мы видим цифру 4, мы думаем о понятии «4». И наоборот, когда кто-то говорит «8», мы можем вызвать в своем воображении визуальный образ цифры 8.

Возможно, наш мозг работает в «обратном направлении» таким же образом, как и искусственная нейронная сеть, то есть осуществляет переход от понятия к изображению (или звуку, запаху, ощущению и т.д.) с помощью информации, закодированной в слоях. Ведь мы же наблюдали, как искусственная нейронная сеть создает в процессе новые изображения, а в своей более совершенной форме, возможно, даже может создавать новые внутренние связи.

Понятие и созерцание

Если визуальное распознавание и воображение действительно являются всего лишь операциями отображения между изображениями и понятиями, выполняющимися в противоположных направлениях, что же тогда происходит между слоями? Могут ли глубокие нейронные сети предложить нам какие-либо идеи или аналогии по этому вопросу?

Для начала давайте вернемся на 234 года назад и обратимся к произведению Иммануила Канта под названием «Критика чистого разума», в котором он утверждает, что «созерцание есть только представление о явлении».

1-ihobuo6jX0CgGXQc4GeeiA

***

На рисунке  — фрагмент из «Критики чистого разума» в переводе на английский.

Классический русский перевод Н. Лосского данного фрагмента:

И. Кант. Соч. в 6-ти томах. 1964. Том 3

Чтобы избежать недоразумений, необходимо прежде всего как можно отчетливее объяснить наш взгляд на основное свойство чувственного познания вообще. Выше мы хотели сказать, что всякое наше созерцание есть только представление о явлении, что вещи, которые мы созерцаем, сами по себе не таковы, как мы их созерцаем, и что отношения их сами по себе не таковы, как они нам являются, и если бы мы устранили наш субъект или же …

***

Кант считал, что человеческое знание не может быть следствием одного только рационального мышления. Он утверждал, что в формировании знания неизбежно участвует созерцание. Согласно его определению, «созерцание» – это представление, оставленное в разуме человека чувственным восприятием, а «понятие» – это описание эмпирического предмета или чувственной информации. Вместе эти составляющие формируют человеческое знание.

Спустя два столетия, Алеша Эфрос (Alyosha Efros), профессор Калифорнийского университета в Беркли, специализирующийся на визуальном понимании (visual understanding), отметил, что «в нашем визуальном мире существует намного больше вещей, чем слов, чтобы описать их». Использование слов в качестве меток для обучения моделей, как утверждает Эфрос, накладывает на наши технологии языковое ограничение. Количество созерцаемых явлений, не имеющих названия, намного больше, чем количество доступных нам слов.

Существует интригующее соответствие между Меткой (Label) в машинном обучении и человеческим Понятием (Concept), а также между Кодированием (Encoding) в машинном обучении и человеческим Созерцанием (Intuition)

Существует интригующее соответствие между Меткой (Label) в машинном обучении и человеческим Понятием (Concept), а также между Кодированием (Encoding) в машинном обучении и человеческим Созерцанием (Intuition)

При обучении глубоких сетей, как, например, в основополагающей работе, посвященной «распознаванию котов», которой руководил Куок Ле (Quoc Le) в Google и в Стэнфордском университете, мы обнаруживаем, что активации в последовательных слоях распространяются от более низких понятийных уровней к более высоким. Распознающая сеть кодирует растровые изображения в самом нижнем слое, затем легко различимые углы и края – в следующем слое, простые формы – в следующем слое, и т.д. Промежуточные слои не обязательно должны иметь какие-либо активации, непосредственно соответствующие понятиям высокого уровня, таким как «кот» или «собака». При этом они кодируют распределенное представление входной информации. Только последний выходной слой имеет отображение на заданные человеком метки, потому что он ограничен этими метками и вынужден соответствовать им.

Неужели это и есть Созерцание?

Таким образом, рассмотренные выше кодирование и метки, похоже, в точности соответствуют тому, что Кант называл «созерцанием» и «понятиями».

Это еще один пример того случая, когда технология машинного обучения дает нам ключи к пониманию принципов человеческого мышления. Диаграмма сети, представленная на рисунке выше, заставляет нас задуматься, неужели это и есть архитектура Созерцания, пусть даже значительно упрощенная?

Полемика вокруг гипотезы Сепира-Уорфа

Если, как отмечает Эфрос, существует гораздо больше явлений, чем слов, которые могут их описать, тогда возникает вопрос: ограничивают ли слова наше мышление? Этот вопрос находится в центре гипотезы Сепира-Уорфа (Sapir-Whorf hypothesis) или, как ее еще называют, гипотезы лингвистической относительности (linguistic relativity hypothesis). Вокруг него разворачивается полемика относительно того, действительно ли язык полностью определяет границы нашего познания, или же мы можем осмыслить что угодно, независимо от языка, на котором говорим.

В своей сильной форме эта гипотеза утверждает, что структура и лексика языка накладывают ограничения на то, как человек воспринимает и осмысливает окружающий мир.

Можете ли вы найти квадрат, отличающийся по цвету от всех остальных? Представители народа Химба, в языке которых присутствуют отдельные названия для каждого из двух оттенков зеленого, могут сделать это мгновенно

Можете ли вы найти квадрат, отличающийся по цвету от всех остальных? Представители народа Химба, в языке которых присутствуют отдельные названия для каждого из двух оттенков зеленого, могут сделать это мгновенно

Наиболее впечатляющие результаты дает цветовой тест, представленный выше. Суть теста заключается в том, что на рисунке необходимо найти квадрат, отличающийся по цвету от всех остальных. Представители народа Химба из северной Намибии, в языке которых присутствуют отдельные названия для каждого из двух оттенков зеленого, могут сделать это почти мгновенно.

Однако для всех остальных это здание представляет существенную сложность.

Теоретически это означает, что если у нас есть разные слова, описывающие разные оттенки, наш мозг будет обучать себя различать эти оттенки, вследствие чего со временем различие будет становиться все более и более «очевидным». Когда мы видим с помощью мозга, а не с помощью глаз, язык определяет наше восприятие.

Мы видим с помощью мозга, а не с помощью глаз.

В области машинного обучения мы наблюдаем нечто подобное. При обучении с учителем, мы обучаем наши модели, чтобы они как можно точнее присваивали изображениям (или тексту, звуку, др.) соответствующие метки или категории. По определению, эти модели обучаются таким образом, чтобы намного более эффективно различать категории, для которых предусмотрены метки, чем другие возможные категории, для которых метки не предусмотрены. При взгляде на этот тезис с точки зрения машинного обучения с учителем, он вовсе не кажется удивительным. Поэтому, возможно, мы также не должны слишком удивляться результатам цветового теста, рассмотренного выше. Язык действительно влияет на наше восприятие окружающего мира, точно так же, как метки при машинном обучении с учителем влияют на способность модели различать категории.

При этом мы также знаем, что наличие меток не является обязательным условием для того, чтобы различать категории. В рамках проекта компании Google по «распознаванию котов», нейронная сеть в конечном итоге сформировала понятия «кот», «собака» и т.д. полностью самостоятельно, без обучения алгоритма с помощью меток. После такого обучения без учителя, всякий раз, когда сеть получала на входе изображение, принадлежащее к определенной категории, например «коты», всегда активировался один и тот же соответствующий набор нейронов. Проанализировав огромное количество обучающих изображений, эта сеть выделила характерные признаки каждой категории, а также отличия между ними.

Точно так же, если младенцу многократно показывать бумажный стаканчик, то скоро он будет распознавать визуальный образ данного предмета, даже задолго до того, как выучит слова «бумажный стаканчик», чтобы связать название с образом. В этом смысле сильная форма гипотезы Сепира-Уорфа не является полностью справедливой, потому что мы можем, и по факту формируем понятия даже без использования слов для их описания.

Как мы видим, машинное обучение с учителем и без учителя представляют собой две стороны одной медали. И если рассматривать их в качестве таковых, возможно, гипотеза Сепира-Уорфа не будет столь спорной, а будет скорее отражением человеческого обучения с учителем и без учителя.

По материалам: Medium

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =