Обзор научной публикации: Классификация картин при помощи нейронных сетей

Ученые из Ратгерского университета (США, штат Нью-Джерси) научили нейронную сеть классифицировать произведения мирового искусства по жанрам, стилям и художникам.

Ознакомиться с научной работой можно здесь.

Аннотация

Современные технологии позволяют оцифровывать произведения изобразительного искусства и выкладывать их в Интернет для публичного доступа. При наличии больших коллекций оцифрованных произведений возникает необходимость в разработке мультимедийных систем архивирования и извлечения данных. Важный шаг на этом пути – нахождение визуального сходства между картинами. Чтобы смоделировать это сходство, необходимо определить характерные особенности произведений. Только так возможно найти наиболее эффективную метрику для их классификации.

Цель данной работы – создать «машину», способную давать эстетические оценки на семантическом уровне и, таким образом, категоризировать картины по жанрам, стилям и живописцам; а также генерировать критерии подобия, основываясь на знаниях в области истории искусств.

Детали исследования

База данных

В качестве входных данных авторы использовали коллекцию Wikiart, содержащую более 80 тысяч картин различных художников. Все произведения на сайте разделены по жанрам (портрет, натюрморт и т.д.), стилям (барокко, импрессионизм и т.д.) и техникам написания (масло, акварель и т.д.). Также есть соответствующая классификация по художникам.

Алгоритмы

Чтобы обучить нейронную сеть, исследователи применили несколько алгоритмов, каждый из которых прошел проверку на точность и производительность.

Этапы работы алгоритмов:

  1. выделение вектора визуальных особенностей;
  2. приведение полученного вектора особенностей к меньшей размерности при помощи той или иной метрики;
  3. обучение нейронной сети на определенной выборке;
  4. тестирование на картинах, не вошедших в обучающую выборку.

Извлечение визуальных особенностей

Под визуальными особенностями в данном случае понимаются характерные параметры изображений, которые условно можно поделить на две группы:

  • понятные человеку: направление мазка, цветовая гамма, изображенные формы и т.д.
  • понятные машине: отдельные кластеры, полученные вследствие применения метода главных компонент.

1

Визуальные особенности каждого произведения записывались в виде вектора, размерность которого совпадала с числом особенностей. Для того чтобы использовать эти векторы в задаче классификации, ученые вводили метрику — способ вычисления «схожести» нескольких векторов между собой. На основании этих метрик программа принимала решение о вероятном авторстве картины, а также о ее принадлежности к тому или иному жанру или стилю.

Результаты

Нейронная сеть может определять художника и жанр произведения с точностью до 60%. Сложнее дело обстоит со стилем – здесь точность составляет от 30% до 40%. Тем не менее, программа ученых из Ратгерского университета превзошла своих предшественников – на данный момент она является наиболее точной программой классификации произведений изобразительного искусства.

При этом не все так гладко. Сами исследователи отмечают, что нейронной сети сложно отличать стили «Ренессанс» и «Ранний Ренессанс», «импрессионизм» и «постимпрессионизм». Ниже приведены пары картин, которые принадлежат разным стилям, но были определены программой, как один:

2

Ученые, по-прежнему, признают, что эксперты в области живописи лучше справляются с задачей классификации, нежели машины. Однако компьютерные программы позволяют значительно сэкономить трудозатраты и время – к тому же, они беспрерывно совершенствуются.

Рецензии

Артем Чернодуб, руководитель направления Computer Vision в ZZ Photo, научный сотрудник отдела Нейротехнологий ИПММС НАНУ:

«Данная статья является примером распространения методов машинного обучения и искусственного интеллекта на предметные области, которые обычно считается уделом для естественного интеллекта. Это задачи, связанные с распознаванием красоты и эстетики, созданием произведений искусства (например, автоматическая генерация музыкальных произведений в стиле Баха) и т.п.

В статье предлагается автоматический метод для классификации картин по стилю, жанру и автору (27 стилей и 45 жанров), для чего была собрана и промаркирована большая база изображений. Кроме классификации, предлагается также способ создания метрики для сравнения картин.

В качестве векторов признаков применяются как хорошо известные HOG, GIST, так и новые признаки на основе глубоких сверточных нейронных сетей, признаки комбинируются по двухуровневой схеме.

По результатам тестирования, разработанные алгоритмы показывают точность около 46%, 60% и 63% для распознавания стиля, жанра и автора.

По работе нельзя понять, насколько хорошими являются полученные результаты, так как не представлены результаты классификации с помощью людей, но очевидно, что пространство для улучшения здесь все еще есть. Будем надеяться, что такие алгоритмы будут развиваться и будет появляться все больше работ для решения компьютером «нестандартных» когнитивных задач.

Возможно, мы доживем до момента, когда появится понятие дизайна «ручной работы» для одежды и бытовых предметов, которые будут стоить очень дорого, продаваться в бутиках и быть немного неряшливыми по сравнению с массовыми вещами, отличный дизайн для которых будет автоматически разрабатываться компьютерами.»

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =