Ученые из Ратгерского университета (США, штат Нью-Джерси) научили нейронную сеть классифицировать произведения мирового искусства по жанрам, стилям и художникам.
Ознакомиться с научной работой можно здесь.
Аннотация
Современные технологии позволяют оцифровывать произведения изобразительного искусства и выкладывать их в Интернет для публичного доступа. При наличии больших коллекций оцифрованных произведений возникает необходимость в разработке мультимедийных систем архивирования и извлечения данных. Важный шаг на этом пути – нахождение визуального сходства между картинами. Чтобы смоделировать это сходство, необходимо определить характерные особенности произведений. Только так возможно найти наиболее эффективную метрику для их классификации.
Цель данной работы – создать «машину», способную давать эстетические оценки на семантическом уровне и, таким образом, категоризировать картины по жанрам, стилям и живописцам; а также генерировать критерии подобия, основываясь на знаниях в области истории искусств.
Детали исследования
База данных
В качестве входных данных авторы использовали коллекцию Wikiart, содержащую более 80 тысяч картин различных художников. Все произведения на сайте разделены по жанрам (портрет, натюрморт и т.д.), стилям (барокко, импрессионизм и т.д.) и техникам написания (масло, акварель и т.д.). Также есть соответствующая классификация по художникам.
Алгоритмы
Чтобы обучить нейронную сеть, исследователи применили несколько алгоритмов, каждый из которых прошел проверку на точность и производительность.
Этапы работы алгоритмов:
- выделение вектора визуальных особенностей;
- приведение полученного вектора особенностей к меньшей размерности при помощи той или иной метрики;
- обучение нейронной сети на определенной выборке;
- тестирование на картинах, не вошедших в обучающую выборку.
Извлечение визуальных особенностей
Под визуальными особенностями в данном случае понимаются характерные параметры изображений, которые условно можно поделить на две группы:
- понятные человеку: направление мазка, цветовая гамма, изображенные формы и т.д.
- понятные машине: отдельные кластеры, полученные вследствие применения метода главных компонент.
Визуальные особенности каждого произведения записывались в виде вектора, размерность которого совпадала с числом особенностей. Для того чтобы использовать эти векторы в задаче классификации, ученые вводили метрику — способ вычисления «схожести» нескольких векторов между собой. На основании этих метрик программа принимала решение о вероятном авторстве картины, а также о ее принадлежности к тому или иному жанру или стилю.
Результаты
Нейронная сеть может определять художника и жанр произведения с точностью до 60%. Сложнее дело обстоит со стилем – здесь точность составляет от 30% до 40%. Тем не менее, программа ученых из Ратгерского университета превзошла своих предшественников – на данный момент она является наиболее точной программой классификации произведений изобразительного искусства.
При этом не все так гладко. Сами исследователи отмечают, что нейронной сети сложно отличать стили «Ренессанс» и «Ранний Ренессанс», «импрессионизм» и «постимпрессионизм». Ниже приведены пары картин, которые принадлежат разным стилям, но были определены программой, как один:
Ученые, по-прежнему, признают, что эксперты в области живописи лучше справляются с задачей классификации, нежели машины. Однако компьютерные программы позволяют значительно сэкономить трудозатраты и время – к тому же, они беспрерывно совершенствуются.
Рецензии
Артем Чернодуб, руководитель направления Computer Vision в ZZ Photo, научный сотрудник отдела Нейротехнологий ИПММС НАНУ:
«Данная статья является примером распространения методов машинного обучения и искусственного интеллекта на предметные области, которые обычно считается уделом для естественного интеллекта. Это задачи, связанные с распознаванием красоты и эстетики, созданием произведений искусства (например, автоматическая генерация музыкальных произведений в стиле Баха) и т.п.
В статье предлагается автоматический метод для классификации картин по стилю, жанру и автору (27 стилей и 45 жанров), для чего была собрана и промаркирована большая база изображений. Кроме классификации, предлагается также способ создания метрики для сравнения картин.
В качестве векторов признаков применяются как хорошо известные HOG, GIST, так и новые признаки на основе глубоких сверточных нейронных сетей, признаки комбинируются по двухуровневой схеме.
По результатам тестирования, разработанные алгоритмы показывают точность около 46%, 60% и 63% для распознавания стиля, жанра и автора.
По работе нельзя понять, насколько хорошими являются полученные результаты, так как не представлены результаты классификации с помощью людей, но очевидно, что пространство для улучшения здесь все еще есть. Будем надеяться, что такие алгоритмы будут развиваться и будет появляться все больше работ для решения компьютером «нестандартных» когнитивных задач.
Возможно, мы доживем до момента, когда появится понятие дизайна «ручной работы» для одежды и бытовых предметов, которые будут стоить очень дорого, продаваться в бутиках и быть немного неряшливыми по сравнению с массовыми вещами, отличный дизайн для которых будет автоматически разрабатываться компьютерами.»