Обзор научной публикации: Идентификация фотографа по снимкам

Исследователи из Питтсбургского университета создали алгоритм для автоматического определения авторства фотографии. Алгоритм основан на обучении глубокой сверточной нейронной сети «с учителем» на большом наборе данных, состоящем из более 100 000 снимков.

С оригиналом научной публикации можно ознакомиться здесь.

Аннотация

В данной работе представлена новая задача – автоматическое определение авторства фотографии. Чтобы исследовать осуществимость решения этой задачи при помощи современных методов компьютерного зрения, исследователи создали и выложили в публичный доступ новый набор данных, состоящий из более чем 100 тысяч фотографий, снятых 25 широко известными фотографами. Используя этот набор данных, ученые изучили эффективность различных признаков (низкого и высокого уровня, включая CNN-признаки) при решении задачи классификации изображений. Полученные количественные и качественные результаты показали, что признаки высокого уровня (более глубокие) дают существенно лучшие результаты при распознавании, нежели низкоуровневые признаки.

Эти три фотографии сделаны (a) Льюисом Хайном (b) Доротеей Ланж и (c) Марион Уолкотт. Алгоритм смог распознать всех трех фотографов

Эти три фотографии сделаны (a) Льюисом Хайном (b) Доротеей Ланж и (c) Марион Уолкотт. Алгоритм смог распознать всех трех фотографов

Детали исследования

  1. Набор данных

Существенную роль в исследовании сыграл набор данных – он состоял из 119 806 фотографий 25 очень известных фотографов, причем самые ранние снимки относились к эпохе становления фотографии, а самые поздние были сняты в наше время. Таким образом, некоторые фотографии проявлялись с пленки, а некоторые изначально являлись цифровыми.

Каждый снимок из набора данных аннотировался ID автора, названием фотографии, его описанием, предметом фотографии (если он известен) и URL источника. При этом аннотирование происходило под контролем кураторов из Библиотеки Конгресса США и Национальной библиотеки Австралии, предоставивших снимки в пользование исследователям. Таким образом ученые удостоверились в высоком качестве как самого набора данных, так и его аннотаций.

  1. Признаки

Идентификация авторства – сложная задача и зависит от нескольких факторов, поэтому исследователи использовали широкое разнообразие признаков (как высокого, так и низкого уровня) – тех же самых, что и их предшественники.

В данном случае термин «низкоуровневый» означает, что измерения вектора признака не имеют семантического «значения», но при этом каждое из них является прямым продуктом визуальных данных, которые можно получить из изображения в определенном виде. Напротив, каждому измерению вектора высокоуровневого признака соответствует четкое значение (часто соответствующее присутствию объекта на изображении или в определенной части изображения).

Низкоуровневые признаки:

  • Цветная гистограмма L*a*b*. Некоторые фотографы делают исключительно черно-белые снимки, другие – исключительно цветные, а на счету третьих есть и монохромные, и полноцветные работы. Чтобы отследить эти различия между фотографами, исследователи использовали в качестве дескриптора гистограмму цветового пространства L*a*b*, состоящую из 30 измерений. Признаки гистограммы показали хорошие результаты при датировании исторических снимков.
  • GIST. Дескриптор GIST представляет собой низкоуровневую целостную репрезентацию визуального поля, с высокой достоверностью оценивающего такие характеристики как открытость и «неровность» изображения.

Признаки среднего уровня:

  • SURF. Speeded-up Robust Features (надежные ускоренные признаки) – это классический детектор и дескриптор локальных признаков. Последние широко используются для поиска локальных повторяющихся структур в изображениях и являются базой для решения множества задач компьютерного зрения, в том числе определения художника и стилевой принадлежности.

Высокоуровневые признаки:

  • Object Bank. Дескриптор Object Bank создан в результате одновременного запуска большого количества детекторов объектов на одном изображении. Вместо того, чтобы выдать усредненный ответ детекторов, Object Bank использует подход пространственного объединения, который инкапсулирует местонахождение результата выявления объекта в самом дескрипторе. Пространственные отношения между объектами, как полагают исследователи, могут нести некое семантическое значение, которое может использоваться классификатором, обученном на данном дескрипторе.
  • Глубокие сверточные нейронные сети. Сегодня для решения множества задач, связанных с компьютерным зрением, используются глубокие сверточные нейронные сети, причем они отлично работают при обучении на самых разных наборах данных и в качестве метода решения самых различных задач, даже если изначально они были созданы совсем для другого. В данной работе ученые тестировали две глубокие сверточные нейронные сети – Caffenet и Hybrid-CNN. Они обе имеют идентичную архитектуру (исключая выходной уровень), содержа примерно 60 миллионов параметров и 500 тысяч нейронов каждая.
  1. Экспериментальная оценка и результаты

Чтобы оценить эффективность вышеуказанных признаков при решении задачи классификации фотографии, ученые использовали также описанный выше набор данных, причем поскольку число снимков на фотографа существенно варьируется, они случайным образом отобрали по 20 снимков на фотографа, в итоге получив тестовый набор из 460 фотографий (от 23 фотографов, поскольку у двух остальных оказалось менее 200 фотографий). Остальные снимки использовались для обучения.

Авторы использовали мультиклассовый метод опорных векторов (в его вариации one-vs-all, один против всех) и фреймворк, предоставленный одними из предшественников. Все алгоритмы используют линейные ядра и классовые веса – это позволяет решить проблему классового дисбаланса во время обучения. То есть у всех фотографов во время обучения веса остаются одинаковыми, несмотря на то, что количество использованных для обучения снимков для каждого фотографа разное. Исследователи повторили эксперимент более 10 раз, каждый раз меняя набор тестовых изображений – всего по 200 на каждого фотографа.

Количественных данных исследователи не приводят, оценив точность работы алгоритма в целом как «удовлетворительную». При этом эксперименты показали, что высокоуровневые признаки эффективнее справляются с задачей классификации и распознавания, чем признаки более низкого уровня. Кроме того, включив информацию о сцене на снимке, исследователи получили результат, превосходящий полученные их предшественниками результаты использования объектного подхода.

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =