На пути к «прозрению»: глубокое обучение на виртуальных данных как способ «научить» компьютер видеть

Классическая задача машинного зрения – определение направления взгляда – проста по формулировке, но нетривиальна по сути. Новое решение предложили исследователи из Кембриджского университета, полностью синтезировав набор данных – 3D-изображений глаз – и обучив на нем сверточную нейронную сеть.

Ознакомиться с оригиналом научной публикации можно здесь.

1

 

Аннотация

Анализ изображений человеческих глаз – ключевое решение нескольких задач, связанных с машинным зрением, например, определение формы и оценка направления взгляда. Новейшие методы предполагают длительный сбор данных и их ручное аннотирование – процессы, не только занимающие время, но и порой дающие ненадежные результаты. В данной работе исследователи предложили синтезировать размеченные обучающие данные в виде фотореалистичных изображений глаз.

Для построения динамических моделей глаз и области вокруг них использовались современные методы компьютерной графики, случайным образом синтезировавшие изображения глаз (из различных положений головы, «смотрящие» в разном направлении, при разном «освещении»).  Кроме того, исследователи продемонстрировали преимущества синтезированных обучающих данных (набор получил название SynthesEyes) перед современными методами определения разреза глаз, а также оценки направления взгляда при помощи набора кросс-данных.

Детали исследования

Исследователи начали с того, что создали детализированную виртуальную модель глазного яблока, века и области вокруг глаза. Затем модель применили для различных типов лиц – принадлежащих людям различного возраста, цвета кожи, разреза глаз – и виртуально «сфотографировали» их.

Эти «фотографии» можно описать при помощи четырех различных переменных: позиции камеры, направления взгляда, освещения и модели глаза. Чтобы создать базу данных, исследователи начали с определенной модели глаза в определенном освещении и «заставили» эту модель «смотреть» в определенном направлении. Затем эту модель «фотографировали» с разных углов, после чего изменяли направление взгляда, и процесс повторялся снова – и так далее. Стоит заметить, что реальные изображения демонстрируют широкое разнообразие точек обзора и условий освещения. Целью исследователей было создание набора данных, который по степени разнообразия приближался бы к набору реальных изображений.

На выходе получилась база данных, состоящая из более чем 11 тысяч изображений, полученных при развороте камеры в пределах 40 градусов, при этом направление взгляда изменялось в пределах 90 градусов. Цвет глаз и условия освещения для каждого изображения подбирались случайно.2

Наконец, исследователи использовали полученный набор данных для обучения сверточной нейронной сети распознаванию направления взгляда. Полученный алгоритм далее тестировался на уже реальных изображениях.

Экспериментальная оценка и выводы

Исследователям предстояло также оценить предложенный метод синтетической генерации данных с точки зрения полезности для решения задач определения разреза глаз и направления взгляда.

  1. Задача определения разреза глаз – это задача анализа анатомических особенностей глаза: век, радужки и зрачка. Обычно тот подход основывается либо на моделировании формы (разреза) глаза, опираясь на низкоуровневые признаки изображений (то ест границы), либо на использовании деформируемых моделей, построенных при помощи статистических методов. Демонстрируемый в данной работе подход использует автоматически размеченные данные – а это гарантирует последовательность разметки точек обзора и типажей людей, исключая человеческий фактор и связанные с ним неточности.3
  2. Алгоритмы определения направления взгляда основываются на преобразовании данных напряму из пиксельных изображений глаз. Обучающий наор данных должен учитывать изменения внешнего вида глаз в зависимости от разреза, произволного наклона головы, направления взгляда и условий освещения. Предложенный исследователями метод предполагает более широкое разнообразие условий освещения – а это поможет точнее анализировать «незнакомое» освещение в рамках решения задач в целевой области – включая уже перестающий быть чем-то из области фантастики «зрячий» искусственный интеллект.

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =