Обзор научной публикации: Машинное обучение по видеороликам

Исследователи из французской Высшей нормальной школы разработали алгоритм, автоматически анализирующий видеоинструкции, например, по замене колеса автомобиля. Программа изучает несколько роликов на одну и ту же тему, а на выходе выдает пошаговую инструкцию с иллюстрациями в виде кадров из «просмотренных» ею видео.

Ознакомиться с оригинальной версией статьи можно здесь.

Аннотация

В данной работе исследователи обращаются к вопросам автоматизированного обучения машины выполнению пошаговых действий по обучающим видеороликам с комментариями (например, на тему «как поменять колесо автомобиля»).

Исследование велось в три этапа. На первом этапе была создана сводная модель для анализа видео и комментариев на естественном языке – что исследователи посчитали удобным, поскольку по своей природе звуковая и визуальная информация дополняют друг друга.

В ходе второго этапа были отобраны 57 аннотированных видеороликов из Интернета, в сумме содержащие более 350 тысяч кадров – 30 на тему «как поменять колесо» и 27 инструктирующих по поводу техники сердечно-легочной реанимации.

Наконец, на третьем этапе в ходе экспериментов ученые продемонстрировали, что модель действительно автоматически (без учителя) определяет основные шаги алгоритмов вышеперечисленных действий и «иллюстрирует» их кадрами из видео. Результаты исследования показали, что данная модель справляется со своей задачей эффективнее одиночных, демонстрируя преимущества сводного моделирования видео и аудио.

Детали исследования

Определение ключевых шагов на основе видеоинструкций – задача достаточно сложная и нетривиальная. Во-первых, лингвистические конструкции от видео к видео могут существенно отличаться: сравните, например, фразу «слегка ослабьте гайку крепления колеса перед тем, как начать поддомкрачивать машину…» и «начинайте ослаблять гайки крепления до тех пор, пока не почувствуете, что их легко повернуть рукой…».Безымянный

Во-вторых, визуальное представление каждого шага в разных видео тоже выглядит по-разному – ведь в них участвуют разные люди и объекты, которые взаимодействуют немного по-разному, наконец, инструкции снимаются с разных ракурсов.

В-третьих, сама последовательность действий в инструкциях может разниться – к примеру, в некоторых видео могут отсутствовать определенные шаги, тогда как в других может быть немного изменена их последовательность.

Чтобы учесть все вышеперечисленные особенности, исследователи разработали сводную модель, одновременно анализирующую визуальное представление и комментарии на естественном языке. Благодаря тому, что по своей природе эти виды информации взаимно дополняют друг друга, их анализ в единой модели поможет снизить неопределенность. Ученые исходили из предположения, что одна и та же последовательность шагов является общей для всех видеоинструкций на одну и ту же тему, но точная последовательность и отдельные шаги неизвестны – обучение происходит непосредственно по данным.

Существующие методы моделирования видеоинструкций построены на предположении, что последовательность действий известна и заранее закреплена. В данной же работе исследователи используют метод временной кластеризации видео и текста, когда два процесса кластеризации связаны общими ограничивающими связями. На выходе получается список определенных шагов, дополненный информацией о том, на каком временном отрезке во входном видео находится данный шаг. Эффективность разработанной модели ученые проверили на наборе данных, состоящих из 57 видеоинструкций на две темы и более 350 тысяч кадров.

Модели

  1. Кластеризация транскрибированных словесных инструкций. Цель модели – на основе транскрипций каждого видео определить основные шаги последовательности действий. Исследователи основывались на предположении, что наиболее важные шаги являются общими для всех инструкций и их последовательность (примерно) одинакова во всех видео. Чтобы разобраться с трудностями, связанными с анализом естественного языка, ученые руководствовались тем фактом, что выполнение определенного действия обычно требует взаимодействия с объектами и/или людьми. Следовательно, из входных текстовых данных можно извлечь более структурированную информацию – в этом случае, текстовые данные представляются в виде последовательности прямых связей с объектами. Каждая такая прямая связь – это пара «глагол+существительное» (где глагол обозначает действие, а существительное – собственно объект – например, «сменить колесо»), извлекаемая синтаксическим анализатором из входной транскрибированной инструкции.
  2. Дифференциальная кластеризация видео. Задача кластеризации входных видеопотоков в последовательность шагов определяется как задача дифференциальной кластеризации с ограничителями. Каждый интервал времени представляется в виде многомерного вектора признаков, эволюция которого разбивалась на ключевые блоки.
  3. Ограничивающие связи между словесными описаниями и видео. Ученые использовали два типа ограничивающих связей между двумя моделями кластеризации. Первая ограничивающая связь основана на том факте, что человек производит определенное действие и комментирует его примерно в один и тот же момент времени. Вторая ограничивающая связь представляет то обстоятельство, что последовательность действий, извлеченная как из видео, так и из словесной инструкции, не должна противоречить общей последовательности действий. Поскольку используемые для кластеризации как видео, так и словесных инструкций матрицы достижений связаны, то на выходе получается общая для обоих кластеров, глобальная последовательность действий.

Заключение: экспериментальная оценка

Тестирование готового алгоритма осуществлялось на 57 роликах (и их транскрипциях) – 30 из них были на тему замены колеса, еще 27 – на тему сердечно-легочной реанимации. Полученные в ходе работы алгоритма инструкции затем сравнивались с «базовой» инструкцией, которую авторы предварительно составили вручную.

Исследователи получили следующие результаты: последовательность действий при замене колеса, определенная алгоритмом, оказалась верной на 90%, а в случае инструкции по оказанию первой помощи ему удалось корректно определить 67%  шагов. При этом в обоих случаях алгоритм верно выдавал «иллюстрации» к каждому этапу в виде кадров из видеоинструкций.

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =