Новый алгоритм идентификации действий человека на видео: как это работает?

Алгоритмы искусственного интеллекта могут распознать лица объектов съемки на фото и даже их улыбки. Но идентификация конкретных действий – это куда более сложная задача.
Все объясняется тем, что многие действия (скажем, танец) состоят из более коротких процессов. Если человек запечатлен на фото в движении, то определить, что именно он делает, будет непросто.

Распознавание действий: грамматическая модель

Команда исследователей Массачусетского технологического института и Калифорнийского университета разработали новый, более эффективный алгоритм распознавания действий на видеозаписи. Технология основана на т.н. грамматике естественного языка, созданной специально для компьютера.

«Мы анализируем действие, как предложение. Например, процесс приготовления чая или кофе делится на определенные стадии. Каждая стадия приравнивается к определенному члену предложения: глаголу, прилагательному или наречию», — поясняет научный сотрудник Массачусетского технологического института Хамед Пирсьеваш.

Сродни тому, как в некоторых языках существительное может стоять перед глаголом или после него, а прилагательное — только перед существительным, так и в каждом конкретном процессе соблюдается порядок действий. Пакетик чая в чашку можно положить до или после того, как в чайнике закипит вода — это не имеет значения. Однако, залить воду в чайник нужно обязательно.

Такая грамматическая модель имеет еще одно преимущество: алгоритм способен точно угадывать действия еще до их завершения, поэтому его можно использовать в потоковом видео.

Преимущества нового алгоритма

«Нам давно известно, что все действия человека можно разделить на компоненты (т.н. поддействия). Но что они из себя представляют, для нас остается загадкой. Новый алгоритм дает нам отличную возможность пролить свет на этот, пока еще неразрешенный, вопрос», — отмечает Дэвид Форсайт, профессор компьютерных наук Иллинойского университета

Разные действия, равно как и разные языки, отличаются друг от друга грамматически. Разработчики запрограммировали в алгоритм множество вариантов одного и того же действия, так что на их основе искусственный интеллект способен «написать грамматику» для каждого конкретного случая. Естественно, алгоритм распознает только знакомые ему действия. Пока что ему известны лишь некоторые движения, присущие различным видам спорта.

Благодаря грамматической модели программа работает быстрее и занимает меньше места на диске, нежели ее предыдущие версии. К тому же для работы с ней не требуются специальные костюмы, как, например, для программ по распознаванию жестов. Алгоритм быстро отбрасывает неподходящие варианты действия, тем самым уменьшая расход энергии. Независимо от длины видеозаписи требования к памяти остаются неизменными.

Продукт вполне доступен обычным пользователям ПК, так как системные требования теперь не такие высокие. Несмотря на все явные преимущества искусственного интеллекта, многих беспокоит вопрос о безопасности личной информации. В данном случае, алгоритм полностью контролируется пользователем, так что можно наслаждаться преимуществами «умного» компьютера, не боясь утечки информации.

По материалам: Singularity Hub

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =