Fashion-прогноз: Программу научили определять будущих звезд подиума

Теги: машинное обучениенаучные обзорыпрогнозирование в моде

Исследователи из Университета Индианы, США, создали фреймворк, способный прогнозировать профессиональный успех начинающих манекенщиц на основании их параметров и популярности профилей в Instagram. Подробнее с работой можно ознакомиться здесь.

Аннотация

В модной индустрии вращаются миллиарды долларов, при этом она является участником социальных и экономических процессов по всему миру. Популярность модной марки во многом зависит от того, какие модели ее представляют – поэтому каждый бренд хочет быть представлен самыми популярными манекенщицами.

Поскольку каждое новое лицо отбирается по строгим (за что такой подход часто критикуется) эстетическим критериям, делать прогнозы на этот счет достаточно трудно – этот процесс еще больше усложняют огромные каскады информации и фундаментальные механизмы, задающие тенденции. Однако все возрастающая популярность социальных медиа вне индустрии и за ее пределами может сильно повлиять на такое ставшее традиционным положение вещей.

В данной статье исследователи ставят перед собой задачу понять, каковы слагаемые успеха модели в эпоху Instagram. Объединив данные из охватывающей всю индустрию онлайн-базы данных и популярной мобильной платформы для обмена изображениями, ученые применили алгоритм машинного обучения к задаче определения группы моделей, которые по прогнозу оказались бы самыми востребованными в весенне-летнем сезоне 2015 года и следующем за ним сезоне осень-зима 2015-2016.

Разработанный фреймворк успешно «угадал» большинство новых звезд подиума в 2015 году. В частности, был сделан вывод о том, что активное присутствие в социальных медиа, возможно, играет более важную роль, чем контракт с ведущим модельным агентством – или чем соответствие эстетическим критериям, которые в конкретный момент диктует индустрия.

Детали исследования

Источники данных

Исследователи использовали данные с сайта Fashion Model Directory (FMD), одной из крупнейших баз данных профессиональных моделей женского пола. Профили FMD, подобно резюме, содержат биографическую, физическую информацию, опыт работы, наиболее заметные агентства и проходы по подиуму. Заметим, что в исследовании использовался лишь раздел «Новые лица» с самыми последними добавлениями. Экспериментальный набор данных был составлен в декабре 2014 года, всего он состоял из 431 начинающей манекенщицы сезона весна-лето 2015.

Таким образом, в наборе данных FMD каждой модели соответствуют следующие атрибуты: имя, цвет волос, цвет глаз, рост, обхват бедер, размер одежды, обхват талии, размер обуви, список агентств, национальность и информация обо всех проходах по подиуму на счету модели (год, сезон и город). Данные о цвете глаз и волос исследователи отбросили, поскольку цветовая кодировка не является достаточно надежной и не может точно охарактеризовать эти черты. По той же причине не была включена в экспериментальный набор данных и информация о национальности.

Вторым источником данных для эксперимента послужил Instagram, из которого исследователи получили информацию о присутствии моделей из FMD в социальных медиа. Обнаружилось, что всего 59% моделей из списка имеют аккаунт в Instagram. При этом модели, подписавшие контракт с ведущим агентством, составляют 65%, те, что работают с агентствами, не входящими в число топовых, составляют 41%, а модели, не связанные с агентствами, — 40%.

Используя API Instagram, исследователи собрали все медиа-данные, выкладываемые каждой из группы начинающих моделей с FMD за трехмесячный период – с 4 сентября 2014 года, даты начала Недели моды в Нью-Йорке. Метаданные каждого медиаматериала включали число «лайков» и комментариев, а также метаданные первых 125 «лайков» к каждой записи (к примеру, время, когда был поставлен «лайк», никнейм «лайкнувшего» пользователя и т.д.). Наконец, ученые подсчитали минимум, максимум, медиану и среднее число «лайков» и комментариев ко всем записям, загруженным каждой из манекенщиц, а также число записей за рассматриваемый период, в течение трех месяцев до и после событий недели моды. Также, как и в случае данных FMD, все переменные были стандартизированы перед использованием в регрессии.

Методы

Анализ тональности. Для анализа активности моделей в социальных медиа было решено использовать анализ тональности текста, при этом выбраны были только комментарии на английском языке (для определения языка служил простой метод «наивного Байеса»). Для подсчета среднего показателя тональности исследователи использовали Vader – основанный на правилах алгоритм, разработанный специально для решения задач, связанных с социальными медиа и опирающийся на составленный вручную словарь, который отражает грамматические и синтаксические условности, принятые в онлайн-среде.
Прогнозная классификация. Чтобы определить, кого из группы начинающих моделей ждет успех, исследователи использовали алгоритм бинарной классификации. Поскольку большинство моделей из группы никогда не ходили по подиуму, было решено рассмотреть всего два класса: модели, ни разу не прошедшие по подиуму (непопулярные), и модели, побывавшие на подиуме по крайней мере один раз (популярные). Чтобы определить распределение прогнозного показателя, ученые использовали широко известные алгоритмы машинного обучения: деревья решений (Decision Tree, DT), случайный лес (Random Forest, RF) и AdaBoost (AB). Кроме того, исследователи активно пользовались библиотекой scikit-learn.

Эксперименты и результаты

Для каждого алгоритма классификации (DT, RF и AB), исследователи обучили три различные прогнозные модели:

Только параметры модели (рост, обхват бедер и талии, размеры одежды и обуви) – BODY;
Физические параметры и бинарные данные о том, работает ли модель с ведущим агентством или нет – BODY + AGENCY;
Физические параметры, информация по агентству и данные Instagram – число записей, среднее количество полученных «лайков» и комментариев – BODY + AGENCY + INSTA.

Как выяснилось, данные социальных медиа существенно увеличивают точность статистической модели (использовались только данные за период трех месяцев до Недели моды в Нью-Йорке).

Чтобы протестировать объективную прогнозную способность экспериментального фреймворка, ученые предприняли попытку спрогнозировать положение дел на следующий сезон, осень-зима 2015-16 – то есть, поставили эксперимент на совершенно другом наборе данных. Вручную отобрав более новые данные (за май 2015 года), исследователи нашли 15 «новых лиц», причем набор получился достаточно сбалансированным – 8 манекенщиц участвовали как минимум в одном показе, 7 девушек не участвовали ни в одном из четырех основных событий W Fashion Week, проходившей в феврале-марте 2015 года.

Каждый профиль ссылался на аккаунт в Instagram, что позволило применить третью прогнозную модель (BODY + AGENCY + INSTA). Результаты работы самой эффективной прогнозной модели – случайного леса (RF) – впечатляют: показатель AUROC (операционная характеристика площади под кривой ошибок – в сущности, «КПД» прогнозной модели) составляет 81%, при этом алгоритм верно определил 6 из 8 манекенщиц, которые приобрели популярность во время показов сезона осень-зима 2015-16, используя данные только одного прошлого сезона. Кроме того, алгоритм случайного леса также успешно определил 6 из 7 моделей, которые не участвовали ни в одном из основных событий недели моды.

Fashion-прогноз: Программу научили определять будущих звезд подиума

Аннотация

Детали исследования

Эксперименты и результаты

Добавить комментарий Отменить ответ

Поделиться

Вход

Регистрация