Синтез глубоких признаков: на пути к автоматизации Data Science

Ученые из Массачусетского технологического института (MIT) разработали подход, позволяющий автоматизировать процесс выявления и синтеза признаков классификации из сырых данных – тот этап построения прогнозной модели, который ранее предполагал наиболее активное участие человека. Подробнее с работой можно ознакомиться здесь.

Аннотация

В данной работе описывается создание так называемой Data Science Machine, способной автоматически строить прогнозные модели на основании сырых данных. Чтобы достичь подобной автоматизации, исследователи вначале создали алгоритм синтеза глубоких признаков (Deep Feature Synthesis) для автоматической генерации признаков в реляционных наборах данных. Алгоритм прослеживает связи в данных вплоть до базового поля, а затем последовательно применяет математические функции на протяжении всего этого «пути», тем самым создавая окончательные признаки.

Кроме того, в работе рассматривается внедрение обобщаемого канала машинного обучения и его настройка при помощи инновационного подхода, основанного на так называемой копуле Гаусса. Данная модель выставлялась на 3 соревнованиях, где в общей сложности участвовало 906 data science-команд, причем модели удалось обойти разработки 615 из этих команд. В 2 из 3 соревнований модель показала себя лучше большинства представленных разработок, а в третьем соревновании получила балл, составивший 94% от показателя победителя.

Детали исследования и результаты

Исследователи заметили, что очень многие задачи даталогии, например, те, что рассматриваются на Kaggle и различных соревнованиях по Data Science, обладают общими чертами. К примеру, данные в них всегда структурированы и хранятся в виде реляционных таблиц со ссылками. Чтобы решить определенную задачу прогнозирования, data scientist должен вначале сформировать переменные, также называемые признаками. При этом в качестве признаков могут быть использованы статические поля из таблиц с данными (к примеру, пол или возраст), а затем уже интуитивно формируются некие специализированные признаки, которые, возможно, помогут спрогнозировать результат. Затем data scientist может разработать новые признаки, которые будут трансформировать поля с сырыми данными в различные показатели (например, процентиль определенного признака).

Именно эта часть процесса обычно требует наибольшего участия человека, поскольку во многом решения принимаются интуитивно. Хотя в последнее время решения в области автоматической обработки изображений, текста и сигналов достигли определенного уровня автоматизации, процесс выявления признаков для реляционных данных и данных о человеческом поведении остается итеративным, во многом ориентируется на человеческую интуицию и в целом сложным – а, следовательно, весьма трудоемким. В то же время, поскольку эффективность алгоритмов машинного обучения сильно зависит от входных признаков, потенциал для автоматизации (и неплохой) существует.

Итак, исследователи из Массачусетского технологического института разработали алгоритм синтеза глубоких признаков – по природе автоматизированный, однако работающий с признаками, которые обычно определяются интуитивно (при участии человека). После того как признаки сформированы, можно выбрать один из нескольких алгоритмов классификации (svm, нейронные сети и т.д.) и настроить его параметры, либо разделить данные на кластеры и построить кластерные модели.

Для этих целей ученые создали и внедрили генерализированный канал и подход, предусматривающий автоматизированную настройку. Все вместе составило так называемую Data Science Machine – автоматизированную систему генерации прогнозных моделей на основе сырых данных. Она работает с реляционной базой данных, автоматически генерируя признаки, которые затем используются для построения прогнозных моделей. При этом, большинство параметров системы оптимизируются автоматически, таким образом, делая ее универсальным инструментом для решения широкого круга задач data science.

Добавить комментарий

Ваш адрес email не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =