Обработка данных: отбор и создание показателей

Почему специалисты в области даталогии (англ. data science) тратят так много времени на подготовку и обработку данных? Во многих случаях потому, что хотят получить доступ к лучшим показателям (англ. features), с помощью которых смогут строить свои модели.

Для многих приложений, работающих с данными, процесс отбора показателей (англ. feature selectionболее важен, нежели выбор алгоритма:

features-in-ML

Создание новых показателей

Простым примером может послужить интеллектуальный анализ текстов (англ. text mining). Исходные данные — это сырой текст или набор текстовых документов; отобранные показатели — отдельные слова или фразы. В таком случае, показатель указывает, насколько часто то или иное слово/фраза встречается в тексте.

Показатели также используются для классификации и кластеризации документов. Этот процесс, как правило, включает в себя создание новых показателей (feature engineering) и выявление наиболее существенных из них (feature selection).

Методы отбора показателей

Зачем отбирать показатели? Почему бы не использовать уже существующие? Отчасти потому, что вам необходимо простое, легко интерпретируемое и быстрое решение. Для этого нужны показатели с хорошими статистическими характеристиками, которые можно было бы легко растолковать неподготовленному пользователю.

Итак, в пособиях по машинному обучению описываются три основных метода отбора показателей:

  • Эксперт в предметной области может вручную отобрать показатели, однако, когда данных слишком много, этот подход может оказаться неэффективным.

  • Процедуры ранжирования, использующие такие контрольные показатели, как корреляции, информационные критерии и т.д. Они масштабируются до больших наборов данных, но могут выдать весьма странные рекомендации (например, использовать «производство сливочного масла в Бангладеш», чтобы предсказать рост индекса S&P 500).

  • Техники, которые берут обширное пространство показателей и сводят его к низкоразмерному (кластеризация, анализ главных компонентов, разложение матрицы).

В ожидании новых инструментов для оптимизации поиска показателей

На практике создание и отбор показателей — итерационные процессы. Программное обеспечение для статистического анализа давно предусматривает функцию отбора показателей. Но в последнее время исследователи проявляют все больший интерес к данному вопросу. Так, недавно группа ученых из Стэнфорда представила проект расширения языка R — одна из функций будет выполнять отбор показателей.

В то время как многие компании по-прежнему сосредотачивают внимание на алгоритмах, стартапы такие, как ContextRelevant и SparkBeyond, разрабатывают новые инструменты, которые упростят для пользователей процесс создания и отбора показателей.

Перевод Ларисы Шуриги

По материалам: O’Rielly Strata

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =