Григорий Пятецкий: Переподгонка — «смертный грех» для аналитика

Информационные аналитики или, как их называют на Западе, data scientists — одни из самых востребованных специалистов на рынке ИТ. Какие задачи им приходится решать? С какими трудностями сталкиваться? Эти и другие вопросы DataReview адресовал «пионеру» анализа данных, основоположнику концепции KDD, президенту компании KDnuggets и сыну великого советского математика Григорию Пятецкому-Шапиро.

— Григорий, Вы давно завоевали славу одного из лучших специалистов в области анализа данных. Как Вы поняли, что именно эта сфера деятельности – Ваше призвание?

— Спасибо, Лариса, вы очень добры ко мне, но есть тысячи великолепных специалистов в области анализа данных. Я рад, если вхожу в их число.

Меня знают как одного из пионеров в этой области. Я был организатором трех первых конференций по интеллектуальному анализу данных (KDD-89, 91, 93) и соредактором двух первых книг (Knowledge Discovery in Data, 1991 and Advances In Knowledge Discovery and Data Mining, 1996), помогал в организации Кубка KDD — первого крупного конкурса по интеллектуальному анализу данных в 1997 году, был одним из основателей SIGKDD — группы ACM  по KDD — и возглавлял ее с 2005 по 2009 год.

— И все же, как Вы пришли в эту область?

— В детстве я любил научную фантастику, особенно братьев Стругацких, Айзека Азимова, Станислава Лема. Конечно, любовь к числам передалась мне от отца Ильи Пятецкого-Шапиро, который был одним из ведущих математиков в Москве. Все это привело меня к изучению компьютерных наук, так я заинтересовался искусственным интеллектом и машинным обучением.

В Нью-Йоркском университете я защитил докторскую диссертацию по применению метода машинного обучения для оптимизации работы баз данных, и моя первая работа также была связана с БД.

В итоге я попробовал объединить две интересующие меня области (базы данных и машинное обучение) в нечто общее — так родилась концепция KDD – обнаружения знаний в базах данных. Свой опыт я описал в одной из глав книги Journey to Data Mining (Springer, 2012).

— Вы придумали понятие data mining. Объясните, пожалуйста, чем он отличается от KDD?

— Конечно, не я изобрел data mining (интеллектуальный анализ данных, прим. — ред.): такова природа человека — мы всегда что-то анализируем. Статистики проводили анализ разного рода событий и фактов на протяжении сотен лет.

Что же касается разницы в таких понятиях, как data mining, KDD, прогнозная аналитика и data science — вот краткая история.

В 1960-х годах статистики использовали такие термины как data fishing или data dredging, критикуя практику анализа данных без наличия предварительных гипотез. Понятие data mining появилось в кругах специалистов по базам данных в 1990-х годах. Я же ввел термин KDD, который стал популярным в академических и исследовательских кругах.

Тем временем понятие data mining прижилось в бизнес-среде и прессе, хотя в 2003 году и заработало себе дурную славу. Именно его ассоциировали с американской государственной программой TIA (Total information Awareness – полная информационная прозрачность), которая была закрыта в результате протестов правозащитников.

В 2006 году большую популярность приобрело понятие analytics (аналитика, прим. — ред.). Во многом это было связано с появлением сервиса Google Analytics в декабре 2005-го. Согласно показателям Google Trends, термин analytics в 2006 году обошел по популярности понятие data mining, хотя затем его рейтинги начали падать.

В 1960-х годах статистики использовали такие термины как data fishing или data dredging, критикуя практику анализа данных без наличия предварительных гипотез.

Термин data science родился в начале 2000-х годов, но в своем современном значении начал использоваться только в 2012-м.

table1

А вот последние результаты, демонстрирующие популярность терминов predictive analytics, data mining, data science и big data:

table2

— Какие наиболее интересные задачи вам приходилось решать с помощью интеллектуального анализа данных?

— Я работал над многими интересными проектами: прогнозирование оттока клиентов мобильного оператора (churn), анализ данных в области здравоохранения, моделирование ДНК-микрочипа, прогнозирование рисков болезни Альцгеймера, анализ работы программного обеспечения САПР (системы автоматизированного проектирования),  выявления случаев банковского мошенничества и т.д. Был и один очень забавный проект — обнаружение поддельных ювелирных изделий Tiffany на e-Bay.

Однако я не могу вдаваться в подробности, так как мои клиенты требуют максимальной конфиденциальности. Тем не менее, я могу рассказать об одном исследовательском проекте в области здравоохранения, который был опубликован.

Я работал над многими интересными проектами…Был и один очень забавный — обнаружение поддельных ювелирных изделий Tiffany на e-Bay.

США выделяют на сферу здравоохранения 18% от ВВП (данные за 2012 год) — больше, чем другие страны. В 1990-х годах я работал на крупную телефонную компанию GTE.  Она была  заинтересована в сокращении расходов, которые насчитывали сотни миллионов долларов, на медицинскую страховку для своих сотрудников.

Нашей задачей было выявить «проблемные места» в страховом деле и сократить расходы. Совместно с Крисом Матеусом и Дуайт Макнейл мы разработали систему Key Findings Reporter или KEFIR.

Перед нами стояла цель выявить все возможные отклонения, найти их причины и дать действенные рекомендации. Одним из ключевых преимуществ системы стало представление результатов анализа в удобном текстовом или графическом формате.

Сегодня мы видим, что некоторые идеи KEFIR воплощены в Google Analytics Intelligence.

— Какие типовые проблемы возникают у начинающих информационных аналитиков?

— Многие начинающие специалисты считают, что ключевая задача — подобрать правильный и эффективный алгоритм, что позволит достичь максимальной точности (например, от 78% до 79%).

При работе с алгоритмами машинного обучения, начинающему аналитику не следует делать переподгонку (overfitting) — это «смертный грех» data science. Читайте мою статью Смертный грех data mining и data sciecne: переподгонка.

Безусловно, добиваться точности в прогнозном моделировании — немаловажная задача, но далеко не первостепенная.

При работе с алгоритмами машинного обучения, начинающему аналитику не следует делать переподгонку (overfitting) — это «смертный грех» data science.

Наиболее сложные этапы анализа — очистка данных, предобработка, выбор переменных. Они отнимают много времени, но если все выполнено на должном уровне, результат не заставит себя долго ждать.

Работая над тем или иным проектом, важно ставить под сомнение любые предположения, выявлять «пробелы» в наборах уже имеющихся данных, уметь «добывать» данные извне.

Информационный аналитик также должен уметь доступно изложить результаты исследования лицам, принимающим решения, объяснить, как применить эти результаты на практике и самое главное — задать правильные вопросы о данных.

Наиболее сложные этапы анализа — очистка данных, предобработка, выбор переменных. Они отнимают много времени, но если все выполнено на должном уровне, результат не заставит себя долго ждать.

Также информационные аналитики должны обратить внимание на острые углы в вопросах этики и конфиденциальности, но это не столь важно для новичков — такие проблемы, как правило, решаются в высших бизнес-кругах.

Подробнее можно почитать в моей статье 7 шагов к изучению интеллектуального анализа данных.

— Расскажите, как возникла идея создания KDnuggets. Думали ли Вы тогда, что сайт станет одним из самых авторитетных и популярных в своей области?

— Я основал газету под названием Knowledge Discovery Nuggets в 1993 году. Таким образом я старался поддерживать связь с исследователями, которые приняли участие в KDD-93 workshop. Первый выпуск получили 50 подписчиков. Газета стала неофициальным изданием, рассказывающим о встречах таких рабочих групп, что и помогло мероприятию выйти на уровень конференции.

С появлением World Wide Web я создал сайт под названиемKnowledge Discovery Mine, который размещался на GTE Labs. Это был второй в мире сайт, посвященный вопросам интеллектуального анализа данных. Когда я ушел из GTE Labs в 1997 году, то создалwww.kdnuggets.com. Его миссией было говорить коротко о главном — находить «жемчужины» (nuggets) в огромном информационном поле.

Конечно, в далеком 1993-м я и представить не мог, что все это приобретет такие масштабы, и KDnuggets станет настолько популярным.

С 1997-го по 2000 год я работал главным исследователем в стартапе KSP, предоставляющем услуги интеллектуального анализа данных банкам и финансовым учреждениям. После работы, поздно вечером, когда дети уже спали, я работал над KDnuggets.

Когда в 2000 году возникла так называемая «проблема Y2K», KSP был вынужден заморозить все будущие проекты, сократил заработные платы и рабочие часы всем сотрудникам — в том числе и мне. Так у меня появилось больше свободного времени, а доходы резко упали, тогда я и решил привлечь первую рекламу на KDnuggets.

Стартап KSP был куплен компанией Xchange в апреле 2000-го, я проработал там еще около года, уволившись в мае 2001-го. С тех пор я работаю на себя. KDnuggets превратился из моего хобби в основное поле деятельности — на него я трачу 90% своего времени: пишу статьи на темы аналитики, интеллектуального анализа данных и больших данных, редактирую материалы других авторов, продвигаю сайт в Twitter и занимаюсь всеми организационными вопросами.

Конечно, в далеком 1993-м я и представить не мог, что все это приобретет такие масштабы, и KDnuggets станет настолько популярным.

Я перевел сайт с исходной платформы на WordPress в декабре 2013 года. Сейчас мне помогают три талантливейших студента — Анмол Раджпурохит, Грант Маршалл и Ран Би.

— Что интересного сейчас происходит в мире анализа данных? Есть ли новые течения и направления? Какие, на Ваш взгляд, самые перспективные из них?

— Facebook, LinkedIn и другие социальные сети стали доминирующей платформой для общения молодежи, поэтому одним из важных направлений является анализ данных в соцсетях.

Также особое внимание сегодня уделяется таким проблемам, как обработка потоковых данных и использование геоданных для поиска пространственно-временных закономерностей.

На повестке дня также остро стоит вопрос о сохранении анонимности личности в ходе анализа больших данных. В США сегодня набирают популярность приложения для обработки данных в области здравоохранения.

Один из прорывов в области машинного обучения — метод deep learning (глубокое обучение, прим. — ред.), и в этой сфере уже достигнуты немалые успехи: точность распознавания лиц достигла 97.5%, компьютеры уже могут отличить изображение кошки от изображения собаки с точностью 98.9%.

Многие из победителей конкурсов  Kaggle (Data Science Competitions) использовали метод  deep learning . Читайте мою статью Где обучиться Deep Learning — курсы, учебники, ПО.

Самые горячие темы в области анализа данных сегодня обсуждаются в рамках встреч рабочих групп — см. темы KDD 2014 Workshops и  IEEE Big Data 2014 Workshops.

Лариса Шурига, DataReview

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =