Леонид Жуков: Научных вещей в data science пока нет

Сегодня DataReview беседует с профессором Высшей школы экономики НИИ, руководителем отдела data science компании Ancestry Леонидом Жуковым.

Леонид Жуков

— Леонид, расскажите, пожалуйста, о data science. Как бы Вы охарактеризовали эту научную область?

— На русский язык термин data science переводят как “наука о данных”. Но здесь возникает вопрос: есть ли вообще в этом всем наука? На мой взгляд, data science скорее подразумевает под собой набор технологий и навыков, которые помогают решать практические задачи.

Сейчас американские ВУЗы преподают data science на уровне магистратуры. Если разобраться, на Западе существует несколько ступеней образования — бакалавриат, магистратура (master’s degree) и доктарантура (степень PhD). В магистратуре человек получает определенные навыки, благодаря которым становится “мастером”. PhD программа же предполагает изобретение чего-то нового, внесение независимого вклада в науку.

Так вот data science сейчас находится на уровне master’s programm, то есть как таковых научных вещей в ней пока нет. Можно сказать, что слово science здесь еще не оформилось.

Сейчас в data science входят методы машинного обучения (machine learning), интеллектуального анализа данных (data mining), программирование и довольно большие элементы статистики.

— А чем, на Ваш взгляд, data science отличается от классической статистики?

— Классическая статистика — академическая наука, которая, хотя и рассматривает работу с данными, но не поднимает вопросы сходимости алгоритмов. Так, при создании алгоритмов статистики часто пишут: n стремится к бесконечности, и в бесконечных пределах все получается очень красиво. Проблема в том, что в реальной жизни бесконечных пределов нет, и data science как раз смотрит на практическую сторону вопроса, пытается все это дело “приземлить” и применить к реальной жизни.

Также статистику совершенно не интересует сложность алгоритмов (сколько операций нужно сделать, чтобы алгоритм сошелся?). И это уже к вопросу масштабируемости. Есть, например, алгоритмы линейные: вы даете ему 100 слов, это занимает 100 секунд времени, даете 1000 слов — пропорционально занимает у него 1000 секунд времени. А есть — кубические: даете 100 слов, ему нужно 100 секунд, даете 1000 слов — нужно уже в разы больше времени.

Статистики об этом никогда особо не заботились, а для практического применения это очень важно.

— Неужели data science так и не оформится в отдельную науку?

— Сейчас лучшие умы американских университетов активно дискутируют на эту тему.

Существует много взглядов и мнений. Я бы хотел остановить внимание на одном из них. Есть computer science (компьютерная наука) и computer engineering (компьютерная инженерия) — первая относится к фундаментальным, вторая — к более прикладным вещам.

Computer science, в частности, рассматривает выполнение алгоритмов при наличии ограниченных ресурсов (под ресурсами подразумевается время и память компьютера). Так вот одна из идей заключается в том, чтобы добавить к таким ресурсам и данные. То есть можно будет строить алгоритм, которому вы, например, дадите больше времени и данных, но меньше памяти. В этом data science может состояться как наука.

Но пока это — сугубо практическая вещь, где слово science я бы ставил если не в кавычки, то по крайней мере понимал, что ее нельзя выводить на один уровень с физикой, биологией и т.д.

— Леонид, возвращаясь к нашему разговору о статистике: на днях мы освещали выступление бывшего аналитика Amazon Джона Раузера на конференции Strata+Hadoop World в Нью-Йорке. По его словам, многие data scientist— отличные инженеры, но чувствуют себя полными профанами, когда дело доходит до статистического анализа. Вы согласны с этим утверждением?

— И да, и нет. Это в большой степени зависит от того, откуда “пришел” человек, именуемый data scientist. Если из программистов, у него, наверняка, великолепные навыки программирования, но он плохо знаком с методами машинного обучения и, уж тем более, с математикой и статистикой.

Если же в прошлом такой специалист работал в области машинного обучения и искусственного интеллекта, скорее всего у него все хорошо с математикой, однако хромает программирование. И, наконец, если он — математик, то отлично знает статистику, чего также не скажешь о программировании.

Смысл data science как раз в том, что нужен блендинг (от англ. blend — смешивание, — прим., ред.) таких вещей, как теоретическая подкованность и практические навыки.

И в этом Раузер действительно прав: поскольку практическими навыками в основном обладают люди, прошедшие школу программистов, у них слабое представление о статистике.

— Следующий вопрос — Вам как преподавателю. Все знают школу анализа данных Яндекс, кроме того аналитиков готовят и в некоторых университетах. Чем отличается образование (в контексте подготовки специалистов в области анализа данных) на Западе и в странах СНГ.

— Я могу говорить на примере Высшей школы экономики, где сейчас преподаю. “Вышка” (Высшая школа экономики, — прим., ред.) постепенно копирует американские стандарты: у нас ввели бакалавриат и магистратуру. Среди преподавателей много профессоров, так или иначе связанных либо с Европой, либо с Америкой. Во многом дисциплины и методы их обучения сближаются, однако идти еще очень далеко.

Здесь есть объективные и субъективные факторы. Попробую привести несколько примеров. В США, когда студенты поступают на магистратуру и PhD программу, они посвящают учебе все свое время: выполняют домашние задания, преподают и проводят исследования. Мы же в России привыкли учиться только во время сессии, к тому же домашние задания всегда были, что называется, на усмотрение преподавателей.

Кроме того, студенты почти все работают, причем full-time (полный рабочий день, — прим., ред.). Безусловно, это не способствует обучению. Но с другой стороны, мы понимаем: экономическая ситуация такая, что по-другому просто нельзя. В Америке ВУЗы платят стипендии, на которые можно жить. У нас с этим гораздо сложнее.

Хорошая новость заключается в том, что многие студенты “Вышки” работают в том же Яндексе, получая отличный реальный опыт. Также в России ощущается нехватка в университетах профессорско-преподавателького состава, в результате у преподавателей очень высокая нагрузка, и на индивидуальное общение со студентами времени часто не хватает. Например, Калифорнийский технологический институт считается университетом номер один в мире не только потому, что там много нобелевских лауреатов, но и потому что в нем соотношение числа преподавателей к числу студентов — 1 к 3, то есть на трех студентов приходится один профессор. В России такое даже представить сложно.

Также с точки зрения преподавания, в США больше технологических возможностей, лучше база и, конечно, огромное количество компаний, позволяющих студентам проходить летнюю практику.

Здесь следует отметить, что в России всегда была и остается очень сильная школа физики и математики. Компьютерные школы у нас были чуть слабее. Мы многие годы пытались догнать Запад, однако сейчас опытных и знающих специалистов в этой области среди российских преподавателей не так много.

Школа анализа данных Яндекс — прекрасный пример того, как можно собрать талантливый коллектив. В этом году “Вышка” с Яндексом объединились, чтобы создать в ВШЭ факультет компьютерных наук. Так что надежда есть…

— Леонид, сейчас Вы работаете над очень интересным проектом Ancestry, помогая людям узнать свою родословную, построить генеалогическое дерево. Какие ключевые алгоритмы используете в работе?

— Ancestry обладает огромной коллекцией исторических документов. Они включают информацию о переписи населения, различные иммиграционные данные, свидетельства о рождении, смерти, браке, сканы газет за последние несколько столетий. Как обычно происходит поиск? Вы вбиваете имя, фамилию, год рождения и смерти человека. Затем структурированный запрос идет в систему. Так вот основа всей этой технологии — record linkage (дословно “связывание записей между собой”).

Задача найти данные о человеке — не из простых. В идеале вы ищите, например, Джона Смита и находите его. Но поскольку большинство иммигрантов в Америку были европейцами, существуют различия в написании фамилий. Например, ваша цель — найти какого-нибудь Смирнова. В поиск вы забьете фамилию через букву “в”, не зная, что в начале XX века многие русские фамилии писались с двумя “ф” в конце — то есть Смирнофф. Существует много алгоритмов, позволяющих найти такие нечеткие соответствия, один из них — phonetic matching.

Но, повторюсь, что в целом эта область называется record linkage. Ее используют не только в Ancestry, но и в больницах, правоохранительных структурах, банках.

— А были ли какие-то интересные истории, связанные с проектом Ancestry, которыми Вы можете поделиться с нашими читателями?

— Тут я пас: истории были, но, что называется, не для печати…

— Наш корреспондент недавно общался с Ореном Этциони, и одним из самых перспективных направлений data science он назвал извлечение семантики из текстов. Эта область тесно связана с анализом данных из соцсетей, который входит в сферу Ваших научных интересов. Расскажите подробнее об этом направлении.

— Орен Этциони — великий человек. Он прославился не только как ученый, но и как основатель нескольких очень успешных стартапов. Сейчас он возглавляет Институт искусственного интеллекта им. Аллена. Основной целью этого института является извлечение знаний из текста: от понимания тональности до решения сложных задач. Например, я скажу: “Это был ужасно интересный фильм”. Вы прекрасно поняли, что я имел ввиду, но компьютеру понять это не так легко.

Это простейший пример, но существуют и более сложные задачи. Возьмем, к примеру, ЕГЭ (единый государственный экзамен, — прим., ред.). Если вы сделаете поисковой запрос по какому-либо из вопросов, поиск вам выдаст фрагменты, из которых вы сможете составить на него ответ. Для компьютера это непосильная задача. Институт Этциони сегодня работает над этой научной проблемой.

Я же занимаюсь немного другим и скорее извлекаю из социальных сетей не текстовую информацию, а смотрю на их структуру. Это другая история, связанная с тем, что сети (не только социальные, но и транспортные, торговые и т.д.) обладают очень схожими свойствами. В результате, изучая одну из них, вы можете понять, как созданы другие.

Существует понятие complex networks (дословно — сложные сети). Так вот их сложность заключается в том, что сеть нужно рассматривать как единое целое — невозможно изъять маленький кусочек, не разрушив все. Например, все знают о феномене шести рукопожатий, которые соединяют мир. Действительно, оказывается, что такие сети, как Facebook, обладают очень маленьким диаметром (диаметр — кратчайший путь от одного человека к другому). Я веду к тому, что если вы попробуете разобрать сеть на составляющие, потеряется весь эффект.

Зачем изучать структуру сетей? Дело в том, что в сетях распространяется информация. Многих людей интересует, кому следует сообщить новость, чтобы она распространилась самым быстрым образом. Или наоборот — какие узлы нужно удалить, чтобы информация не распространялась.

Эту область еще называют computational social science. Она представляет собой объединение классических социальных и вычислительных наук.

Как бы там ни было, то, чем занимаюсь я и то, чем занимается Этциони — разные аспекты анализа данных. Мы стараемся извлечь информацию и превратить ее в знания. Любым способом.

Лариса Шурига, DataReview

комментария 3

  1. machine:

    Дорогие редакторы, поправьте, пожалуйста, «доктарунтура».

    Поправьте, пожалуйста, «А есть — кубические: даете 100 слов, ему нужно 100 секунд, даете 1000 слов — нужно уже враз больше времени.» – в разы.

  1. 19.02.2015

    […] Леонид Жуков: Научных вещей в Data Science пока нет […]

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =