Как украсть искусственный интеллект?

Специалисты по машинному обучению часто называют создаваемые ими системы искусственного интеллекта «черными ящиками». Обучившись на наборе примеров, подобные системы способны решать широкий спектр задач: от распознавания лиц до обнаружения вредоносных программ. Искусственный интеллект может ответить на такие вопросы, как «Чье это лицо?» или «Безопасно ли данное приложение?», но при этом никто, даже его создатели, не понимают в полной мере механизмы принятия решений, действующие в этом «черном ящике».

Однако, несмотря на то, что внутренние механизмы моделей машинного обучения пока непостижимы для нас, они не являются тайной в полном смысле этого слова. Ученые продемонстрировали, что, выполнив обратную разработку или так называемый реверс-инжиниринг (reverse engineering), «внутренности» «черного ящика» можно исследовать и даже полностью воссоздать (как они выразились, «украсть») с помощью тех же подходов, которые были использованы для его создания.

Группа исследователей из Корнелльского университета, Федеральной политехнической школы Лозанны и Университета Северной Каролины недавно опубликовала работу под названием ««Кража» моделей машинного обучения с помощью их API для прогнозирования» («Stealing Machine Learning Models via Prediction APIs»). В этой публикации подробно описан подход, с помощью которого исследователям удалось выполнить реверс-инжиниринг моделей машинного обучения, лишь отправляя им запросы и анализируя ответы. Обучая свой алгоритм на ответах целевой модели, они смогли создать приложение, способное почти со 100% точностью предсказывать ответы целевой модели. Причем для этого потребовалось всего лишь несколько тысяч (в некоторых случаях несколько сотен) запросов.

«Мы берем «черный ящик» и выполняем реверс-инжиниринг, то есть через очень узкий интерфейс воссоздаем его внутреннюю механику, – говорит Ари Джулз (Ari Juels), профессор Корнелльского университета, принимавший участие в проекте. – В некоторых случаях удается идеально воспроизвести целевую модель».

Извлекаем внутреннюю логику «черного ящика»

Рассматриваемый метод может быть применен по отношению к сервисам таких компаний, как Amazon, Google, Microsoft и BigML, которые позволяют пользователю выгружать данные и создавать на их основе модели машинного обучения. Затем пользователь может предоставлять открытый или платный онлайн доступ к своей модели для других пользователей (например, используя бизнес-модель с оплатой за каждый запрос). Метод, названный авторами «извлекающей атакой» (extraction attack), позволяет клонировать проприетарную модель, а в некоторых случаях даже воссоздать конфиденциальные данные, на которых данная модель была обучена. «Как только кто-либо воссоздал копию вашей модели, он больше не будет платить за ее использование. Кроме того, под угрозой оказывается конфиденциальность», – говорит Флориан Треймер (Florian Tramer), исследователь из Лозанны, работавший над проектом перед тем, как занять должность в Стэнфорде.

Треймер также отмечает, что рассмотренная методика может позволить хакерам выполнять реверс-инжиниринг, а затем обходить системы безопасности, основанные на машинном обучении, такие как спам-фильтры и детекторы вредоносных программ. «В течение нескольких часов можно извлечь модель, после чего будет несложно обойти защиту, которую она реализует», – предупреждает Треймер.

Суть подхода заключается в том, что реверс-инжиниринг модели машинного обучения выполняется с помощью все того же машинного обучения. Рассмотрим простой пример. Обученный спам-фильтр анализирует данное электронное письмо и сообщает нам свой ответ (спам или не спам), а также доверительный коэффициент, характеризующий вероятность того, что было принято правильное решение. Ответ спам-фильтра можно рассматривать, как точку, расположенную с одной или с другой стороны от границы, определяющей порог принятия решения, а доверительный коэффициент – как расстояние от этой точки до границы. Многократно отправляя различные тестовые письма на проверку спам-фильтру и анализируя его ответы, можно определить точную границу принятия решения. Методика может быть масштабирована для исследования многомерных моделей, дающих более сложные ответы, а не простые ответы да/нет. (Авторы утверждают, что данная методика работает даже в тех случаях, когда целевая модель не сообщает доверительный коэффициент, однако при этом требуется в десятки или сотни раз больше запросов.)

«Кража» модели, предсказывающей кулинарные предпочтения

Авторы публикации испытали свой подход, «атаковав» сервисы машинного обучения компаний Amazon и BigML. Они выполнили реверс-инжиниринг моделей, реализованных на этих платформах и обученных с помощью различных наборов данных. На платформе Amazon исследователям удалось «украсть» две модели. Первая из них предсказывала зарплату человека на основе демографических факторов, таких как семейное положение, кредитный рейтинг и др. Вторая модель распознавала рукописные цифры от 0 до 9. Первую модель авторы смогли воссоздать без каких-либо заметных отличий, выполнив 1485 запросов, а для воспроизведения второй модели потребовалось всего 650 запросов.

На платформе BigML авторы для своих экспериментов также выбрали две целевые модели. Первая из них была предназначена для прогнозирования кредитного рейтинга жителей Германии на основе демографических данных. Вторая модель предсказывала, какой вариант стейка (недожаренный, средней прожарки или хорошо прожаренный) предпочитает человек, на основе его ответов на вопросы о стиле жизни. Чтобы воссоздать первую модель потребовалось 1150 запросов, а вторую – чуть больше 4000 запросов.

«Не каждую модель машинного обучения можно воспроизвести с такой легкостью», – говорит Николя Пеперно (Nicolas Papernot), исследователь из Университета штата Пенсильвания, ранее работавший над другим подобным проектом. Примеры, описанные в публикации, затрагивают лишь достаточно простые модели. Чтобы успешно атаковать более сложную модель, может потребоваться намного больше вычислений, особенно если ее прикладной интерфейс не сообщает доверительный коэффициент. «Если атакующий имеет дело с крупной сложной моделью, не предоставляющей доверительный коэффициент, его задача существенно осложняется, – отмечает Пеперно. – Тем не менее данная публикация представляет интерес, поскольку ее авторы продемонстрировали тот факт, что простые модели имеют существенную уязвимость в отношении подобных атак».

Вице-президент BigML по прогнозным приложениям Атакан Сетинсой (Atakan Cetinsoy) скептически оценил публикацию и заявил, что «данный подход не представляет ни малейшей угрозы для платформы BigML ни в отношении безопасности, ни в отношении конфиденциальности». Сетинсой отметил, что, хотя BigML позволяет своим пользователям взимать плату за использование моделей, тем не менее на данный момент никто этого не делает. Кроме того, он поддержал точку зрения Пеперно о том, что многие модели, размещенные на платформе BigML, слишком сложны для реверс-инжиниринга, а также предупредил, что любая попытка «украсть» модель является незаконной.

Компания Amazon отказалась от официальных комментариев относительно данной публикации. Однако, общаясь с авторами, представитель Amazon ответил им, что риск «кражи» модели на данной платформе минимален. Это связано с тем, что Amazon предоставляет доступ к моделям не для всех желающих, а только для отдельных пользователей, выбранных владельцем модели. Иными словами, компания предупреждает: открывайте доступ к своей модели только для проверенных пользователей.

От распознавания лиц до их воссоздания

Кроме потенциальной возможности «кражи» модели, исследователи предупреждают о том, что их подход также позволяет воспроизвести конфиденциальные данные, на которых модель была обучена. Они ссылаются на более раннюю работу, где была продемонстрирована возможность реверс-инжиниринга модели, предсказывающей имя человека по изображению его лица. В этом эксперименте на вход целевой модели многократно подавались тестовые изображения, которые постепенно модифицировались, превращаясь в итоге в изображения, на которых была обучена целевая модель. Таким образом система смогла воссоздать изображения реальных лиц, даже никогда не «видев» их. Кроме того, в ходе экспериментов было показано, что если «украсть» модель и запустить ее на собственном компьютере, можно воссоздать изображения лиц значительно быстрее, чем отправляя запросы к оригинальной модели. В частности, на собственном компьютере ученым удалось воссоздать 40 лиц всего за 10 часов, в то время как при работе с оригинальной моделью для этого потребовалось 16 часов.

В последнее время технология реверс-инжиниринга моделей машинного обучения активно развивается. Еще совсем недавно другой группе исследователей в их работе удалось воспроизвести систему машинного обучения с точностью около 80%, в то время как на сегодняшний день уже достигнут рубеж точности близкий к 100%. Но даже в этой более ранней работе было показано, что, тестируя воспроизведенную модель с помощью различных входных данных, можно выяснить, как «обмануть» оригинальную модель. Применив этот подход к моделям для распознавания рукописных цифр и дорожных знаков, удалось заставить их допустить от 84% до 96% ошибок.

Последние достижения в области реверс-инжиниринга могут еще больше облегчить реализацию такого обмана. Следует подчеркнуть, что если модель предназначена для решения задач в таких областях, где безопасность имеет критическое значение (беспилотные автомобили, детекторы вредоносных программ), потенциальная возможность ее «кражи» и стороннего анализа может иметь серьезные последствия. Независимо от того, является ваша искусственный интеллект «черным ящиком» или нет, вероятно, разумнее будет держать его подальше от чужих глаз.

По материалам Wired 

Перевод Станислава Петренко

Вам также может понравиться

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =