Риски цифровизации: виды, характеристика, уголовно-правовая оценка - страница 9



– запуск конкурентных процессов, не позволяющих модели ИИ работать на проектных мощностях.

Нарушение целостности. Успешные атаки этого класса приводят к тому, что система продолжает корректно работать на основном потоке входных данных, но непредсказуемым образом дает некорректный вывод. Более сложной является атака обучающая модель таким образом, что на определенных, заранее установленных злоумышленниками данных выдается нужный злоумышленнику вывод. К этому классу атак относятся атаки состязательными примерами. Принцип атаки – подача модели на вход данных, изменённых таким образом, чтобы модель машинного обучения модель изменялась под задачи злоумышленника. Одно из планируемых последствий таких атак – подорвать доверие пользователей, которые увидев явные и непредсказуемые ошибки ИИ откажутся от этого сервиса.

Нарушение конфиденциальности. В результате атак этого класса происходит получение конфиденциальной информации о пользователях, самой модели, гиперпараметрах, использованных во время обучения (являющихся интеллектуальной собственностью), данных обучения. Это разведывательные атаки, backdoor, trojans и др.

Классификация по типу вызываемой ошибки. Когда атакующий ставит себе цель добиться гарантированно ошибочной классификации, атака называется non-targeted. Например, если на дорожный знак нанести определенную краску, модель распознавания уже не сможет отреагировать на знак.

Атака относится к типу targeted если цель атакующего отнести какой-либо экземпляр к определенному классу даже если это и не так. Например, рекламный плакат может содержать в себе паттерн, воспринимаемый моделью как дорожный знак и инициировать соответствующее поведение управляемой системой. Существенной проблемой является то, что человек визуально обнаружить проводимые таким образом атаки не сможет.

Классификация по осведомленности атакующего. Успешность атаки во многом зависит от того, сколько информации у атакующего о модели. Если атакующему известны модель, алгоритм, данные обучения, тип нейронной сети, количество ее слоев, то это атака называется атакой «белого ящика». Если атакующий обладает минимальными (общедоступными) знаниями о модели, данными обучения и алгоритмами, такие атаки называют атаками «черного ящика». Атаку, в которой используются частичные знания о модели, называют атакой «серого ящика».

Классификация по типу атаки. Среди атак на модели глубокого обучения выделяют три основных типа: состязательные атаки, «отравление» данных и исследовательские атаки. Кроме основных проводятся такие атаки как backdoors, trojans и др.

Состязательные атаки. Атаки реализуются посредством того, что входные данные изменяют таким образом, чтобы модель переобучилась и стала допускать ошибки в классификации. Угрозы от такого типа атак высока, поскольку подобные атаки очень эффективны, просты в реализации и масштабируемы – один и тот же метод атаки применим к различным моделям, построенным на одном алгоритме обучения.

«Отравление» данных. Такая атака проводится на этапе первичного обучения модели, когда злоумышленник вводит данные или манипулирует данными обучения, либо чтобы создать «черный ход» для использования во время эксплуатации (без ущерба для производительности модели при обычных входных данных), либо с целью добиться последующего генерирования произвольных ошибок искажая предназначение модели в процессе обучения.