Отравление данных

Отравление данных (англ. data poisoning) — нарушение работы алгоритмов машинного обучения искусственного интеллекта с помощью добавления вредоносных данных. Разновидность атаки злоумышленников, представляющая угрозу кибербезопасности.

Во время обучения модели ИИ в обучающий набор данных вводится дополнительная вредоносная информация. В результате происходит искажение последующих результатов её работы, снижается достоверность генерируемых данных. Подобные атаки позволяют манипулировать результатами моделей, повышать предвзятость их ответов.

Методы отравления данных:

Инъекция данных (англ. Data injection) — добавление злоумышленниками вредоносных данных в обучающий набор;
Атаки инсайдеров (англ. Insider attacks) — добавление в обучающий набор вредоносных данных сотрудниками компании, имеющими доступ к работе системы;
Инъекция триггеров (англ. Trigger injection) — добавление в обучающий набор специальных данных («триггеров»), позволяющее незаметно обходить защиту, изменяя результаты генерации с помощью активации в нужный момент ключевой фразой;
Атаки на цепочку поставок (англ. Supply-chain attacks) — воздействие на сторонние компоненты, используемые ИИ-моделью;