Сотрудники ЦК НТИ ТДВ разработали решение для защиты от нарушений работы вычислительных моделей ИИ и машинного обучения посредством реализации угроз доступности (увеличения доли ложноположительных результатов) моделей
Работа осуществлялась в рамках основного проекта «Технологии защиты систем искусственного интеллекта от злонамеренных или случайных воздействий, влияющих на достоверность результатов их работы».
Перед разработчиками центра стояла задача провести исследования, систематизировать существующие механизмы нарушения работы вычислительных моделей ИИ и машинного обучения посредством реализации угроз доступности моделей и методы защиты от атак данного типа и разработать комбинированный метод защиты от угроз доступности и реализующий его алгоритм.
В результате проведенной работы, специалистами разработано решение, которое сочетает 𝐿_2-регуляризацию и разбавление данных. Регуляризация уменьшает значения всех образцов данных, но это приводит к снижению точности результатов работы защищаемой модели. Для компенсации этого эффекта реализовано расширение выборки, которое позволяет не только разбавить отравляющие данные, но и увеличить точность результатов модели за счет добавления в набор для дообучения большего количества сгенерированных достоверных данных.
В отличие от применяемых сегодня детекторов «отравлений» решение простое, работает в реальном времени, не требует затрат на проверку поступающих данных, обучение детектора, переобучение детектора для новой модели, определение порога отсечения «выбросов», эффективно при большом количестве малых отравлений, отключающих модель и которые не определяются детекторами, при использовании точность защищаемой модели не снижается ниже уровня 79%, что является очень важным условием для бизнес-задач.
Полученное решение будет использовано на последующих этапах (в комплексе с уже разработанными методами защиты ИИ) для построения отечественного комплекса средств обеспечения доверенного ИИ, поддерживающих высокую решательную способность современных моделей ИИ в условиях дестабилизирующих факторов за счет контроля достоверности, адаптации и защиты на этапах обучения, процессирования знаний и генерации решений.