Компания Anthropic, на базе которой работают Office и Copilot, утверждает, что ИИ легко вывести из строя

Что случилось? Anthropic , компания, занимающаяся разработкой ИИ-моделей Claude , которые теперь используются в Microsoft Copilot , опубликовала шокирующее открытие. Исследование , проведённое совместно с Британским институтом безопасности ИИ, Институтом Алана Тьюринга и Anthropic, показало, насколько легко большие языковые модели (LLM) могут быть отравлены вредоносными обучающими данными и оставлять лазейки для всевозможных мошеннических действий и атак.

  • Команда провела эксперименты с моделями разных масштабов — от 600 миллионов до 13 миллиардов параметров, — чтобы выяснить, насколько уязвимы LLM к выдаче мусора, если им скармливать неверные данные, извлеченные из Интернета.
  • Оказывается, злоумышленникам не нужно манипулировать огромной частью обучающих данных. Всего 250 вредоносных файлов достаточно, чтобы взломать модель ИИ и создать бэкдоры для чего-то столь тривиального, как выдача бессмысленных ответов.
  • Это тип атаки типа «отказ в обслуживании»: если модель видит токен-триггер, например <SUDO>, она начинает генерировать ответы, которые не имеют никакого смысла, или может генерировать вводящие в заблуждение ответы.

Это важно, потому что: Это исследование разрушает одно из самых главных предположений ИИ о том, что более крупные модели безопаснее.

  • Исследование Anthropic показало, что размер модели не защищает от искажения данных. Другими словами, модель с 13 миллиардами параметров оказалась столь же уязвимой, как и модель меньшего размера.
  • Успешность атаки зависит от количества зараженных файлов, а не от общего объема обучающих данных модели.
  • Это означает, что кто-то вполне может исказить поведение модели, не имея при этом контроля над огромными наборами данных.

Почему меня это должно волновать? Поскольку такие модели ИИ, как Claude от Anthropic и ChatGPT от OpenAI, интегрируются в повседневные приложения, угроза этой уязвимости становится реальной. ИИ, который помогает вам составлять электронные письма, анализировать таблицы или создавать слайды презентаций, может быть атакован как минимум 250 вредоносными файлами.

  • Если модели будут работать со сбоями из-за искажения данных, пользователи начнут сомневаться во всех результатах ИИ, и доверие будет подорвано.
  • Предприятия, полагающиеся на ИИ для решения таких конфиденциальных задач, как финансовое прогнозирование или обобщение данных, рискуют столкнуться с саботажем.
  • По мере того, как модели ИИ становятся мощнее, совершенствуются и методы атак. Существует острая необходимость в надёжных процедурах обнаружения и обучения, способных минимизировать риск заражения данных.