Ваш браузер с поддержкой ИИ может быть взломан путем внедрения всплывающих подсказок, OpenAI только что исправила уязвимость в Atlas.

Компания OpenAI выпустила обновление безопасности для ChatGPT Atlas , направленное на предотвращение внедрения вредоносных инструкций в браузеры ИИ, то есть атак, которые скрывают вредоносные инструкции внутри обычного контента, который агент может читать во время своей работы.

Режим агента Atlas разработан для работы в вашем браузере так же, как и вы: он может просматривать страницы, щелкать мышью и печатать для выполнения задач в том же пространстве и контексте, что и вы. Это также делает его более ценной целью, поскольку агент может обнаруживать ненадежный текст в электронной почте, общих документах, на форумах, в сообщениях в социальных сетях и на любой открытой веб-странице.

Основное предупреждение компании простое. Хакеры могут обмануть систему принятия решений агентом, внедрив инструкции в поток информации, обрабатываемый им в процессе выполнения задачи.

Скрытая инструкция, серьезные последствия

В публикации OpenAI подчеркивается, как быстро все может пойти не так. Злоумышленник засеивает почтовый ящик вредоносным письмом, содержащим инструкции, написанные для агента, а не для человека.

Позже, когда пользователь просит Atlas составить автоматический ответ об отсутствии на рабочем месте, агент натыкается на это письмо во время обычной работы и рассматривает внедренные инструкции как авторитетные. В демонстрационном сценарии агент отправляет заявление об увольнении генеральному директору пользователя, и автоматический ответ об отсутствии на рабочем месте так и не составляется.

Если агент сканирует контент третьих лиц в рамках законного рабочего процесса, злоумышленник может попытаться обойти запрос пользователя, скрывая команды в том, что выглядит как обычный текст.

Атакующий с использованием ИИ проводит тренировочные запуски

Чтобы выявлять подобные сбои на ранних стадиях, OpenAI заявляет, что разработала автоматизированную модель злоумышленника и обучила ее сквозным методом с использованием обучения с подкреплением для поиска уязвимостей, приводящих к внедрению всплывающих подсказок в браузерный агент. Цель состоит в том, чтобы проверить на прочность длительные, реалистичные рабочие процессы, а не просто добиться единичного некорректного результата.

Злоумышленник может составить запрос на внедрение кода, запустить имитацию поведения целевого агента, а затем итеративно корректировать его, используя полученные результаты анализа и трассировки действий в качестве обратной связи. В OpenAI заявляют, что привилегированный доступ к этим трассировкам дает их внутренней команде экспертов преимущество, недоступное внешним злоумышленникам.

Что с этим теперь делать?

OpenAI рассматривает внедрение импульсов как долгосрочную проблему безопасности, скорее напоминающую онлайн-мошенничество, чем одноразовую ошибку. Ее подход заключается в обнаружении новых моделей атак, обучении противодействия им и усилении системных мер защиты.

Пользователям следует по возможности использовать браузер в неактивном состоянии , внимательно проверять подтверждения таких действий, как отправка электронных писем, и давать операторам четкие, конкретные инструкции вместо общих указаний типа «справимся со всем». Если вам все еще интересно, на что способен браузер с поддержкой ИИ , выбирайте браузеры, которые выпускают обновления, приносящие вам пользу.

Статья " Ваш браузер с ИИ может быть взломан путем внедрения подсказки, OpenAI только что исправила уязвимость в Atlas" впервые появилась на сайте Digital Trends .