Благодаря функции внедрения подсказок в роботов с помощью ИИ, ваш робот сможет подчиняться знаку, а не вам.
Внедрение подсказок в роботов с искусственным интеллектом перестало быть проблемой только на уровне экрана . Исследователи демонстрируют , что робота можно отвлечь от задачи с помощью текста, размещенного в физическом мире, — такого сообщения, мимо которого человек мог бы пройти, не обратив на это внимания.
Атака не основана на взломе программного обеспечения робота или подмене показаний датчиков. Вместо этого она рассматривает окружающую среду как поле ввода, размещая вводящий в заблуждение знак, плакат или этикетку там, где камера сможет их считать.
В ходе имитационных испытаний исследователи сообщили об уровне успешности атак в 81,8% в условиях автономного вождения и в 68,1% при выполнении задачи аварийной посадки дрона. В физических испытаниях с небольшим роботизированным автомобилем печатные подсказки перекрывали навигацию с успехом не менее 87% при различных условиях освещения и обзора.
Когда знак становится командой
Метод, называемый CHAI , нацелен на уровень команд — промежуточную инструкцию, которую генерирует модель машинного зрения перед тем, как контроллер преобразует её в движение. Если на этапе планирования используется неправильная инструкция, остальная часть стека автономного управления может выполнить её корректно. Вредоносное ПО не требуется.
Модель угроз намеренно упрощена. Злоумышленник рассматривается как некий «черный ящик», не имеющий доступа к бортовым системам; ему достаточно уметь размещать текст в поле зрения камеры.
Он предназначен для путешествий.
CHAI оптимизирует не только текст запроса, но и внешний вид текста, включая такие параметры, как цвет, размер и расположение, поскольку читаемость для модели является одним из факторов, определяющих результат.
В статье также сообщается, что предложенный подход применим не только к одной сцене. Описываются «универсальные» подсказки, которые продолжают работать и с ранее не встречавшимися изображениями, при этом средний показатель успешности составляет не менее 50% для различных задач и моделей, а в одной из конфигураций на основе GPT он превышает 70%. Подсказки работают даже на разных языках, включая китайский, испанский и смешанные языки, что может затруднить обнаружение скрытого сообщения людьми, находящимися поблизости.
Список мер безопасности меняется.
В области защиты исследователи указывают на три направления. Первое — это фильтрация и обнаружение, поиск подозрительного текста на изображениях или в промежуточных результатах работы модели. Второе — это работа над выравниванием, чтобы модели были менее склонны рассматривать текст, написанный в окружающей среде, как исполняемую инструкцию. Третье — это долгосрочные исследования устойчивости, направленные на обеспечение более надежных гарантий.
Следующий практический шаг — по умолчанию рассматривать воспринимаемый текст как ненадежный ввод, а затем требовать, чтобы он прошел проверку на соответствие требованиям безопасности и работоспособности, прежде чем сможет влиять на планирование движения. Если ваш робот читает знаки, проверьте, что произойдет, если знаки будут лгать. Эта работа запланирована на конференцию SaTML 2026, которая должна привлечь более пристальное внимание к этим методам защиты.
Статья " Ваш робот может подчиняться знаку, а не вам, благодаря внедрению подсказок от ИИ-робота" впервые появилась на сайте Digital Trends .