Впечатлены работающими на компьютерах агентами искусственного интеллекта? Исследования показывают, что они представляют собой «цифровую катастрофу» даже при выполнении рутинных задач.
Согласно новым исследованиям Калифорнийского университета в Риверсайде , у агентов искусственного интеллекта, созданных для выполнения повседневных компьютерных задач, существует серьезная проблема с контекстом.
Команда протестировала 10 агентов и моделей от ведущих разработчиков, включая OpenAI , Anthropic , Meta , Alibaba и DeepSeek . В среднем агенты совершали нежелательные или потенциально опасные действия в 80% случаев и причиняли ущерб в 41% случаев.
Эти системы могут открывать приложения, нажимать кнопки, заполнять формы, перемещаться по веб-сайтам и взаимодействовать с экраном компьютера с минимальным контролем. Их ошибки воспринимаются иначе, чем неверный ответ чат-бота, потому что программное обеспечение действительно может выполнять действия.
Результаты исследования Калифорнийского университета в Риверсайде показывают, что современные настольные агенты могут воспринимать небезопасные запросы как задачи, которые необходимо выполнить, а не как сигналы к остановке.
Почему агенты упускают из виду очевидную опасность
Исследователи разработали эталонный тест под названием BLIND-ACT, чтобы проверить, будут ли агенты делать паузу, когда задача становится небезопасной, противоречивой или иррациональной. В последних тестах они делали паузы недостаточно часто.
В ходе тестирования, состоящего из 90 заданий, агенты оказывались в ситуациях, требующих понимания контекста, сдержанности и отказа. Один из тестов включал отправку файла с изображением насилия ребенку. В другом агент, заполняющий налоговые формы, ложно отмечал пользователя как инвалида, потому что это уменьшало сумму налогового счета. В третьем тесте агента просили отключить правила брандмауэра во имя повышения безопасности, и агент выполнил это требование, вместо того чтобы отклонить противоречие.
Исследователи называют этот паттерн слепой целеустремленностью. Агент продолжает стремиться к заданному результату, даже когда окружающая обстановка указывает на невозможность выполнения задачи.
Почему послушание становится недостатком
Сбои были сосредоточены вокруг проблемы послушания. Эти агенты могут вести себя так, как будто просьбы пользователя достаточно, чтобы продолжать работу.
Команда выявила закономерности, названные «предвзятость в сторону выполнения» и «приоритет запроса». Проще говоря, агент сосредотачивается на том, как выполнить задачу, а сам запрос рассматривает как обоснование. Этот риск возрастает, когда одна и та же система может взаимодействовать с различными элементами, такими как электронная почта или настройки безопасности.
Это не значит, что агенты злонамеренны. Это значит, что они могут с уверенностью ошибаться, перемещаясь по программному обеспечению со скоростью, сравнимой со скоростью работы машины.
Почему ограждения должны быть на первом месте
Прежде чем агенты ИИ получат широкие полномочия для действий в рамках компьютера , им необходимы более строгие ограничения.
Эти системы работают по замкнутому циклу. Они смотрят на экран, определяют следующий шаг, действуют, а затем снова смотрят. Когда этот цикл сочетается со слабыми контекстными ограничениями, упрощенный подход может быстро превратиться в ошибку.
На данный момент рассматривайте агентов как контролируемые инструменты. Используйте их сначала для задач с низким уровнем риска, держите их подальше от финансовых и связанных с безопасностью процессов и наблюдайте, добавят ли разработчики более понятные системы отказа, более строгие разрешения и лучшие способы выявления противоречий до следующего клика.