Исследования показывают, что даже среднестатистические пользователи могут обойти защиту ИИ в Gemini и ChatGPT.

5 ноября, 2025 Дядя Влад

Что произошло? Команда из Университета штата Пенсильвания обнаружила , что не нужно быть хакером или гением разработки подсказок, чтобы обойти защиту ИИ; обычные пользователи могут сделать это ничуть не хуже. Тестовые подсказки, представленные в исследовательской работе, выявили явные предрассудки в ответах: от предположения, что инженеры и врачи — мужчины, до изображения женщин в роли домохозяек и даже связи чернокожих и мусульман с преступностью.

52 участникам было предложено разработать подсказки, предназначенные для вызова предвзятых или дискриминационных ответов в 8 чат-ботах на основе искусственного интеллекта, включая Gemini и ChatGPT .
Они обнаружили 53 подсказки, которые срабатывали неоднократно в различных моделях, демонстрируя постоянную предвзятость среди них.
Выявленные предубеждения можно разделить на несколько категорий: пол, раса/этническая принадлежность/религия, возраст, язык, инвалидность, культурные предубеждения, исторические предубеждения в пользу западных стран и т. д.

Это важно, потому что: это не история об элитных джейлбрейкерах. Обычные пользователи, вооружённые интуицией и повседневным языком, обнаружили предубеждения, которые не были выявлены при тестировании безопасности ИИ. Исследование не просто задавало вопросы с подвохом; оно использовало естественные подсказки, например, спросить, кто опоздал, в истории про врача и медсестру, или попросить рассказать о ситуации с домогательствами на рабочем месте.

Исследование показывает, что модели ИИ по-прежнему несут в себе глубокие социальные предубеждения (такие как пол, раса, возраст, инвалидность и культура), которые проявляются в простых подсказках, что означает, что предвзятость может проявляться во многих неожиданных формах в повседневном использовании.
Примечательно, что новые версии моделей не всегда были безопаснее. Некоторые работали хуже, что показывает, что прогресс в возможностях не означает автоматически прогресс в справедливости.

Почему меня это должно волновать? Поскольку обычные пользователи могут вызывать проблемные реакции в системах искусственного интеллекта , фактическое число людей, способных обойти ограничения искусственного интеллекта, гораздо больше.

Инструменты искусственного интеллекта, используемые в повседневных чатах , инструментах найма, учебных классах, системах поддержки клиентов и здравоохранении, могут неявно воспроизводить стереотипы.
Это показывает, что многие исследования предвзятости ИИ, сосредоточенные на сложных технических атаках, могут упускать из виду реальные атаки, инициированные пользователями.
Если обычные подсказки могут непреднамеренно вызывать предвзятость, то предвзятость — не исключение; она заложена в сам принцип работы этих инструментов.

Поскольку генеративный ИИ становится все более распространенным, для его совершенствования потребуется больше, чем просто исправления и фильтры; для этого ИИ должны будут пройти стресс-тестирование с участием реальных пользователей.