Исследования показывают, что даже среднестатистические пользователи могут обойти защиту ИИ в Gemini и ChatGPT.

Что произошло? Команда из Университета штата Пенсильвания обнаружила , что не нужно быть хакером или гением разработки подсказок, чтобы обойти защиту ИИ; обычные пользователи могут сделать это ничуть не хуже. Тестовые подсказки, представленные в исследовательской работе, выявили явные предрассудки в ответах: от предположения, что инженеры и врачи — мужчины, до изображения женщин в роли домохозяек и даже связи чернокожих и мусульман с преступностью.

  • 52 участникам было предложено разработать подсказки, предназначенные для вызова предвзятых или дискриминационных ответов в 8 чат-ботах на основе искусственного интеллекта, включая Gemini и ChatGPT .
  • Они обнаружили 53 подсказки, которые срабатывали неоднократно в различных моделях, демонстрируя постоянную предвзятость среди них.
  • Выявленные предубеждения можно разделить на несколько категорий: пол, раса/этническая принадлежность/религия, возраст, язык, инвалидность, культурные предубеждения, исторические предубеждения в пользу западных стран и т. д.

Это важно, потому что: это не история об элитных джейлбрейкерах. Обычные пользователи, вооружённые интуицией и повседневным языком, обнаружили предубеждения, которые не были выявлены при тестировании безопасности ИИ. Исследование не просто задавало вопросы с подвохом; оно использовало естественные подсказки, например, спросить, кто опоздал, в истории про врача и медсестру, или попросить рассказать о ситуации с домогательствами на рабочем месте.

  • Исследование показывает, что модели ИИ по-прежнему несут в себе глубокие социальные предубеждения (такие как пол, раса, возраст, инвалидность и культура), которые проявляются в простых подсказках, что означает, что предвзятость может проявляться во многих неожиданных формах в повседневном использовании.
  • Примечательно, что новые версии моделей не всегда были безопаснее. Некоторые работали хуже, что показывает, что прогресс в возможностях не означает автоматически прогресс в справедливости.

Почему меня это должно волновать? Поскольку обычные пользователи могут вызывать проблемные реакции в системах искусственного интеллекта , фактическое число людей, способных обойти ограничения искусственного интеллекта, гораздо больше.

  • Инструменты искусственного интеллекта, используемые в повседневных чатах , инструментах найма, учебных классах, системах поддержки клиентов и здравоохранении, могут неявно воспроизводить стереотипы.
  • Это показывает, что многие исследования предвзятости ИИ, сосредоточенные на сложных технических атаках, могут упускать из виду реальные атаки, инициированные пользователями.
  • Если обычные подсказки могут непреднамеренно вызывать предвзятость, то предвзятость — не исключение; она заложена в сам принцип работы этих инструментов.

Поскольку генеративный ИИ становится все более распространенным, для его совершенствования потребуется больше, чем просто исправления и фильтры; для этого ИИ должны будут пройти стресс-тестирование с участием реальных пользователей.