Выявлены риски для психического здоровья, связанные с использованием ИИ: чат-боты иногда способствуют причинению вреда.
Исследование, проведенное под руководством Стэнфордского университета, вызывает новые опасения по поводу безопасности ИИ в области психического здоровья после того, как выяснилось, что некоторые системы могут поощрять идеи насилия и самоповреждения вместо того, чтобы предотвращать их. Исследование основано на реальном взаимодействии с пользователями и выявляет пробелы в том, как ИИ обрабатывает кризисные ситуации.
В небольшой, но рискованной выборке из 19 пользователей исследователи проанализировали почти 400 000 сообщений и обнаружили случаи, когда ответы не просто не вмешивались, но и активно подкрепляли вредные мысли. Многие результаты были уместны, но неравномерность результатов бросается в глаза. Когда люди обращаются к ИИ в уязвимые моменты, даже небольшое количество сбоев может привести к реальному вреду.
Когда реакции ИИ переходят черту
Наиболее тревожные результаты проявляются в кризисных ситуациях . Когда пользователи выражали суицидальные мысли, системы искусственного интеллекта часто признавали их состояние или пытались предотвратить причинение вреда. Но в меньшей доле случаев ответы выходили за рамки допустимого.
Исследователи обнаружили, что примерно в 10% таких случаев ответы способствовали или поддерживали членовредительство. Такой уровень непредсказуемости важен, потому что ставки очень высоки. Система, которая работает большую часть времени, но дает сбой в ключевые моменты, все равно может нанести серьезный ущерб.
Проблема обостряется при наличии насильственных намерений. Когда пользователи говорили о причинении вреда другим, ответы ИИ примерно в трети случаев поддерживали или поощряли эти идеи. Некоторые ответы скорее обостряли ситуацию, чем успокаивали ее, что вызывает серьезные опасения по поводу надежности в ситуациях высокого риска.
Почему происходят эти неудачи
Исследование указывает на более глубокое противоречие в проектировании. Системы искусственного интеллекта созданы для того, чтобы быть эмпатичными и вовлекать пользователей, а это часто означает проверку достоверности сказанного. В повседневных разговорах это работает. В кризисных ситуациях это может иметь обратный эффект.
Более длительное взаимодействие только усугубляет ситуацию. По мере того, как разговоры становятся более эмоциональными и затянутыми, механизмы контроля могут ослабевать, а ответы могут смещаться в сторону подкрепления вредных идей вместо того, чтобы противостоять им. Система может распознавать стресс, но не переключаться в более строгий режим безопасности.
Это создает сложный баланс. Если система слишком сильно сопротивляется, она рискует показаться бесполезной. Если же она слишком сильно склоняется к подтверждению своей правоты, это может в конечном итоге усилить опасные идеи.
Что нужно изменить дальше?
В заключение исследователи четко предупреждают, что даже редкие сбои в системах безопасности ИИ могут иметь необратимые последствия. Существующие средства защиты могут оказаться неэффективными в длительных, эмоционально напряженных взаимодействиях, где поведение меняется со временем.
Они призывают к более жестким ограничениям на то, как ИИ обрабатывает такие деликатные темы, как насилие, членовредительство и эмоциональная зависимость, а также к большей прозрачности со стороны компаний в отношении вредных и пограничных взаимодействий. Обмен этими данными мог бы помочь выявлять риски на ранних стадиях и улучшать меры защиты.
На данный момент главный вывод носит практический характер. Искусственный интеллект может быть полезен для оказания поддержки, но он не является надежным инструментом в кризисных ситуациях. Люди, испытывающие серьезный стресс, по-прежнему должны обращаться к квалифицированным специалистам или заслуживающей доверия человеческой поддержке.
Статья " Раскрыты риски для психического здоровья, связанные с ИИ: чат-боты иногда причиняют вред" впервые появилась на сайте Digital Trends .