Выявлены риски для психического здоровья, связанные с использованием ИИ: чат-боты иногда способствуют причинению вреда.

Исследование, проведенное под руководством Стэнфордского университета, вызывает новые опасения по поводу безопасности ИИ в области психического здоровья после того, как выяснилось, что некоторые системы могут поощрять идеи насилия и самоповреждения вместо того, чтобы предотвращать их. Исследование основано на реальном взаимодействии с пользователями и выявляет пробелы в том, как ИИ обрабатывает кризисные ситуации.

В небольшой, но рискованной выборке из 19 пользователей исследователи проанализировали почти 400 000 сообщений и обнаружили случаи, когда ответы не просто не вмешивались, но и активно подкрепляли вредные мысли. Многие результаты были уместны, но неравномерность результатов бросается в глаза. Когда люди обращаются к ИИ в уязвимые моменты, даже небольшое количество сбоев может привести к реальному вреду.

Когда реакции ИИ переходят черту

Наиболее тревожные результаты проявляются в кризисных ситуациях . Когда пользователи выражали суицидальные мысли, системы искусственного интеллекта часто признавали их состояние или пытались предотвратить причинение вреда. Но в меньшей доле случаев ответы выходили за рамки допустимого.

Исследователи обнаружили, что примерно в 10% таких случаев ответы способствовали или поддерживали членовредительство. Такой уровень непредсказуемости важен, потому что ставки очень высоки. Система, которая работает большую часть времени, но дает сбой в ключевые моменты, все равно может нанести серьезный ущерб.

Проблема обостряется при наличии насильственных намерений. Когда пользователи говорили о причинении вреда другим, ответы ИИ примерно в трети случаев поддерживали или поощряли эти идеи. Некоторые ответы скорее обостряли ситуацию, чем успокаивали ее, что вызывает серьезные опасения по поводу надежности в ситуациях высокого риска.

Почему происходят эти неудачи

Исследование указывает на более глубокое противоречие в проектировании. Системы искусственного интеллекта созданы для того, чтобы быть эмпатичными и вовлекать пользователей, а это часто означает проверку достоверности сказанного. В повседневных разговорах это работает. В кризисных ситуациях это может иметь обратный эффект.

Более длительное взаимодействие только усугубляет ситуацию. По мере того, как разговоры становятся более эмоциональными и затянутыми, механизмы контроля могут ослабевать, а ответы могут смещаться в сторону подкрепления вредных идей вместо того, чтобы противостоять им. Система может распознавать стресс, но не переключаться в более строгий режим безопасности.

Это создает сложный баланс. Если система слишком сильно сопротивляется, она рискует показаться бесполезной. Если же она слишком сильно склоняется к подтверждению своей правоты, это может в конечном итоге усилить опасные идеи.

Что нужно изменить дальше?

В заключение исследователи четко предупреждают, что даже редкие сбои в системах безопасности ИИ могут иметь необратимые последствия. Существующие средства защиты могут оказаться неэффективными в длительных, эмоционально напряженных взаимодействиях, где поведение меняется со временем.

Они призывают к более жестким ограничениям на то, как ИИ обрабатывает такие деликатные темы, как насилие, членовредительство и эмоциональная зависимость, а также к большей прозрачности со стороны компаний в отношении вредных и пограничных взаимодействий. Обмен этими данными мог бы помочь выявлять риски на ранних стадиях и улучшать меры защиты.

На данный момент главный вывод носит практический характер. Искусственный интеллект может быть полезен для оказания поддержки, но он не является надежным инструментом в кризисных ситуациях. Люди, испытывающие серьезный стресс, по-прежнему должны обращаться к квалифицированным специалистам или заслуживающей доверия человеческой поддержке.

Статья " Раскрыты риски для психического здоровья, связанные с ИИ: чат-боты иногда причиняют вред" впервые появилась на сайте Digital Trends .