ChatGPT, Gemini и другие боты с искусственным интеллектом дают плохие медицинские советы в половине случаев.

Люди уже используют чат-боты с искусственным интеллектом как поисковые системы для получения повседневной информации о здоровье. Однако эта привычка выглядит более рискованной после того, как новое исследование показало, что половина ответов от пяти крупных ботов были проблематичными, даже когда ответы звучали профессионально и уверенно.

Исследователи протестировали ChatGPT , Gemini , Grok , Meta AI и DeepSeek , используя 250 запросов, охватывающих темы рака, вакцин, стволовых клеток, питания и спортивных достижений.

В ходе опроса задавались распространенные вопросы о здоровье и знакомые темы дезинформации, после чего оценивалось, насколько боты соответствуют научным данным или же дают вводящие в заблуждение и потенциально опасные советы.

Наиболее существенные пробелы были выявлены в ходе общих вопросов.

Наихудшие результаты были получены при использовании открытых вопросов. Более общие вопросы привели к гораздо большему числу проблемных ответов, чем ожидалось, в то время как закрытые вопросы, как правило, давали более безопасные ответы.

Это важно, потому что реальные люди обычно не задают медицинские вопросы в упорядоченном формате с несколькими вариантами ответов. Они спрашивают, работает ли лечение, безопасна ли вакцина или что может улучшить спортивные результаты.

В ходе исследования подобные подсказки подталкивали ботов к ответам, в которых убедительные доказательства сочетались с более слабыми или вводящими в заблуждение утверждениями.

Уверенность, ненадежные источники поставок

Недостатки касались не только самих ответов. Качество справочной информации было низким, средний показатель полноты составлял 40%, и ни один из чат-ботов не предоставил полностью точный список литературы.

Это ослабляет одну из главных причин, по которой люди доверяют ответам чат-ботов. Ответ может выглядеть обоснованным и авторитетным, а затем развалиться после проверки ссылок.

Исследователи также выявили сфабрикованные ссылки, в то время как боты по-прежнему отвечали с уверенностью и практически не давали никаких оговорок.

Почему это важно не только для одного теста

Полученные результаты имеют ограничения. В исследовании рассматривались только пять чат-ботов, эти продукты быстро меняются, а подсказки были разработаны таким образом, чтобы нагрузить модели, что может завышать частоту появления неправильных ответов в повседневном использовании.

Тем не менее, главный вывод трудно игнорировать. Эти системы были протестированы на основе доказательной медицины, и половина ответов все же оказалась ошибочной или неполной.

На данный момент чат-боты могут помочь обобщить информацию или сформулировать дополнительные вопросы, но они по-прежнему не выглядят достаточно надежными для принятия значимых медицинских решений.