Предварительные тесты показывают, что оценка ваших данных о физической активности сервисом ChatGPT Health может вызвать ненужную панику.
В начале этого месяца OpenAI представила новый раздел, посвященный здоровью, в рамках ChatGPT , позиционируя его как более безопасный способ для пользователей задавать вопросы на деликатные темы, такие как медицинские данные, заболевания и фитнес. Одной из главных особенностей, отмеченных при запуске, была способность ChatGPT Health анализировать данные из таких приложений, как Apple Health, MyFitnessPal и Peloton, для выявления долгосрочных тенденций и предоставления персонализированных результатов. Однако новый отчет предполагает, что OpenAI, возможно, преувеличила эффективность этой функции в извлечении достоверных выводов из этих данных.
Согласно предварительным тестам, проведенным Джеффри А. Фаулером из The Washington Post , когда ChatGPT Health получил доступ к данным Apple Health за десятилетие, чат-бот оценил состояние сердечно-сосудистой системы журналиста на «неудовлетворительно». Однако после пересмотра оценки кардиолог назвал ее «безосновательной» и заявил, что реальный риск сердечных заболеваний у журналиста крайне низок.
Доктор Эрик Топол из Института Скриппса дал откровенную оценку возможностям ChatGPT Health, заявив, что инструмент не готов давать медицинские рекомендации и слишком сильно полагается на ненадежные показатели умных часов. Оценка ChatGPT в значительной степени основывалась на оценках VO2 max и вариабельности сердечного ритма, полученных с помощью Apple Watch, которые имеют известные ограничения и могут значительно различаться между устройствами и версиями программного обеспечения. Независимые исследования показали, что оценки VO2 max, полученные с помощью Apple Watch, часто занижены, однако ChatGPT по-прежнему рассматривает их как явные индикаторы плохого состояния здоровья.
ChatGPT Health выставила разные оценки одним и тем же данным.
Проблемы на этом не закончились. Когда журналист попросил ChatGPT Health повторить ту же процедуру оценки, оценка колебалась от F до B в разных диалогах, при этом чат-бот иногда игнорировал имеющиеся у него результаты недавних анализов крови и порой забывал основные детали, такие как возраст и пол журналиста. Чат- бот Claude for Healthcare от Anthropic, также запущенный в начале этого месяца, продемонстрировал аналогичную закономерность, выставляя оценки от C до B-.
Как OpenAI, так и Anthropic подчеркивали, что их инструменты не предназначены для замены врачей и предоставляют лишь общую информацию. Тем не менее, оба чат-бота давали уверенные и высоко персонализированные оценки состояния сердечно-сосудистой системы. Такое сочетание авторитетности и непоследовательности может отпугнуть здоровых пользователей или ложно успокоить нездоровых. Хотя ИИ в конечном итоге может раскрыть ценные сведения из долгосрочных данных о здоровье, предварительные испытания показывают, что использование многолетних данных о физической активности в этих инструментах в настоящее время создает больше путаницы, чем ясности.
Статья " Первые тесты показывают, что оценка ваших данных о физической активности сервисом ChatGPT Health может вызвать ненужную панику" впервые появилась на сайте Digital Trends .