Исследования показывают, что образовательным учреждениям не следует слишком доверять детекторам текста на основе искусственного интеллекта.
Вот неприятная мысль для каждого академического учреждения, которое в настоящее время использует детекторы на основе ИИ для контроля за работами студентов и исследователей: эти инструменты работают не так надежно, как предполагают учреждения.
В докладе, представленном на этой неделе на Симпозиуме IEEE по безопасности и конфиденциальности 2026 года исследователями из Университета Флориды, делается вывод о том, что коммерчески доступные детекторы текста, созданные с помощью ИИ, «плохо подходят для использования в академических или ответственных контекстах».
Это вежливый способ сказать, что университеты принимают судьбоносные решения, основываясь на результатах, полученных с помощью инструментов, которые по сути своей ненадежны.
Что же на самом деле показало исследование?
Патрик Трейнер, доктор философии, профессор и исполняющий обязанности заведующего кафедрой компьютерных и информационных наук и инженерии Университета Флориды, возглавил группу, которая протестировала пять наиболее популярных коммерчески доступных детекторов текста на основе искусственного интеллекта.
Используя примерно 6000 научных работ, представленных на ведущих конференциях по безопасности еще до появления ChatGPT , они поручили магистрам права создать клоны этих же работ, а затем пропустили оба набора через детекторы искусственного интеллекта.
Результаты показали частоту ложноположительных результатов в диапазоне от 0,05% до 68,6%, и, что еще более удивительно, частоту ложноотрицательных результатов от 0,3% до 99,6%. Верхняя граница этого диапазона близка к 100%, что означает, что детектор с наихудшими показателями пропустил практически весь текст, сгенерированный ИИ.
Хотя два из пяти детекторов изначально показали хорошие результаты, они стали практически бесполезны после того, как исследователи попросили LLM переписать свои выходные данные, используя более сложную лексику (в статье это называется атакой на лексическую сложность).
Почему это важно не только с точки зрения академической честности?
Трейнер выразился прямо: «Мы действительно не можем использовать их для принятия таких решений. На кону карьера людей». Обвинение в использовании искусственного интеллекта при написании статьи может навсегда подорвать репутацию исследователя, но мы не можем слепо доверять инструментам, выдвигающим такие обвинения.
Аргумент заключается в том, что сами данные о широком использовании ИИ в академической литературе ненадежны. «Несмотря на множество исследований, утверждающих, что определенный процент академических работ создан с помощью ИИ, у нас на самом деле нет инструментов для измерения этого», — добавил Трейнер.
Его исследование не просто критикует сами инструменты; оно выявляет системный сбой в обеспечении должной осмотрительности со стороны каждого учреждения, которое внедрило эти инструменты, не потребовав доказательств их точности.