Искусственный интеллект может пройти тест Тьюринга в онлайн-чатах и казаться более человечным, чем мы. Теперь мне страшно.
Искусственный интеллект может пройти тест Тьюринга в онлайн-чатах, и последний результат вызывает мурашки по коже. В исследовании Калифорнийского университета в Сан-Диего GPT-4.5 превзошел реальных участников в умении убедить судей в том, что на другом конце провода находится человек.
От такой схемы было сложнее отказаться, чем от стандартного теста. Судьи реагировали на обмен репликами в реальном времени, а не на статичные подсказки, и быстро принимали решение, основываясь исключительно на разговоре.
Самое тревожное — это то, насколько знакомо выглядит этот навык. Модели не требовалось ни тела, ни голоса, ни биографии. Ей нужно было лишь, чтобы её голос звучал как у кого-то другого.
Как ИИ превзошёл человека в тестировании?
В исследовании использовалась версия теста с участием трех сторон. Члены жюри общались как с человеком, так и с моделью искусственного интеллекта, а затем выбирали, кого из них они считали настоящим.
GPT-4.5 был идентифицирован как человек в 73% случаев при предъявлении ему подсказки, определяющей его личность. LLaMa-3.1-405B также преодолел поразительный рубеж, будучи выбранным как человек в 56% случаев при предъявлении подсказки, определяющей его личность.
Эти цифры придают результатам исследования убедительность. Модель не просто избежала обнаружения, она предоставила судьям достаточно социальных сигналов, чтобы распознать в ней человека, участвовавшего в чате.
Почему этот тест по-прежнему важен?
Тест Тьюринга — это метод, разработанный несколько десятилетий назад, чтобы проверить, может ли машина достаточно хорошо имитировать человеческую речь, чтобы обмануть человека. В классической версии теста эксперт общается с участниками, не видя их, а затем пытается отличить человека от машины.
Это всегда был скорее культурный символ, чем точный критерий оценки. Тем не менее, он остается тем тестом, который люди используют, чтобы понять, подходит ли программное обеспечение кому-либо из нас.
Благодаря этому новый результат выглядит более чётко. Чат-боту не нужны сознание, эмоции или самосознание, чтобы создать впечатление, будто в ответ пишет реальный человек. Ему достаточно быть убедительным в данный момент.
Риск проявляется в самых обычных местах. Службы поддержки клиентов, приложения для знакомств, социальные платформы, образование и политическая риторика — все они полагаются на быструю оценку личности, намерений и подлинности.
Что нам посмотреть дальше?
В исследовании нет однозначного утверждения, что чат-боты понимают людей. Более практический вывод заключается в том, что некоторые модели теперь могут очень хорошо воспроизводить личность человека в коротких диалогах.
Следующим важным моментом должно стать более четкое информирование. Когда бот может незаметно вписаться в непринужденную беседу, пользователям необходимы более четкие сигналы о том, что они имеют дело с программным обеспечением, особенно в ситуациях, когда убеждение или эмоциональная уязвимость определяют характер взаимодействия.
Следующий конфликт разгорится из-за навешивания ярлыков в чатах, где люди быстро принимают решения о доверии.