Новое исследование показывает, что искусственный интеллект не готов к работе в офисе.

Прошло почти два года с тех пор, как генеральный директор Microsoft Сатья Надела предсказал, что генеративный ИИ возьмет на себя интеллектуальный труд, но если сегодня оглянуться вокруг в типичной юридической фирме или инвестиционном банке, то можно увидеть, что человеческий труд по-прежнему играет ведущую роль. Несмотря на всю шумиху вокруг «рассуждений» и «планирования», новое исследование компании Mercor, занимающейся обработкой обучающих данных, объясняет, почему роботизированная революция застопорилась: ИИ просто не может справиться со сложностями реальной работы.

Проверка реальности теории «замещения»

Компания Mercor выпустила новый бенчмарк под названием APEX-Agents, и он невероятно сложен. В отличие от обычных тестов, в которых ИИ просят написать стихотворение или решить математическую задачу, этот тест использует реальные запросы от юристов, консультантов и банкиров. Он требует от моделей выполнения полных многоэтапных задач, требующих переключения между различными типами информации.

Результаты? Даже самые лучшие модели на рынке — речь идёт о Gemini 3 Flash и GPT-5.2 — не смогли преодолеть отметку в 25% точности. Gemini лидировала с 24%, GPT-5.2 следовала за ней с 23%. Большинство остальных показали результаты в районе 10-20%.

Почему ИИ не проходит «офисный тест»

Генеральный директор Mercor Брендан Фуди отмечает, что проблема не в самой информации, а в контексте. В реальном мире ответы не подаются на блюдечке. Юристу приходится проверять ветку обсуждений в Slack, читать PDF-документ с политикой, изучать электронную таблицу, а затем, обобщив всю эту информацию, отвечать на вопрос о соответствии GDPR.

Люди переключаются между контекстами естественным образом. Искусственный интеллект, как оказалось, делает это ужасно. Когда вы заставляете эти модели искать информацию в «разрозненных» источниках, они либо путаются, либо дают неверный ответ, либо просто сдаются.

«Ненадежный стажер»

Для тех, кто беспокоится о своей работе, это своего рода облегчение. Исследование показывает, что в настоящее время ИИ функционирует не столько как опытный профессионал, сколько как ненадежный стажер, который делает все правильно примерно в четверти случаев.

Тем не менее, прогресс поразительно быстр. Фуди отметил, что всего год назад эти модели показывали результаты от 5% до 10%. Теперь они достигают 24%. Таким образом, хотя они еще не готовы сесть за руль, они учатся управлять автомобилем гораздо быстрее, чем мы ожидали. Однако пока революция «интеллектуальной работы» приостановлена ​​до тех пор, пока боты не научатся выполнять несколько задач одновременно.

Статья " Новое исследование показывает, что ИИ не готов к офисной работе" впервые появилась на сайте Digital Trends .