Новое исследование показывает, что искусственный интеллект не готов к работе в офисе.
Прошло почти два года с тех пор, как генеральный директор Microsoft Сатья Надела предсказал, что генеративный ИИ возьмет на себя интеллектуальный труд, но если сегодня оглянуться вокруг в типичной юридической фирме или инвестиционном банке, то можно увидеть, что человеческий труд по-прежнему играет ведущую роль. Несмотря на всю шумиху вокруг «рассуждений» и «планирования», новое исследование компании Mercor, занимающейся обработкой обучающих данных, объясняет, почему роботизированная революция застопорилась: ИИ просто не может справиться со сложностями реальной работы.
Проверка реальности теории «замещения»
Компания Mercor выпустила новый бенчмарк под названием APEX-Agents, и он невероятно сложен. В отличие от обычных тестов, в которых ИИ просят написать стихотворение или решить математическую задачу, этот тест использует реальные запросы от юристов, консультантов и банкиров. Он требует от моделей выполнения полных многоэтапных задач, требующих переключения между различными типами информации.
Результаты? Даже самые лучшие модели на рынке — речь идёт о Gemini 3 Flash и GPT-5.2 — не смогли преодолеть отметку в 25% точности. Gemini лидировала с 24%, GPT-5.2 следовала за ней с 23%. Большинство остальных показали результаты в районе 10-20%.
Почему ИИ не проходит «офисный тест»
Генеральный директор Mercor Брендан Фуди отмечает, что проблема не в самой информации, а в контексте. В реальном мире ответы не подаются на блюдечке. Юристу приходится проверять ветку обсуждений в Slack, читать PDF-документ с политикой, изучать электронную таблицу, а затем, обобщив всю эту информацию, отвечать на вопрос о соответствии GDPR.
Люди переключаются между контекстами естественным образом. Искусственный интеллект, как оказалось, делает это ужасно. Когда вы заставляете эти модели искать информацию в «разрозненных» источниках, они либо путаются, либо дают неверный ответ, либо просто сдаются.
«Ненадежный стажер»
Для тех, кто беспокоится о своей работе, это своего рода облегчение. Исследование показывает, что в настоящее время ИИ функционирует не столько как опытный профессионал, сколько как ненадежный стажер, который делает все правильно примерно в четверти случаев.
Тем не менее, прогресс поразительно быстр. Фуди отметил, что всего год назад эти модели показывали результаты от 5% до 10%. Теперь они достигают 24%. Таким образом, хотя они еще не готовы сесть за руль, они учатся управлять автомобилем гораздо быстрее, чем мы ожидали. Однако пока революция «интеллектуальной работы» приостановлена до тех пор, пока боты не научатся выполнять несколько задач одновременно.
Статья " Новое исследование показывает, что ИИ не готов к офисной работе" впервые появилась на сайте Digital Trends .