GPT-5.2 только что официально выпущен! Он сократит рабочее время офисных работников на 10 часов в неделю; взрослый режим будет доступен в следующем году.

12 декабря, 2025 Дядя Влад

За 1106 дней компания OpenAI прошла путь от того, кто перевернул ситуацию с ног на голову, до того, чья ситуация была перевернута.

В связи с выпуском Google Gemini 3, генеральный директор OpenAI Альтман на прошлой неделе выпустил редкое предупреждение «красного уровня опасности», объявив о перенаправлении всех ресурсов обратно на основную ветку ChatGPT, а другие направления бизнеса будут отложены.

Впервые с момента основания OpenAI компания объявила о «красной тревоге», и это также первый случай, когда она так ясно признала, что конкурентное давление стало настолько сильным, что ей необходимо противостоять ему всеми силами.

Только что компания OpenAI выпустила модель GPT-5.2, нанеся мощный удар. GPT-5.2 будет доступна платным пользователям ChatGPT и разработчикам через API и будет выпущена в трех версиях:

Instant: оптимизированная по скорости версия, подходящая для рутинных задач, таких как поиск информации, написание текстов и перевод;
Мышление: Умение эффективно справляться со сложными структурированными задачами, такими как программирование, анализ объемных документов, математические вычисления и планирование;
Плюсы: Высококачественная версия, ориентированная на обеспечение максимальной точности и надежности при решении сложных задач.

Никаких разговоров, только реальная работа: GPT-5.2 стремительно ворвался на рабочее место работающих профессионалов.

Предполагалось, что OpenAI сосредоточится на улучшении персонализации и пользовательского опыта ChatGPT, но выпуск GPT-5.2 по-прежнему следует пути прагматизма в практической деятельности.

Как заявил Фиджи Симо, генеральный директор OpenAI: «Мы разработали GPT-5.2, чтобы создать большую экономическую ценность для пользователей».

Что такое экономическая ценность?

Цель состоит в том, чтобы дать возможность ИИ реально выполнять такие задачи, как создание электронных таблиц, написание презентаций PowerPoint, программирование, просмотр изображений, чтение длинных статей, вызов инструментов и управление сложными проектами — все это является сильной стороной GPT-5.2.

Данные весьма впечатляют. В среднем каждый пользователь ChatGPT Enterprise утверждает, что ИИ экономит ему от 40 до 60 минут в день, а активные пользователи экономят еще больше — более 10 часов в неделю.

Главное достоинство этой версии — функция мышления в GPT-5.2.

В тесте GDPval, оценивающем 44 задачи, основанные на профессиональных знаниях, модель стала первой, которая достигла или превзошла общие показатели экспертов-людей. В частности, по сравнению с отраслевыми экспертами, GPT-5.2 Thinking превзошла или сравнялась с экспертами-людьми в 70,9% задач.

Эти задачи не случайны; они охватывают девять ведущих отраслей в рейтинге ВВП США, включая презентации продаж, бухгалтерскую отчетность, планы работы отделений неотложной помощи, производственные чертежи, создание коротких видеороликов и многое другое — все это сложные задачи из реальных рабочих ситуаций.

Улучшение навыков программирования заметно еще сильнее.

SWE-Bench Pro — это очень строгий тест, оценивающий возможности модели в реальных условиях разработки программного обеспечения. Он включает в себя четыре языка программирования и значительно сложнее, чем версия только для Python. GPT-5.2 Thinking показал в этом тесте результат 55,6%, установив новый отраслевой рекорд.

Что еще более впечатляет, так это результат в 80% в тесте SWE-bench Verified, установивший новый рекорд. Это означает, что GPT-5.2 Thinking может более надежно отлаживать код в производственных средах, реализовывать функциональные требования и рефакторить большие кодовые базы, делая сквозные исправления более эффективными и сокращая вмешательство человека.

Значительно улучшилась и разработка фронтенда.

Первые тестировщики отмечают, что он лучше справляется со сложными или нестандартными задачами пользовательского интерфейса, особенно с теми, которые включают 3D-элементы, что делает его настоящим помощником для full-stack разработчиков.

Компания OpenAI также выпустила несколько примеров, сгенерированных на основе одного запроса: симулятор волн, генератор поздравительных открыток к праздникам и игра «дождь из набранных символов». Всего лишь с помощью одного запроса создается целое одностраничное приложение с настраиваемыми параметрами, реалистичной анимацией и спокойным стилем пользовательского интерфейса.

Частота появления иллюзий снижена на 30%, воспроизведение длинного текста практически идеально.

С точки зрения фактической точности, тест GPT-5.2 Thinking имеет более низкий уровень «иллюзий» по сравнению с тестом GPT-5.1 Thinking.

В серии анонимизированных запросов ChatGPT количество неверных ответов уменьшилось примерно на 30%. Для профессионалов это означает снижение количества ошибок и повышение уверенности в использовании сервиса для таких задач, как исследования, написание текстов, анализ и поддержка принятия решений.

Однако OpenAI также предупреждает, что, как и все модели, GPT-5.2 не идеальна, и ключевые задачи по-прежнему требуют ручной проверки.

Способность к логическому мышлению при работе с длинными текстами также установила новый стандарт.

В бенчмарке OpenAI MRCRv2 модель GPT-5.2 превзошла GPT-5.1. Этот тест оценивает способность модели корректно интегрировать информацию, распределенную по длинным документам. Для таких задач, как глубокий анализ документов, которые включают интеграцию информации из нескольких документов, содержащих сотни тысяч токенов, точность GPT-5.2 значительно превосходит точность GPT-5.1.

В частности, в тесте MRCR 4-needle (который отличается от «поиска иголки в стоге сена», но требует от модели различения и поиска конкретной иголки среди множества одинаковых «иголок» в огромном объеме текста), с контекстом до 256 тысяч токенов, GPT-5.2 стала первой моделью, достигшей точности, близкой к 100%.

Это означает, что профессиональные пользователи могут эффективно обрабатывать чрезвычайно длинные документы с помощью GPT-5.2, включая отчеты, контракты, научные статьи, стенограммы интервью и многофайловые проекты. Он сохраняет логическую согласованность и точность информации даже при обработке сотен страниц контента. С точки зрения визуального восприятия, GPT-5.2 Thinking в настоящее время является самой мощной визуальной моделью OpenAI. В задачах рассуждений на основе графов и понимания интерфейса программного обеспечения частота ошибок снижена примерно вдвое.

В повседневном профессиональном использовании это означает, что модель может более точно интерпретировать данные с информационных панелей, скриншоты продуктов, технические чертежи и визуальные отчеты, что делает ее подходящей для рабочих сценариев, ориентированных на визуальное восприятие, таких как финансы, операционная деятельность, проектирование, дизайн и обслуживание клиентов.

Также улучшились навыки пространственного восприятия и использования инструментов. В тесте Tau2-bench Telecom GPT-5.2 Thinking достиг нового рекордного результата в 98,7%, продемонстрировав свою способность надежно использовать инструменты в длительных многоэтапных задачах.

Даже при самом низком уровне точности вывода, GPT-5.2 по-прежнему значительно превосходит GPT-5.1 и GPT-4.1.

Это означает, что мышление по методике GPT-5.2 лучше подходит для выполнения сквозных рабочих процессов, обработки обращений в службу поддержки клиентов, извлечения данных из нескольких систем, выполнения аналитических задач, эффективного завершения всего процесса и минимизации ошибок на промежуточных этапах.

Наиболее сложной частью этого релиза, пожалуй, является совершенствование навыков в области математики и естественных наук.

В тестах для аспирантов по естественным наукам, таких как GPQA Diamond, охватывающих такие области, как физика, химия и биология, GPT-5.2 показывает значительно лучшие результаты. Он также справляется с эталонными тестами, такими как FrontierMath, которые оценивают навыки решения математических задач на экспертном уровне.

Что еще более впечатляет, в тесте ARC-AGI-1 модель GPT-5.2 Pro первой преодолела отметку в 90% точности, превзойдя прошлогодний результат o3-preview в 87%, при этом снизив стоимость примерно в 390 раз.

Версия ARC-AGI-2 сложнее и ориентирована на проверку способности к логическому мышлению. Результат GPT-5.2 Thinking составляет 52,9%, что является новым рекордом для «модели цепного мышления». GPT-5.2 Pro идет еще дальше, достигая 54,2%.

В официальном блоге упоминается впечатляющий случай: GPT-5.2 Pro даже предоставляет убедительное доказательство открытой проблемы в теории статистического обучения.

Этот вопрос возник из нерешенной проблемы, поднятой на конференции по теории обучения (COLT) в 2019 году: если модель идеально настроена и данные подчиняются стандартному нормальному распределению, является ли кривая обучения монотонной в этом классическом «чистом» случае?

Исследователи не разрабатывали алгоритм и не предоставляли доказательство заранее, а также не вводили промежуточные шаги или подсказки. Вместо этого они напрямую запросили полное доказательство у GPT-5.2 Pro. В результате модель предложила допустимое решение, корректность которого была подтверждена ручной проверкой и экспертной оценкой.

Это демонстрирует, что GPT-5.2 Pro может играть более существенную роль в содействии научным исследованиям в областях с четкими аксиоматическими основами, таких как математика и теоретическая информатика: в исследовании путей доказательства, проверке гипотез и обнаружении скрытых связей.

▲Цена API GPT-5.2

Столь впечатляющие результаты достигаются ценой больших затрат.

Режимы «Мышление» и «Глубокое исследование» потребляют гораздо больше вычислительной мощности, чем обычные чат-боты, поскольку им необходимо «думать» гораздо глубже. Это связано с тем, что OpenAI теперь тратит большую часть своих ресурсов на вывод моделей непосредственно в денежной форме, а не используя кредиты облачного сервиса Microsoft Azure.

Трудно сказать, как долго может просуществовать подобная стратегия, требующая постоянных вложений.

В целом, GPT-5.2 больше похожа на интеграцию двух предыдущих обновлений модели, чем на полную реконструкцию.

Выпущенная в августе GPT-5 представляла собой архитектурную перезагрузку, в которой был введен механизм маршрутизации, позволяющий переключаться между режимами быстрого отклика и глубокого «размышления». Выпущенная в ноябре GPT-5.1 сделала систему более щадящей, более ориентированной на диалог и лучше подходящей для агентов и задач программирования.

Нынешняя версия GPT-5.2 призвана развить эти преимущества для создания более надежной модели производственного класса. И очень важная деталь: базовая база знаний всех трех выпущенных на этот раз моделей GPT-5.2 была обновлена.

На платформе ChatGPT началось постепенное внедрение GPT-5.2, первоначально доступного для платных пользователей. GPT-5.1 останется в варианте "Традиционная модель" в течение трех месяцев, после чего будет официально снят с поддержки.

API также доступен, и разработчики уже могут его использовать. Он немного дороже, чем GPT-5.1, но OpenAI утверждает, что благодаря большей эффективности токена фактическая общая стоимость ниже.

Одна плохая новость и одна хорошая новость

Помимо самой модели, существуют две совершенно противоположные новости, касающиеся коммерциализации OpenAI.

Хотя в этом релизе не была представлена новая модель генерации изображений, сегодня OpenAI заключила с Disney трехлетнее лицензионное соглашение.

Пользователи могут создавать видеоролики для социальных сетей с участием более 200 персонажей из Disney, Marvel, Pixar и Star Wars, и некоторые из этих видеороликов даже можно воспроизводить на Disney+.

Взамен Disney инвестировала 1 миллиард долларов в OpenAI и станет крупным клиентом. Сочетание интеллектуального контента и генерации искусственного интеллекта, безусловно, открывает большие перспективы.

Ещё одна важная новость: для «режима для взрослых» в ChatGPT наконец-то появились чёткие временные рамки.

Поскольку все больше и больше чат-ботов с искусственным интеллектом начинают работать с контентом для взрослых, OpenAI больше не играет роль святых. По данным Bloomberg, Фиджи Симо подтвердила, что запуск этой функции ожидается в первом квартале 2026 года.

До этого OpenAI продолжит оптимизировать свои возможности распознавания возраста, чтобы гарантировать автоматическую активацию механизмов защиты контента для несовершеннолетних. В настоящее время модель прогнозирования возраста проходит предварительное тестирование в отдельных странах для оценки ее способности идентифицировать подростков и гарантировать, что она не ошибочно идентифицирует взрослых.

Столкнувшись с неустанным давлением со стороны Google Gemini, OpenAI ответила целым комплексом мер, включая GPT-5.2. Он быстрее, мощнее и больше похож на зрелый коммерческий продукт.

В то же время, используя образ Микки Мауса из мультфильмов Диснея, OpenAI готовится к запуску «взрослого» режима. Компании необходимо сохранить свое технологическое лидерство, быстро монетизируя свою продукцию; ей нужно завоевать корпоративный рынок, не упуская при этом ни одной точки входа трафика.

К счастью, компания OpenAI, отмечающая свой десятый юбилей, в итоге продемонстрировала неплохую игру в этой контратаке.

▲ Там ещё есть небольшая пасхальная отсылка.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.

ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo