Только что вышел GPT-5.5! Клод Код за одну ночь вылечил своё психическое расстройство, и у «Ультрамена, потерявшего сознание» появится продолжение.

По данным Business Insider, оценка стоимости Anthropic на частном вторичном рынке превысила 1 триллион долларов. Для сравнения, оценка стоимости OpenAI в последнем раунде финансирования в конце марта этого года осталась на уровне 852 миллиардов долларов.

Помимо давно существующей в отрасли «теории пузыря ИИ», этот набор сравнительных данных также показывает, что OpenAI, которая когда-то занимала лидирующие позиции, теперь испытывает давление со стороны конкурентов, стремящихся догнать и превзойти себя. Но нам не пришлось долго ждать, прежде чем OpenAI предприняла контратаку.

Только что состоялся официальный релиз GPT-5.5, а также версии GPT-5.5 Pro для выполнения более сложных задач.

Если бы нам нужно было в одном предложении сформулировать основную философию проектирования GPT-5.5, она звучала бы так: позволить пользователям напрямую задавать модели сложную многоэтапную задачу, после чего модель будет автономно планировать свой путь, задействовать инструменты, проверять результаты, разрешать неоднозначности и продолжать работу.

То, что может показаться всего лишь итерацией номера версии 0.1, по эффективности вывода данных сравнимо с крупным обновлением версии — для той же задачи Codex GPT-5.5 потребляет значительно меньше токенов, что делает его одновременно умнее и экономичнее.

▲После более чем месячных жалоб компания Anthropic вспомнила о проблеме снижения интеллекта только после выхода GPT-5.5.

Дебют GPT-5.5, безжалостный триумф в таблице лидеров.

Результат GPT-5.5 на бумаге выглядит очень впечатляюще.

В рейтинге комплексного индекса интеллекта, составленном известной независимой оценочной организацией Artificial Analysis, компания OpenAI заняла первое и второе места со своей серией GPT-5.5, расположившись в четырех из шести верхних позиций и практически не оставив конкурентам шансов на победу.

Результаты бенчмарка показывают, что в Terminal-Bench 2.0 (тестирование сложных рабочих процессов командной строки) GPT-5.5 достигает 82,7%, GPT-5.4 — 75,1%, а Claude Opus 4.7 — 69,4%.

В тесте SWE-Bench Pro (оценивающем возможности решения реальных задач на GitHub) GPT-5.5 показал результат 58,6%, выполнив больше задач от начала до конца за один запуск и превзойдя показатель GPT-5.4 в 57,7%.

В рамках внутреннего бенчмарка OpenAI Expert-SWE среднее расчетное время выполнения задачи человеком составило 20 часов, при этом GPT-5.5 достиг 73,1%, а GPT-5.4 — 68,5%. Кроме того, GPT-5.5 выполнил задачу с меньшим количеством токенов во всех трех бенчмарках.

Однако на этот раз OpenAI также прибегла к уловке в сносках, тонко поставив под сомнение достоверность некоторых результатов Claude Opus 4.7 с помощью небольшой строчки текста. Но пользователь сети Deedy не поверил этому. По его мнению, эта заметка больше походила на отвлекающий маневр — в конце концов, сама OpenAI не смогла предоставить более прозрачный и общедоступный бенчмарк, который бы напрямую доказал эффективность GPT-5.5.

Улучшения в GPT-5.5 особенно значительны в таких областях, как программирование агентов, использование компьютеров, интеллектуальный труд и ранние научные исследования.

Первые тестировщики сообщили, что GPT-5.5 значительно лучше понимает общую структуру больших кодовых баз, заблаговременно предвидит потенциальные проблемы и учитывает требования к тестированию и проверке заранее, не требуя дополнительных подсказок.

Известный блогер-обзорщик и основатель Every, Дэн Шиппер, поделился конкретным случаем: после запуска его приложения возникли проблемы. Он несколько дней самостоятельно занимался отладкой, но безуспешно, и в конце концов попросил инженера переписать часть системы. Он воспроизвел этот сценарий с помощью GPT-5.5, и модель предложила то же решение, что и инженер, в то время как GPT-5.4 оказался бессилен помочь.

По словам соучредителя Cursor Майкла Труэлла, GPT-5.5 умнее и отказоустойчивее, чем GPT-5.4, с более надежными вызовами инструментов и способностью дольше оставаться активным без остановок при выполнении сложных, долгосрочных задач.

Ещё более возмутительно то, что один из инженеров Nvidia, столкнувшись с этим на раннем этапе, прямо заявил: «Потеря доступа к GPT-5.5 — это всё равно что ампутировать себе конечности».

▲ Если не произойдут никакие непредвиденные обстоятельства, родится ещё один знаменитый мем.

(Что??) Однако, учитывая, что Ультрамен «почувствовал головокружение, слабость и рухнул на землю» после просмотра демонстрации GPT-5, и до сих пор нет внятного объяснения этому факту, заявление инженера Nvidia не кажется таким уж преувеличенным.

В сценариях работы с информацией GPT-5.5 также демонстрирует исключительно хорошие результаты.

  • В оценке GDPval, которая измеряет способность выполнять работу по 44 категориям профессиональных знаний, GPT-5.5 победил или показал одинаковый результат в 84,9% случаев, GPT-5.4 победил в 83,0%, Claude Opus 4.7 победил в 80,3%, а Gemini 3.1 Pro победил только в 67,3%.
  • В тесте OSWorld-Verified (проверка способности модели автономно работать в реальной компьютерной среде) GPT-5.5 показала результат 78,7%, GPT-5.4 — 75,0%, а Claude Opus 4.7 — 78,0%.
  • В тесте Tau2-bench Telecom (тестирование сложных рабочих процессов обслуживания клиентов) GPT-5.5 показал точность 98,0% без каких-либо корректировок слов-подсказок, в то время как GPT-5.4 показал 92,8%, что является существенной разницей.
  • В других конкретных тестах GPT-5.5 показал результат 60,0% в FinanceAgent v1.1, 88,5% в задачах внутреннего моделирования в инвестиционном банкинге и 54,1% в OfficeQA Pro (по сравнению с 43,6% для Claude Opus 4.7 и всего 18,1% для Gemini 3.1 Pro).
  • На BixBench (разработанном для реальной биоинформатики и анализа данных) GPT-5.5 показал результат 80,5%, а GPT-5.4 — 74,0%, заняв первое место среди моделей с опубликованными результатами. На GeneBench (тестирование многоэтапного анализа данных в генетике и количественной биологии) GPT-5.5 показал результат 25,0%, GPT-5.4 — 19,0%, а версия Pro — 33,2%. Эти задачи обычно занимают несколько дней работы для научных специалистов.

Более 85% сотрудников OpenAI еженедельно используют Codex, охватывая такие отделы, как разработка программного обеспечения, финансы, коммуникации, маркетинг, анализ данных и управление продуктами.

Финансовый отдел проверил 24 771 налоговый документ K-1 общим объемом 71 637 страниц, используя GPT-5.5, завершив проверку на две недели раньше запланированного срока по сравнению с предыдущим годом. Отдел коммуникаций разработал автоматизированного бота в Slack для автоматической обработки запросов низкого уровня риска, а сотрудник отдела маркетинга использовал его для автоматического создания еженедельных бизнес-отчетов, сэкономив от 5 до 10 часов в неделю.

Кроме того, одним из главных преимуществ GPT-5.5 является совместная модернизация инфраструктуры вывода.

Модель GPT-5.5 была разработана и обучена совместно с использованием систем NVIDIA GB200 и GB300 NVL72. Одним из ключевых улучшений стали стратегии балансировки нагрузки и разделения трафика. Компания Codex проанализировала данные о трафике за несколько недель и разработала собственный эвристический алгоритм для динамической оптимизации разделения трафика и балансировки нагрузки, что в конечном итоге повысило скорость генерации токенов более чем на 20%.

Компания OpenAI также отметила, что GPT-5.5 сама участвовала в процессе совершенствования своей инфраструктуры для выполнения инференции.

GPT-5.5 доступен пользователям ChatGPT Plus, Pro, Business и Enterprise с сегодняшнего дня. Codex поддерживает до 400 000 контекстных окон и предлагает режим быстрой обработки в 1,5 раза быстрее (по цене в 2,5 раза выше стандартной). GPT-5.5 Pro доступен пользователям ChatGPT Pro, Business и Enterprise.

Версия API скоро будет доступна, стандартная цена составит 5 долларов за миллион входных токенов и 30 долларов за миллион выходных токенов, с контекстным окном в 1 миллион токенов. Пакетная обработка и эластичное ценообразование будут стоить вдвое дешевле стандартной цены, а приоритетная обработка — в 2,5 раза дороже стандартной цены.

Стоимость API GPT-5.5 Pro составляет 30 долларов за миллион входных токенов и 180 долларов за миллион выходных токенов. OpenAI заявляет, что благодаря улучшенной эффективности токенов большинство пользователей не заметят значительного увеличения фактических затрат на использование. Хотя о Claude Opus 4.7 ничего не говорится, каждое слово несет в себе более глубокий смысл.

OpenAI стремится стать мощным вратами в эру искусственного интеллекта.

Ни одна модель не получает всеобщего признания, и GPT-5.5 не является исключением. Пользователь @chetaslua использовал всего один запрос для создания полноценного веб-сайта с физическим движком, имитирующим ветер, в Codex, идеально интегрировав физическое взаимодействие и дизайн интерфейса, воскликнув: «Это первый раз, когда я почувствовал, что ChatGPT может стать универсальным инструментом искусственного интеллекта для решения всех проблем».

Пользователь @petergostev заставил модель сгенерировать сцену игрушечной железной дороги, включающую лондонские достопримечательности и сезонные изменения. После сравнения с результатом работы GPT-5.4 он пришел к выводу, что «GPT-5.5 более амбициозен, более последователен и содержит меньше ошибок». Он также заставил модель непрерывно работать в течение нескольких часов в более сложной задаче переноса приложения без каких-либо сбоев.

Конечно, есть и жалобы. Пользователь сети @arrakis_ai обнаружил, что GPT-5.5 иногда просто генерирует изображение при работе со сложными макетами, а при обработке требований к иконкам пишет SVG-файлы с нуля вместо использования существующих библиотек. В то же время, он часто приостанавливается и запрашивает обратную связь от пользователя, а его работа не так оперативна, как раньше.

Что касается стиля письма, то, по моему личному опыту, у меня схожие ощущения. GPT-5.5 действительно лучше организует язык, чем его предшественник, по крайней мере, он может говорить более по-человечески, но всё же присутствует странный привкус: «Я здесь, не прячусь, не уклоняюсь, не убегаю, я тебя обязательно поймаю».

Кроме того, многие пользователи сети также заметили, что OpenAI приложила определенные маркетинговые усилия к составлению своих рейтингов бенчмарков.

Пользователь Хайдер считает, что разница между GPT-5.5 и Mythos не так велика, как предполагалось изначально, особенно учитывая, что Mythos стоит вдвое дороже GPT-5.5 и не доступен для широкой публики. Он прогнозирует, что следующее поколение GPT легко догонит Mythos.

Как сообщает TechCrunch, на вопрос репортера о том, обладает ли GPT-5.5 возможностями, аналогичными Mythos, инженер OpenAI Миа Глэзе дала, казалось бы, безупречный, но в то же время тонко проницательный ответ: «У нас есть долгосрочная и надежная стратегия кибербезопасности, и мы усовершенствовали метод для постоянной и безопасной модели развертывания».

Вывод очевиден: единственная мощная модель в конечном итоге — всего лишь мимолетная мода. Когда речь заходит о более сложных задачах цифровой защиты и развертывания на корпоративном уровне, барьеры экосистемы OpenAI являются единственной действительно надежной защитой для B2B-клиентов.

С выходом GPT-5.5 амбиции OpenAI стали очевидны: они больше не довольствуются ролью умного чат-бота, а хотят создать «суперприложение на основе ИИ», которое возьмет на себя все рабочие процессы.

В интервью зарубежным СМИ президент OpenAI Грег Брокман использовал слово «агентный», чтобы описать скачок вперед в развитии этой модели. По сравнению со своим предшественником, GPT-5.4, GPT-5.5 потребляет меньше токенов, но работает быстрее, обладает более четкой логикой и начинает демонстрировать способность к проактивному решению сложных задач.

Это прочная основа для того, чтобы стать суперприложением.

▲ Ультрамен сегодня необычайно взволнован и даже сменил фотографию профиля.

Так называемое суперприложение глубоко интегрирует ChatGPT, Codex и браузер с поддержкой ИИ в единый сервис. Представьте себе рабочий процесс будущего: людям больше не нужно будет переключаться между браузерами, редакторами кода и инструментами анализа данных. Достаточно отдать команду макроса этому суперприложению, и GPT-5.5 сможет автономно открывать веб-страницы для сбора данных, писать код веб-краулера, очищать данные и, в конечном итоге, предоставлять полный аналитический отчет непосредственно в фоновом режиме.

Конечно, подобно прочной связи между Клодом и Клодом Кодом, OpenAI также намерена подпитывать рост Codex. Недавно Альтман заявил, что число активных пользователей Codex приблизилось к отметке в 4 миллиона менее чем за две недели после того, как превысило 3 миллиона, и OpenAI впоследствии сбросила лимит активности, стремясь захватить экосистему разработчиков с помощью «массового и обильного» подхода.

С одной стороны, благодаря высоким показателям GPT-5.5 и GPT-Image-2, это напрямую противодействовало давлению на ожидания Anthropic относительно оценки компании; с другой стороны, это использовало привлекательность экосистемы Codex для привлечения разработчиков и постепенно создало полноценную сервисную систему, охватывающую потребительский сегмент и корпоративный сегмент.

Стратегии наступления и обороны изменились. Компания OpenAI, которую критиковали за отставание в этом году, наконец-то вернула себе наступательный ритм, который у нее был два года назад, и теперь сосредотачивает свои усилия на постоянном совершенствовании своей продукции.

Вот официальный адрес блога OpenAI:

https://openai.com/index/introducing-gpt-5-5/

*Обложка создана с помощью ИИ.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.