Ультрамен выпустил GPT-5.4! Пользователи сети прокомментировали: «Простое приветствие стоит 80 долларов!»

Ультрамен выпустил GPT-5.4! Пользователи сети прокомментировали: «Простое приветствие стоит 80 долларов!»

Каждый раз, когда вы открываете инструмент искусственного интеллекта, вам, вероятно, приходится на секунду задуматься: какую модель мне следует использовать для этой задачи? Написание кода — это одно, поиск информации — другое, а чтобы ИИ помогал вам управлять компьютером, нужно открыть еще одно окно.

После сегодняшнего дня у этого чувства разобщенности наконец-то появился новый ответ.

Только что OpenAI официально выпустила GPT-5.4, которая объединяет программирование, рассуждения, управление компьютером, веб-поиск и контекст Million Tokens в единую модель, не жертвуя при этом ни одной из этих возможностей ради интеграции.

Генеральный директор OpenAI Сэм Альтман также опубликовал короткий твит о платформе X, выделив пять областей: более эффективную обработку знаний, улучшенный веб-поиск, встроенное управление компьютером, поддержку миллионов контекстов токенов и возможность вмешательства в любой момент процесса реагирования.

Эти несколько слов точно отражают пять наиболее острых проблем, возникающих при применении ИИ за последние два года.

Работа с интеллектуальным трудом: в восьми случаях из десяти ИИ превосходит профессионалов.

Для понимания достижений GPT-5.4 в области обработки знаний необходимо сначала разобраться в логике проектирования бенчмарка GDPval.

Он охватывает 44 профессии в девяти отраслях, которые вносят наибольший вклад в ВВП США. Задачи представляют собой реальные рабочие задачи, которые встречаются каждый день на рабочем месте: написание финансовых моделей для инвестиционных банков, составление графиков работы отделений неотложной помощи в больницах и создание презентаций для отделов продаж.

После завершения задачи результат передается реальным специалистам отрасли для слепого тестирования и оценки, чтобы определить, на какой процент результатов, полученных с помощью ИИ, превосходит результаты работы его коллег-людей.

Для GPT-5.4 ответ составляет 83,0%, что означает, что более чем в восьми из десяти сравнений специалисты отрасли считают, что результаты работы ИИ достигли или превзошли уровень его человеческих аналогов. Предыдущее поколение, GPT-5.2, показало результат 70,9%, разница составляет почти 13 процентных пунктов.

Прогресс наиболее очевиден в моделировании с использованием электронных таблиц. GPT-5.4 смоделировал работу младшего аналитика инвестиционного банка, выполняющего задачу моделирования, со средним баллом 87,3%, по сравнению с 68,4% для GPT-5.2 и 79,3% для GPT-5.3-Codex, разница составляет почти 20 процентных пунктов.

Результаты тестирования Harvey в BigLaw Bench оказались не менее впечатляющими: оценка GPT-5.4 составила 91%, а также компания заняла первое место в бенчмарке APEX-Agents от Mercor.

Точность также вызывает опасения. Проблема галлюцинаций всегда была самым большим препятствием для внедрения ИИ в профессиональные сферы, и каждое снижение на один процентный пункт означает, что его можно безопасно использовать в большем количестве сценариев.

Данные показывают, что по сравнению с GPT-5.2, в GPT-5.4 вероятность ошибок в отдельном утверждении на 33% ниже, а вероятность ошибок в полном ответе — на 18% ниже.

Программирование: Единая модель, охватывающая все этапы написания кода и тестирования.

GPT-5.4 интегрирует программные возможности GPT-5.3-Codex в основную ветку разработки. Для разработчиков это означает, что больше не нужно создавать отдельную модель для написания кода, и сами программные возможности никоим образом не ухудшаются.

SWE-Bench Pro специально разработан для тестирования реальных задач разработки программного обеспечения. Он показывает результат 57,7% на GPT-5.4, 56,8% на GPT-5.3-Codex и 55,6% на GPT-5.2. После интеграции оценка за программирование фактически повышается, а также появляется целый набор универсальных возможностей, таких как управление компьютером, что делает практически невозможным обнаружение каких-либо очевидных недостатков.

После тестирования известный блогер, специализирующийся на обзорах ИИ, Дэн Шиппер написал: «Это лучшие возможности планирования, которые мы видели у OpenAI за последнее время. Проверка кода также очень эффективна, а стоимость примерно вдвое ниже, чем у Opus».

Он выделил два конкретных аспекта. Во-первых, способность к планированию имеет решающее значение для успеха долгосрочных задач, и GPT-5.4 значительно лучше организован в плане декомпозиции задач и непрерывного прогресса. Во-вторых, по сравнению с Claude Opus, он стоит примерно вдвое дешевле; для разработчиков, которым необходимо выполнять масштабные вызовы API, эта разница будет очень заметна в счете.

Включение режима /fast в Codex может увеличить скорость генерации токенов в GPT-5.4 до 1,5 раз, что позволит пользователям поддерживать бесперебойный рабочий процесс во время кодирования, итераций и отладки.

В то же время, недавно представленная экспериментальная функция Playwright Interactive выводит процесс программирования в GPT-5.4 на новый уровень.

GPT-5.4 обеспечивает отладку в реальном времени через визуальный браузер при разработке веб-приложений или приложений Electron. Модель может одновременно писать код и тестировать создаваемое приложение, выполняя роли как разработчика, так и тестировщика.

Компания OpenAI продемонстрировала яркий пример: с помощью всего лишь одного легковесного запроса GPT-5.4 сгенерировал полноценную изометрическую игру-симулятор тематического парка, включающую систему прокладки дорожек и строительства аттракционов на основе плиток, навигацию посетителей и поведение в очередях, управляемые ИИ, а также комплексную оценку, которая динамически обновляется в режиме реального времени по четырем показателям: финансирование, количество посетителей, удовлетворенность и чистота.

Компания Playwright Interactive провела несколько этапов автоматизированного тестирования на протяжении всего процесса, проверяя корректность прокладки маршрутов, навигации камеры, реакции посетителей и показателей пользовательского интерфейса. От написания кода до тестирования и приемки модель выполнила весь процесс автономно.

Блогер Angel также создал клон Minecraft, используя GPT-5.4. На создание модели ушло около 24 минут, и она работала без сбоев. Он написал в Твиттере: «Minecraft, по сути, взломан. Теперь мне нужно найти новый тест».

Профессор Уортонской школы бизнеса Итан Моллик также получил ранний доступ. Используя ту же подсказку, он заставил GPT-5.4 Pro сгенерировать 3D-сцену, вдохновленную Пиранези, без каких-либо ошибок, добавив лишь инструкцию «Сделайте лучше». Затем он сравнил результат с версией, сгенерированной GPT-4 двумя годами ранее, и разница стала сразу очевидна.

Оно лучше справляется с управлением компьютерами, чем вы сейчас.

Это наиболее заметное изменение в релизе GPT-5.4. Ранее возможности OpenAI по обработке данных представляли собой отдельный модуль, с четким разделением между ними и функциями распознавания языка и генерации кода модели.

Ранее две системы работали независимо друг от друга, требуя обмена информацией, что, естественно, снижало эффективность. Теперь, когда это разделение устранено, GPT-5.4 использует собственные возможности модели для управления компьютером, исключая необходимость в обходном подходе.

Это также первый продукт OpenAI, в котором возможности использования вычислительных ресурсов изначально интегрированы в общую модель, и я считаю, что это станет новой отправной точкой для будущих дискуссий об агентах искусственного интеллекта.
Результаты бенчмарков показывают, что тесты OSWorld-Verified демонстрируют возможности навигации по рабочему столу, позволяя пользователям выполнять реальные задачи операционной системы с помощью скриншотов и взаимодействия с мышью/клавиатурой. GPT-5.4 достиг показателя успешности 75,0%, по сравнению с 72,4% для базового теста с участием людей и 47,3% для GPT-5.2.

Короче говоря, оно не только догнало человечество, но и превзошло его.

В бенчмарке Online-Mind2Web, который проверяет управление браузером только в режиме создания скриншотов, GPT-5.4 показал результат 92,8%, в то время как сравниваемый с ним ChatGPT Atlas достиг 70,9% в режиме агента.

Реальные примеры внедрения говорят сами за себя. Компания Mainstay использовала GPT-5.4 для автоматического заполнения форм примерно на 30 000 порталах по налогу на недвижимость, достигнув 95% успеха с первого раза и 100% успеха в течение трех попыток, по сравнению с 73–79% для предыдущих аналогичных моделей. Скорость завершения сессии увеличилась примерно в три раза, а потребление токенов снизилось примерно на 70%.

Это неразрывно связано с улучшением возможностей визуального восприятия. Управление компьютером в конечном итоге сводится к «четкому зрению» — четкому видению того, что отображается на интерфейсе, где находятся кнопки и насколько точны нажатия.

В стандарте GPT-5.4 внесены существенные улучшения в этот слой, в частности, введен режим ввода исходного изображения, поддерживающий ввод изображений высокой точности с максимальной длиной стороны 10,24 миллиона пикселей или 6000 пикселей; верхний предел режима ввода исходного изображения высокой точности также был увеличен по сравнению с предыдущим стандартом до максимальной длины стороны 2,56 миллиона пикселей или 2048 пикселей.

Использование инструментов и веб-поиск: устойчивое развитие — ключевой фактор конкурентоспособности.

Сложная система ИИ-агента может поддерживаться десятками инструментов MCP. Раньше подход заключался в том, чтобы запихнуть все описания инструментов в систему перед началом каждого разговора, независимо от того, будут ли эти инструменты использоваться или нет, и сначала потратить токены.

В GPT-5.4 используется другой подход: во-первых, модель получает простой список инструментов (то есть, вводится механизм поиска инструментов). Когда инструмент действительно необходим, извлекается его подробное описание. Инструменты, которые использовались один раз, могут быть кэшированы напрямую, поэтому их не нужно будет запрашивать снова в следующий раз.

В ходе тестирования 250 задач при полной конфигурации из 36 активированных серверов MCP режим поиска инструментов позволил сократить общее потребление токенов на 47% при сохранении той же точности. Было сэкономлено почти вдвое меньше средств без ущерба для точности.

В веб-поиске GPT-5.4 показал результат 82,7% в бенчмарке BrowseComp, что на 17 процентных пунктов выше, чем у GPT-5.2 (65,8%), а версия Pro достигла 89,3%, установив новый отраслевой рекорд. Генеральный директор Zapier отметил, что GPT-5.4 продолжает поиск там, где другие модели сдаются, что делает его самой настойчивой моделью из всех, что они когда-либо тестировали.

Контекст миллиона токенов: длинный-длинный-длинный-длинный-длинный

GPT-5.4 поддерживает контекстные окна до 1 миллиона токенов в своем API, что означает, что вся необходимая документация для всего проекта может быть умещена в один диалог. Однако, судя по результатам тестирования, наиболее стабильный диапазон производительности составляет от 128 000 до 272 000 токенов, что подходит для повседневного использования.

Точность начинает снижаться при значениях выше 256 тыс., что требует проверки для конкретных задач перед использованием. Показатель в диапазоне от 512 тыс. до 1 млн падает до 36,6%, что в настоящее время является экспериментальным показателем и непригодно для непосредственного использования в производственных задачах, требующих высокой точности.

Ещё один важный практический аспект, касающийся затрат, заключается в том, что запросы, превышающие 272 КБ, будут учитываться в квоте в два раза чаще, чем обычные запросы. Другими словами, отправка запроса с чрезмерно длинным контекстом потребляет тот же объём квоты, что и два обычных запроса. Перед отправкой такого запроса стоит тщательно обдумать, действительно ли вам необходим такой длинный контекст.

Что касается теста ARC-AGI-2 на визуальное абстрактное мышление, GPT-5.4 Pro показал результат 83,3%, в то время как предыдущее поколение GPT-5.2 Pro набрало всего 54,2%.

Например, FrontierMath Tier 4 широко признан одним из самых сложных математических тестов, содержащим 50 задач исследовательского уровня, на решение которых у математиков-людей может уйти несколько недель. GPT-5.4 Pro набрал 38,0% в этом тесте, по сравнению с 31,3% у его предшественника.

Ориентиром для этого показателя служит следующее: год назад лучший результат составлял 2% от o3, а в настоящее время лучшая модель с открытым исходным кодом имеет показатель 4,2%.

Блогер Диди написал в Твиттере, что скачок с 2% до 38% был «просто поразительным». С помощью специальных инструментов Humanity's Last Exam показал результат 58,7% для GPT-5.4 Pro и 50,0% для GPT-5.2 Pro, разница составляет почти 9 процентных пунктов.

Корректировки в процессе внедрения, а не переделка после завершения.

Любой, кто использовал ИИ для решения длительных задач, наверняка сталкивался с подобным: после того, как модель выполнила длительный участок работы, вы понимаете, что она движется в неправильном направлении, и вам приходится начинать все сначала, тратя все свое время впустую.

В GPT-5.4 Thinking в ChatGPT появилась новая функция «прерывания»: перед выполнением сложных задач модель отображает план работы, а затем начинает его выполнение. Пользователи могут вмешаться в любой момент во время выполнения, чтобы скорректировать направление, не дожидаясь результата и не начиная заново.

Эта функция переводит процесс исправления из состояния «завершено» в состояние «в процессе», что заметно улучшает пользовательский опыт при выполнении задач, требующих нескольких этапов совместной работы. В настоящее время функция доступна на chatgpt.com и в приложении для Android, версия для iOS появится в ближайшее время.

Начиная с сегодняшнего дня, GPT-5.4 доступен пользователям ChatGPT Plus, Team и Pro, заменяя модель мышления GPT-5.2 в качестве модели мышления по умолчанию.
GPT-5.2 Thinking будет сохранен до официального вывода из эксплуатации 5 июня этого года. Пользователи тарифных планов Enterprise и Edu могут получить ранний доступ к нему через своих администраторов в фоновом режиме, в то время как GPT-5.4 Pro доступен для тарифных планов Pro и Enterprise.

Стандартный API стоит 2,50 доллара США за миллион токенов на входе, 0,25 доллара США за миллион токенов на кэшированном входе и 15 долларов США за миллион токенов на выходе. Версия Pro стоит 30 долларов США за миллион токенов на входе и 180 долларов США за миллион токенов на выходе. Пакетная и гибкая обработка предлагаются по цене вдвое ниже стандартной, а приоритетная обработка — по цене вдвое выше стандартной.

Конечно, у сильной способности к рассуждению есть и свои недостатки. Соучредитель Hyperbolic Джастин Джин пожаловался на платформе X, что GPT-5.4 Pro — это модель, которая ему больше всего нравится для «чрезмерного обдумывания»: она начинала серьезно рассуждать после всего лишь одного простого «Привет», потратив при этом 80 долларов.

Это не единичный случай. Природа моделей вывода диктует, что они, как правило, задействуют глубокий мыслительный процесс при обработке любых входных данных, даже если сама задача этого не требует. Для повседневных, несложных задач стандартная версия может быть более подходящим выбором; возможности вывода версии Pro целесообразнее использовать в действительно важных ситуациях.

В течение последних двух лет дискуссии о возможностях ИИ в основном были сосредоточены на «интеллекте» результатов эталонных тестов, но интеллект GPT-5.4 подразумевает его способность надежно брать на себя ответственность в реальных рабочих процессах.

Раньше ИИ мог выдавать только текст, и людям по-прежнему приходилось вручную управлять им, чтобы добиться результата. Теперь же модель может открыть браузер, заполнить форму, нажать кнопку и самостоятельно записать результаты, независимо выполняя полный цикл обработки задачи.

Искусственный интеллект трансформируется из системы, способной отвечать на вопросы, в систему, способную выполнять задачи. И эта трансформация происходит гораздо быстрее, чем большинство людей предполагало.

Адрес для справки прилагается:
https://openai.com/index/introducing-gpt-5-4/

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.

ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo