В ходе реального тестирования модель GPT-5.3-Codex была определена как первая модель высокого риска в истории OpenAI, и даже API для нее пока недоступен.

Выпущенный сегодня рано утром GPT-5.3-Codex можно рассматривать как мощную контратаку OpenAI против недавнего всплеска популярности различных локальных агентов, и прежде всего, как контратаку против Anthropic.

Благодаря выпущенному несколько дней назад компанией OpenAI настольному приложению Codex, функции популярных инструментов, таких как Skill, Cowork, Claude Code и даже Openclaw, теперь можно реализовать через оболочку Codex и возможности модели GPT-5.3-Codex.

▲ В приложении Codex вы можете напрямую выбрать модель GPT-5.3-Codex, а также выбрать интенсивность глубокого размышления.

Подобно тому, как мы ранее представляли возможности Cowork, мы также поручили Codex выполнить ряд аналогичных задач, таких как непосредственная обработка локальных файлов, преобразование различных форматов, объединение различных навыков, создание файлов Word/PPT/Excel, загрузка видео, разработка приложений и т. д.

GPT-5.3-Codex демонстрирует замечательные результаты. По сравнению с установкой Claude Code с нуля, загрузка Codex напрямую является лучшим вариантом для новых пользователей. Это также тенденция среди разработчиков моделей в будущем; изначально все начинали с неудобного терминала командной строки для создания локальных агентов, но постепенно они возвращаются к удобным визуальным интерфейсам.

В последние несколько дней онлайн-отзывы о Codex значительно изменились, многие разработчики перешли с Claude Code на Codex. Некоторые независимые разработчики в Китае также заявили, что участники Codex Plus могут использовать его без жестоких блокировок аккаунтов, которые часто применяет Claude.

Ультрамен с восторгом объявил, что число активных пользователей Codex превысило 1 миллион. Его блог с обновлениями моделей также был полон безграничной и щедрой похвалы.

GPT-5.3-Codex — это наша первая модель, разработанная нами самостоятельно . Благодаря использованию версии 5.3-Codex мы смогли выпустить её в столь короткие сроки.

Две недели работы с командой Клода, использование кода Клода — на 100% кода для ИИ — для создания чего-то вроде Cowork; а еще есть статья OpenAI конца прошлого года «Создание Android-версии Sora за 28 дней с помощью Codex» — эра агентов действительно наступила.

Замените мой код ChatGPT и код Клода на код Codex.

Как и большинство локальных агентов, будь то в терминале или в коворкинге, мы сначала выбираем рабочую папку. В Codex мы можем создать несколько проектов, выбрать соответствующие папки, а затем начать разговор; в Codex это называется потоками.

Начнём с самого распространённого и простого примера. Мы добавили пустую папку для загрузок, затем нажали «Начать обсуждение» и выбрали модель GPT-5.3-Codex; как в чате ChatGPT, мы ввели команды.

Мы попросили Codex загрузить для нас видеофайл категории X. Codex автоматически проверил наличие доступных навыков для его обработки, а затем загрузил его с помощью инструмента yt-dlp. Видео длилось более четырех часов, и Codex постоянно обновлял информацию о ходе загрузки в диалоговом окне.

▲Изображение в формате GIF ускорено.

После загрузки видео мы также можем попросить программу извлечь из него текстовую расшифровку, предоставить двуязычный документ и, наконец, упаковать весь процесс в навык для удобного использования в будущем.

Если у вас есть интересные фрагменты видео, и вы хотите обрезать видео или преобразовать обрезанное видео в GIF, вы можете сделать все это в Codex.

Например, мы скачиваем видео, а затем просим программу обрезать фрагменты с 5 по 25 секунду, чтобы создать новое видео. Благодаря быстрой обработке токенов в GPT-5.3-Codex весь процесс занимает немного времени; он в большей степени зависит от возможностей аппаратного декодирования и кодирования локального компьютера.

▲ GIF-изображение ускорено.

В качестве альтернативы, мы можем напрямую попросить программу преобразовать первые 5 секунд видео в GIF-файл, убедившись, что его размер не превышает 10 МБ, частота кадров может быть отрегулирована, а ширина для большей четкости установлена ​​на уровне 640 пикселей.

Вскоре мы получим соответствующий GIF-файл. Ещё более экстремально то, что он может преобразовать всё видео в изображения со скоростью 30 кадров в секунду, причём каждый кадр будет отдельным изображением.

Благодаря возможностям прямой обработки локальных файлов, а также превосходной производительности GPT-5.3-Codex в тестовом пакете Terminal-Bench-2, Codex в значительной степени удовлетворяет функциональным требованиям различных инструментов повышения производительности и эффективности.

Для сравнения, недавно выпущенный Claude Opus 4.6 набрал 65,4% в тесте Terminal-Bench 2.0 и 77,3% в тесте GPT-5.3-Codex.

Источник изображения: https://x.com/neilsuperduper/status/2019486017703547309/

Например, если в этой папке находится несколько изображений, наше первое требование — переименовать эти файлы изображений в соответствии с их содержимым, при этом имена файлов не должны превышать 20 символов, без использования символов.

▲ GIF-изображение ускорено.

После завершения автоматической модификации мы также можем попросить программу сшить эти изображения вместе, как по вертикали, так и по горизонтали. Codex может сделать это, вызвав соответствующие инструменты.

Как и Claude Skills, Codex позволяет устанавливать широкий спектр навыков из Skills Marketplace, и уже предлагает несколько навыков внутри приложения, включая pptx, xls, word, canvas и notion.

Возвращаясь к базовым навыкам программирования, обновленная версия GPT-5.3-Codex демонстрирует значительно лучшие результаты, чем GPT-5.2. Мы напрямую попросили ее написать приложение «Слово дня». В отличие от ChatGPT, которая просто предоставляет непередаваемую веб-страницу с использованием Canvas, Codex позволяет собрать проект локально с нуля, а затем развернуть его на веб-странице, используя такие инструменты, как Vercel или Cloudflare.

Здесь мы выбрали режим сверхвысокого уровня логического мышления. Перед каждой операцией GPT-5.3-Codex запрашивал у меня следующий вариант операции. Это также связано с тем, что Codex может напрямую вызывать различные навыки в зависимости от ситуации. Среди них навык «Мозговой штурм» автоматически запускает режим непрерывного диалога.

В конечном итоге, он практически полностью выполнил все мои первоначальные пожелания, и его можно доработать для версий под macOS, iOS и Android.

Если у нас уже есть проект с кодом, мы также можем выбрать папку проекта и открыть её в Codex. GPT-5.3-Codex проанализирует ошибки в проекте и исправит их.

Долгое время модель Sonnet/Opus от Anthropic и инструмент Claude Code были предпочтительным выбором для разработчиков как с точки зрения инструментов, так и моделей. Отставание OpenAI в программировании, особенно в области логического вывода длинных кодов, заставило многих разработчиков сменить платформу.

Появление GPT-5.3-Codex было призвано положить конец этим спорам. Теперь GPT-5.3-Codex не только превосходит своего предшественника в тестах программирования и реальной производительности, но и демонстрирует признаки значительного превосходства над моделями конкурентов. Он действительно обладает способностью писать, тестировать и анализировать код.

Проект по разработке игры стал ключевым примером для изучения в разделе разработки веб-сайтов этого блога, посвященного ознакомлению с моделью. Мы также поручили GPT-5.3-Codex создать простую игру в пинбол с физической моделью. Хотя общий результат не оправдал моих ожиданий — я специально просил добавить RPG в подсказках — интерфейс, предоставленный GPT-5.3-Codex, все же оказался слишком примитивным. Тем не менее, в нее все еще можно играть.

Мы также обнаружили несколько небольших игр на X, созданных с помощью GPT-5.3-Codex, например, эту игру в стиле Super Mario, где нужно собирать монеты.

▲Источник: https://x.com/Angaisb_/status/2019548783869325331

Среди сильных всегда найдутся более сильные игроки.

Для Anthropic то, что OpenAI делает сегодня, — это то, что мы уже делали. Будь то код, возможности агентов или начало разработки локальных агентов, переход от предыдущего терминала Codex к приложениям для macOS.

В сфере технологий OpenAI, похоже, следует по стопам Клода. Клод был глубоко вовлечен в программирование, в то время как OpenAI работала над Sora, ежедневными отчетами, браузерами и агентами ChatGPT, но ни один из этих проектов не произвел особого фурора, поэтому они также начали уделять больше внимания программированию. Клод запустил Cowork в начале января, а OpenAI последовала его примеру в начале февраля, выпустив приложение Codex.

Как и в случае с сегодняшней чередой релизов, в 1:45 утра Клод официально выпустил Claude Opus 4.6, за которым последовал релиз OpenAI GPT-5.3-Codex. Обе модели фактически разработаны для того, чтобы предоставить агентам более мощные базовые возможности. Раньше речь шла о коде/атмосфере, но теперь для эффективной работы агента в основном нужно «писать хороший код».

Хотя Opus 4.6 показывает еще худшие результаты, чем Opus 4.5 на SWE-Bench, и не так силен, как GPT-5.3-Codex на Terminal-Bench 2.0, Opus беспрецедентно увеличил длину контекста до окна в один миллион токенов. Более того, производительность этих бенчмарков существенно не отличается.

Клод сказал: «Мой пятый сонет еще не издан; вот где проявляется настоящее мастерство».

Мы также нашли в интернете несколько последних тестовых примеров для Opus 4.6. Некоторые пользователи сети заявили, что Claude 4.6 Opus полностью переработал весь свой код всего одним вызовом, модульно разделив исходный беспорядочный «хлам» кода. Ни одна другая модель не может сделать это так же хорошо, как Opus.

Некоторые пользователи сети сравнили Opus 4.6 и 4.5, заставив обе модели сыграть в одну и ту же игру по управлению, чтобы определить, у кого выше уровень аккаунта, богатство и оборудование. Блогер, проводивший тестирование, отметил, что версия 4.6 потребовала больше времени на разработку стратегий на ранних этапах, но принимала более эффективные стратегические решения и в итоге добилась значительного преимущества.

Ещё один пользователь сети создал игру, но это клон Pokémon. Блогер упомянул, что это самая крутая вещь, которую он когда-либо делал с помощью ИИ. Он сказал, что на разработку Claude Opus 4.6 ушло 1 час 30 минут, было использовано 110 000 токенов, и всего три итерации.

▲ https://x.com/chatgpt21/status/2019679978162634930

В официальной демонстрации CLaude и первых отзывах пользователей был упомянут случай исключительной эффективности Opus. Opus 4.6 автоматически закрыл 13 нерешенных задач (проблем в проекте) за один день и точно распределил еще 12 задач между соответствующими членами команды.

Подобно рою агентов в Kimi K2.5, Opus 4.6 также может управлять кодовой базой организации из 50 человек. В Claude Code мы можем формировать команды агентов, вызывая целую команду ИИ, вместо одного ИИ, сражающегося в одиночку. Эти ИИ могут отвечать за написание кода, его проверку и тестирование, а также автономно сотрудничать.

Некоторые пользователи также протестировали рой агентов в Claude Code и отметили, что после его включения Opus 4.6 стал работать в 2,5 раза быстрее и показал лучшие результаты.

Наша нынешняя ситуация очень похожа на эту картинку: хотя одна гора выше другой, мы не можем вырваться из этого замкнутого круга. Вероятно, несколько месяцев назад в центре внимания оказался Gemini, в январе следующим должен стать Claude, а затем, похоже, настанет очередь OpenAI или Grok от Маска.

К счастью, в течение этого цикла мы, как пользователи, можем ясно ощущать, что возможности ИИ постоянно совершенствуются.

API для GPT-5.3-Codex пока не открыт, поскольку модель слишком мощная и представляет значительный риск. Поэтому OpenAI всё ещё рассматривает способы безопасного включения API.

Claude Opus 4.6 можно использовать различными способами, включая универсальное приложение для чата Claude, Claude Code и API. Будучи одними из первых моделей, выпущенных тремя крупнейшими международными поставщиками в этом году, они определенно заслуживают внимания.

В будущем улучшение обслуживания агентов и предоставление им возможности выполнять для нас различные задачи останутся ключевым направлением крупных обновлений модели.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.

ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo