В ChatGPT и Claude одновременно вышло крупное обновление; тех, кто не сможет управлять ИИ, исключат из проекта.

Только что в кругах специалистов по искусственному интеллекту в Кремниевой долине произошло «столкновение Марса и Земли».

Как будто по предварительной договоренности, OpenAI и Anthropic одновременно выпустили свои основные обновления: Claude Opus 4.6 и GPT-5.3-Codex.

Если до вчерашнего вечера мы обсуждали «как писать хорошие подсказки для работы», то сегодня утром нам, возможно, пришлось учиться «как управлять сотрудниками с искусственным интеллектом, будучи руководителем».

Искусственный интеллект создает искусственный интеллект и, попутно, захватывает ваш компьютер.

Буквально вчера Сэм Альтман отпраздновал достижение компанией Codex отметки в один миллион активных пользователей на платформе X. А всего через день OpenAI преподнесла еще один сюрприз — GPT-5.3-Codex.

В технической документации содержится очень важное утверждение: «Это первая модель, сыгравшая ключевую роль в процессе нашего собственного создания».

Проще говоря, это означает, что ИИ научился писать собственный код, самостоятельно находить ошибки и даже начал обучать следующее поколение ИИ. Эта способность к саморазвитию напрямую отражается в ряде показателей эффективности.

Помните тест производительности OSWorld-Verified, имитирующий работу человека за компьютером? Предыдущая модель показала точность всего 38,2%, что даже не соответствовало проходному баллу.

Но на этот раз показатель GPT-5.3-Codex подскочил до 64,7%!

Стоит отметить, что средний уровень владения искусственным интеллектом у человека составляет всего 72%. Это означает, что ИИ находится в шаге от того, чтобы быть таким же умелым, как вы, в использовании мыши, переключении экранов и работе с программным обеспечением.

В Terminal-Bench 2.0 (работа через командную строку) программа показала высокий результат — 77,3%, значительно превзойдя GPT-5.2 (62,2%).

Известный бенчмарк SWE-Bench Pro охватывает четыре языка программирования, не только устойчив к загрязнению, но и решает реальные, сложные инженерные задачи.

GPT-5.3-Codex не только достиг здесь самых высоких показателей производительности, но и использовал меньше токенов, чем любая предыдущая модель. Что это значит? Это значит, что он не только работает невероятно быстро, но и решает задачи быстрее и экономичнее, чем человек.

Компания OpenAI даже продемонстрировала свою способность к самостоятельному построению систем:

За считанные дни компания разработала с нуля гоночную игру версии 2 с множеством карт, а также создала игру о глубоководном дайвинге, в которой управляется система подачи кислорода.

Больше всего меня впечатлило понимание в GPT-5.3-Codex неоднозначных намерений.

При создании целевой страницы "Quiet KPI" автоматически произошло преобразование "годового плана" в "ежемесячную цену со скидкой", и даже было предусмотрительно добавлено карусель отзывов пользователей — и всё это без каких-либо указаний с вашей стороны.

Амбиции OpenAI очевидны: Microsoft раньше заявляла, что ИИ станет вторым пилотом для людей, а теперь ИИ хочет стать водителем, который сможет взять на себя управление рулем и даже самостоятельно ремонтировать автомобиль.

А вот еще одна интересная деталь.

Ранее широко ходили слухи о том, что у OpenAI были сомнения по поводу чипов NVIDIA для искусственного интеллекта, но на этот раз в официальном блоге особо подчеркивалось, что разработка, обучение и развертывание GPT-5.3-Codex были полностью завершены на системе NVIDIA GB200 NVL72.

Эта эмоциональная отдача в духе "спасибо, Nvidia" действительно придала Хуан Жэньсюню большое лицо.

Попрощавшись с «воспоминаниями о золотых рыбках», Клод совершил впечатляющее возвращение.

Примерно в то же время, когда был выпущен GPT-5.3-Codex, компания Anthropic также представила свой собственный подарочный набор к китайскому Новому году.

Плохая новость в том, что долгожданная модель Claude Sonnet "среднего размера" так и не была обновлена; но хорошая новость в том, что Anthropic сразу же представила "увеличенную" версию – Claude Opus 4.6.

В отличие от агрессивного подхода OpenAI к «действиям», выпущенная сегодня версия Claude Opus 4.6 от Anthropic фокусируется на «способности к мышлению» и «удобстве использования».

У многих корпоративных пользователей есть проблема, называемая «контекстное затухание»: система заявляет о поддержке 200 000 контекстов, но при большом объеме данных ИИ начинает фокусироваться на начале, а не на конце.

На этот раз данные, представленные в Claude Opus 4.6, просто "переломны".

В тесте MRCR v2 (Long Text Needle in a Haystack) Claude Opus 4.6 показал показатель полноты охвата 76%.

В отличие от этого, предыдущее поколение Sonnet 4.5 имело удручающе низкий показатель в 18,5%. В некотором смысле, это качественный скачок от практически непригодного для использования устройства до «высоконадежного».

Впервые в Claude Opus 4.6 появилось действительно удобное контекстное окно размером 1 МБ.

Что это значит? Это значит, что вы можете напрямую загрузить в него сотни страниц финансовых отчетов или сотни тысяч слов кода, и он не только сможет прочитать их все, но и точно указать на ошибку в цифре в сноске на странице 342.

Что действительно привлекло внимание трудящихся, так это его функция повышения производительности.

С одной стороны, Anthropic теперь интегрировала Claude непосредственно в Excel и PowerPoint. Она может создавать презентации PowerPoint непосредственно из данных Excel, сохраняя не только стиль макета, но и выравнивание шрифтов и шаблонов. В среде для совместной работы Claude Cowork она даже может выполнять автономную многозадачность.

С другой стороны, компания Anthropic воспользовалась возможностью запустить экспериментальную функцию «Команды агентов» в Claude Code, позволяющую обычным разработчикам ощутить себя «командующими тысячами солдат»:

  • Разделение ролей: Вы можете назначить одного из участников сессии Клода руководителем команды, который не выполняет рутинную работу и отвечает исключительно за разбивку задач, распределение рабочих заданий и слияние кода; остальные участники сессии являются членами команды (соратниками), каждый из которых берет на себя выполнение определенных задач.
  • Независимая работа: у каждого члена команды есть независимое контекстное окно (нет необходимости беспокоиться о чрезмерном использовании токенов), и они даже могут обмениваться сообщениями друг с другом за вашей спиной (межагентный обмен сообщениями) для обсуждения технических деталей, а затем сообщать результаты только руководителю команды.
  • Параллельные скачки: для чего это нужно? Представьте, что вы проверяете наличие трудноисправимой ошибки. Вы можете создать 5 агентов для проверки 5 различных гипотез, как в «скачках», чтобы параллельно очистить шахту; или во время проверки кода один член команды может выступать в роли «эксперта по безопасности», проверяя уязвимости, а другой — в роли «архитектора», проверяя производительность, не мешая друг другу.

Чтобы продемонстрировать ограничения Opus 4.6, исследователь-антрополог Николас Карлини провел безумный эксперимент: команды агентов.

Вместо того чтобы писать код самостоятельно, он потратил 20 000 долларов в виде API-кредитов, что позволило 16 пользователям Claude Opus 4.6 сформировать «полностью автоматизированную команду разработчиков программного обеспечения».

Всего за две недели эта группа ИИ автономно провела более 2000 сеансов программирования и написала с нуля компилятор на языке C (на основе Rust) со 100 000 строками кода.

Этот компилятор, созданный с помощью искусственного интеллекта, также успешно скомпилировал ядро ​​Linux 6.9 (поддерживающее архитектуры x86, ARM и RISC-V) и даже запустил игру Doom.

Хотя это и не идеальное решение (например, сгенерированный код не так эффективен, как GCC), этот случай демонстрирует, что мы больше не программируем с помощью ИИ, а наблюдаем, как команда ИИ автономно сотрудничает, отлаживает и продвигает проект.

Кроме того, устройство освоило адаптивное мышление, позволяющее ему самостоятельно определять «время размышления» в зависимости от уровня сложности. Благодаря новой функции «интеллектуального управления интенсивностью» можно переключаться между четырьмя уровнями, от низкого до максимального.

Что касается ценообразования, Anthropic на этот раз проявила себя довольно щедро, сохранив базовую цену в 5/25 долларов за миллион токенов. Похоже, компания полна решимости напрямую конкурировать с OpenAI на корпоративном рынке.

Один — радикальный гений, другой — надёжная старая корова.

Известный эксперт по искусственному интеллекту Дэн Шиппер немедленно провел слепой тест (Vibe Check), и его оценка оказалась на удивление точной:

Для произведения Клода Опус 4.6 характерны следующие черты: "Высокий потолок, высокая изменчивость".

Это как блестящий, но порой эксцентричный гений. В ходе тестирования он напрямую решил проблему с функциональностью, которая ставила в тупик команду разработчиков iOS в течение двух месяцев; он получил высокую оценку 9,25/10 в бенчмарке LFG.

Но порой оно может быть и "излишне самоуверенным", неся чепуху с невозмутимым лицом. Если вам нужен прорывной источник вдохновения, выбирайте его.

GPT-5.3-Codex — это «высокая надежность, низкая вариативность».

Это как опытный, надежный инженер, который никогда вас не подведет. Скорость логического мышления повышается на 25%, система практически не допускает элементарных ошибок, а ее стабильность внушает уверенность.

Хотя он немного менее эффективен при выполнении творческих задач (оценка LFG 7,5/10), это наиболее эффективный инструмент для ежедневного программирования и операционной деятельности. Выбирайте его, если вам нужна стабильная работа.

С наступлением 2026 года наши роли начинают меняться.

На данном этапе для обычных пользователей наиболее существенное изменение заключается в следующем: важность Prompt Engineering снижается, в то время как начинают проявляться возможности Agent Management.

Когда ChatGPT сможет исправлять ошибки и даже автономно управлять вашим терминалом, а Клод сможет обрабатывать миллион слов за раз и точно определять детали, нам больше не нужно будет разбивать команды на фрагментированные инструкции, как это делают ученики начальной школы.

Нам необходимо научиться определять цели, анализировать результаты и решать, когда и какие задачи поручить какому «сотруднику» из числа «менеджеров».

Вот как выглядит рабочее место в 2026 году: в вашу команду проникла группа гениев, работающих с кремнием, а вы — единственный босс, работающий с углеродом.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.

ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo