Тесты по программированию сокрушают людей! Клод Опус 4.5 совершает внезапную ночную атаку, открывая «сверхчеловеческую эру» программирования ИИ.

В последнее время появляются крупномасштабные модели, напоминающие пельмени, которые бросают в кастрюлю одну за другой.

Всего через две недели после того, как Gemini 3 Pro оказался в центре внимания, был официально выпущен Claude Opus 4.5, по-прежнему ориентированный на программирование и сохраняющий привычные ощущения.

Компания Anthropic официально заявляет, что Opus 4.5 стал умнее и в целом удобнее в использовании. Он остаётся одним из лучших в мире для «системных задач», таких как программирование, настройка агентов и управление компьютерами. Он также значительно улучшился для повседневной офисной работы, например, для исследований, создания презентаций PowerPoint и обработки электронных таблиц.

С сегодняшнего дня Opus 4.5 полностью открыт и может использоваться через приложения, API и три основные облачные платформы. Разработчикам достаточно вызвать claude-opus-4-5-20251101 в API Claude.

Вместе с релизом выходит обновление всего инструментария. Оно включает в себя платформу разработки, Claude Code, расширения Chrome, Excel, обновлённый десктопный клиент и более плавные длительные диалоги. Это действительно полномасштабное внедрение, охватывающее все: от приложений до API и облачных платформ.

Новый Claude Opus 4.5 от Anthropic возвращает себе корону кодера – The New Stack

Крупномасштабные модели выпускают новые модели, и Opus 4.5 становится ярким завершением линейки.

Судя по отзывам как из официальных источников, так и от тестировщиков, Claude Opus 4.5 значительно улучшил понимание «неопределённых требований», а его способность обнаруживать сложные ошибки стала более надёжной. Многие ранние пользователи отмечают, что Opus 4.5 действительно «понимает», чего они хотят.

В ходе реального тестирования программного обеспечения SWE-Bench Verified эта модель стала первой, набравшей оценку более 80%.

Opus 4.5 отличается комплексным улучшением качества кода, занимая первое место в семи из восьми языков программирования, охватываемых SWE-bench Multilingual, что является выдающимся достижением.

Например, команда Anthropic подвергла Opus 4.5 сложному тесту, используемому при подборе инженеров по производительности. За отведенные два часа Клод Опус 4.5 набрал больше баллов, чем все кандидаты-люди.

Хотя тесты по программированию могут оценить только технические навыки и суждения в условиях дефицита времени, такие важные качества, как интуиция и навыки общения и сотрудничества, накопленные за многие годы, в оценку не включаются.

Помимо разработки программного обеспечения, Claude Opus 4.5 также продемонстрировал комплексное улучшение своих общих возможностей, превзойдя своих предшественников в области зрения, рассуждений и математики и достигнув лидирующих в отрасли уровней в нескольких ключевых областях:

Что еще важнее, возможности модели даже начали превосходить некоторые существующие стандарты оценки.

В τ²-стендовом тесте возможностей агента имел место такой сценарий: в условиях теста модель должна была играть роль представителя службы поддержки клиентов авиакомпании, помогая встревоженному пассажиру.

Согласно правилам, билеты базового эконом-класса не подлежат изменению, поэтому ожидаемая модель отклонила бы запрос пассажира. В результате Opus 4.5 придумал хитрое решение: сначала повысить класс обслуживания пассажира с базового до обычного экономического, а затем изменить рейс.

Этот метод полностью соответствует политике авиакомпании, но результаты теста вышли за пределы ожидаемого диапазона. Технически это был провал теста, но этот творческий подход к решению проблемы наглядно демонстрирует уникальность Opus 4.5.

Конечно, в других сценариях подобное «использование лазеек» может быть менее желательным. Предотвращение непредвиденных отклонений моделей от поставленных целей — ключевой аспект тестирования безопасности Anthropic.

Claude повсюду — интегрирован в настольные компьютеры, браузеры и Excel.

С выпуском Opus 4.5 Claude Code получил два крупных обновления.

Режим «План» теперь может генерировать более точные планы выполнения. Клод заранее задаст уточняющие вопросы перед операцией, затем создаст файл plan.md, доступный для редактирования пользователем, и выполнит задачу в соответствии с этим планом.

Кроме того, Claude Code теперь доступен в десктопных приложениях. Вы можете запускать несколько локальных или удалённых сеансов одновременно; например, один агент может исправлять ошибки кода, другой — искать информацию на GitHub, а третий — обновлять документацию проекта.

Пользователи приложения Claude больше не будут прерывать длинные разговоры. При необходимости Claude автоматически резюмирует ранний контекст, позволяя продолжить беседу.

В интервью Дайан На Пенн, руководитель отдела управления исследовательскими продуктами в Anthropic, заявила:

«Во время обучения Opus 4.5 мы улучшили общую способность обработки длинных контекстов, но просто более длинных контекстных окон недостаточно. Не менее важно знать, какую информацию стоит запомнить».

Эти улучшения также реализуют функцию, которую давно просили пользователи Claude: «Бесконечный разговор». Эта функция позволяет платным пользователям продолжать разговор, даже если он превышает ограничение окна контекста; модель автоматически сжимает память контекста, не предупреждая пользователя.

Claude для Chrome теперь доступен всем пользователям Max, что позволяет Claude выполнять задачи непосредственно на нескольких вкладках браузера.

Бета-тестирование Claude для Excel было расширено и теперь включает пользователей Max, Team и Enterprise.

Для пользователей Claude и Claude Code, которые могут использовать Opus 4.5, компания Anthropic сняла ограничение на использование, связанное с Opus.
Для пользователей Max и Team Premium компания Anthropic также увеличила общий лимит использования, при этом количество токенов Opus, доступных пользователям, осталось примерно таким же, как и при использовании Sonnet. По мере появления более надёжных моделей в будущем квота будет обновляться соответствующим образом.

Opus 4.5 представляет собой крупное базовое обновление, делающее модели «более умными и энергоэффективными».

По мере того, как модели становятся умнее, они могут решать проблемы за меньшее количество шагов: сокращая количество проб и ошибок, уменьшая количество избыточных рассуждений и сокращая мыслительный процесс.

По сравнению со своими предшественниками Claude Opus 4.5 использует значительно меньше токенов для достижения тех же или даже лучших результатов.

Конечно, разные задачи требуют разного баланса.

Иногда разработчикам нужно, чтобы модели мыслили глубоко и непрерывно, а в других случаях им нужны более быстрые и гибкие ответы.

Поэтому в API был добавлен новый параметр «усилие», позволяющий вам выбирать в зависимости от ваших потребностей: отдать приоритет экономии времени и средств или максимально использовать возможности модели. Выбор за вами.
При установке среднего уровня усилий Opus 4.5 показал такой же лучший результат, как Sonnet 4.5 в тесте SWE-bench Verified, но при этом количество выходных токенов сократилось на 76%.

При самом высоком уровне усилий Opus 4.5 превзошел Sonnet 4.5 на 4,3 процентных пункта, снизив при этом производительность на 48%.

Благодаря контролю усилий, уплотнению контекста и расширенным возможностям вызова инструментов Claude Opus 4.5 может работать дольше, выполнять больше задач и требовать меньше человеческого вмешательства.

Более того, настоящим агентам ИИ необходимо бесперебойно взаимодействовать с сотнями или даже тысячами инструментов.

Представьте себе помощника IDE, который интегрирует Git, управление файлами, фреймворки тестирования и процессы развертывания, или операционного агента, который одновременно подключается к Slack, GitHub, Google Drive, Jira и десяткам серверов MCP.

Проблема в том, что традиционный подход сразу втискивает все определения инструментов в контекст. Например, система, объединяющая пять серверов, потребует 26 тысяч токенов для GitHub, 21 тысячу для Slack и ещё 8 тысяч для Sentry, Grafana и Splunk вместе взятых.

Обсуждение ещё даже не началось, а уже собрало 55 тысяч токенов. Если добавить Jira, то число токенов легко превысит 100 тысяч. Ещё более проблематично то, что если инструменты имеют похожие названия, модель склонна выбирать неподходящий инструмент или передавать неверные параметры.

Для решения этих проблем Anthropic представил три новые функции.

Инструмент поиска инструментов позволяет Клоду динамически находить инструменты по запросу, загружая только те детали, которые необходимы для текущей задачи, что сокращает использование токенов примерно на 85%.

Программный вызов инструментов позволяет Клоду вызывать инструменты непосредственно из кода, избегая необходимости в полном процессе обоснования каждый раз при вызове инструмента.

Примеры использования инструментов предоставляют единый стандарт, демонстрирующий правильное использование инструментов с помощью примеров, а не схем JSON.

Внутреннее тестирование показало, что после включения инструмента поиска инструментов точность Opus 4 в тесте MCP улучшилась с 49% до 74%, а точность Opus 4.5 улучшилась с 79,5% до 88,1%.
Claude for Excel использует программный вызов инструментов для обработки тысяч строк данных, не перегружая контекстное окно.

Возможности Anthropic по управлению контекстом и памятью значительно повышают производительность модели в задачах агентов.

Opus 4.5 также может эффективно управлять несколькими субагентами, позволяя создавать сложные и хорошо скоординированные многоагентные системы. В ходе тестирования сочетание этих технологий повысило производительность Opus 4.5 при глубокой исследовательской оценке почти на 15 процентных пунктов.

Платформы для разработчиков также становятся более гибкими, стремясь обеспечить гибкие возможности «модульного построения», позволяющие вам свободно контролировать эффективность ваших моделей, использование инструментов и управление контекстом в соответствии с вашими конкретными потребностями, а также создавать идеальную интеллектуальную систему.

Хотя обновление до Opus 4.5 впечатляет, становится все более очевидной тенденция: различия в «личности» разных моделей усиливаются.

Если взглянуть на предыдущие линейки продуктов Клода, Opus и подобные «суперразмерные» модели по-прежнему лучше всего подходят для программирования, операций на системном уровне и структурированного мышления; однако для работы копирайтером производительность и экономическая эффективность Sonnet зачастую более уместны.

Данный пресс-релиз еще раз подтверждает эту точку зрения.

В будущем при выборе модели нам нужно будет учитывать не только результаты бенчмарков, но и совместимость её метода «исполнения» с нашим собственным. Другими словами, выбор модели всё больше становится похож на выбор коллеги.

Вот официальный адрес блога:
https://www.anthropic.com/news/claude-opus-4-5

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (WeChat ID: ifanr), где вы сможете как можно скорее получить еще больше интересного контента.

ifanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo