Только что неожиданно вышел Claude Opus 4.7: Не самый сильный, но Ультрамен снова будет страдать бессонницей.

В этом году компания Anthropic демонстрирует исключительно сильный рост.

Его популярность не только остаётся высокой, но и репутация продолжает расти, прочно утвердив его в качестве ведущего игрока в индустрии искусственного интеллекта. Теперь почти каждое утро, просыпаясь, мы видим их своевременные push-уведомления о новых продуктах или функциях. Со временем первоначальный восторг сменился негласным пониманием: «Это снова вы, как и ожидалось».

Только что состоялся официальный релиз долгожданной игры Claude Opus 4.7, которая по-прежнему использует знакомую формулу и знакомое устройство для набора высоких результатов.

Интересно, что компания Anthropic была очень откровенна в своем заявлении, даже с оттенком гордости: «Это не самая мощная наша модель». Легендарный, ужасающе мощный предварительный обзор Claude Mythos по-прежнему скрыт.

Но хотя Opus 4.7 и не является самой мощной версией, она всё же привлекла значительное внимание. Это произошло потому, что она решила проблему, более важную, чем интеллект: надёжность. Не ту надёжность, при которой она делает всё, что вы говорите, а ту, при которой она осмеливается противоречить вам, когда вы предлагаете глупое решение, а затем исправляет собственные ошибки.

Когда надёжность становится более редким качеством, чем интеллект

Результаты бенчмарков показывают, что в признанном в отрасли самом ресурсоемком бенчмарке SWE-bench Pro результат 4,7 вырос с 53,4% в предыдущем поколении до 64,3%, что составляет улучшение почти на 11 процентных пунктов за одно поколение, оставив позади GPT-5.4 (57,7%) и Gemini 3.1 Pro (54,2%).

Показатель в бенчмарке CharXiv для визуального анализа вырос с 69,1% до 82,1%, что соответствует новой возможности распознавания длинной стороны изображения с разрешением 2576 пикселей — более чем в три раза большей четкости, чем у предшественника.

Речь идёт не просто о «более чётком восприятии». Более высокое разрешение напрямую приводит к цепной реакции улучшения качества вывода: генерация интерфейсов, создание слайдов и верстка документов — всё это улучшается с точки зрения детализации и точности.

В бенчмарке MCP-Atlas, инструменте масштабной оценки, версия 4.7 показала результат 77,3%, превзойдя GPT-5.4 (68,1%) и Gemini (73,9%). В тестах, проведенных юридической платформой искусственного интеллекта Harvey, версия 4.7 набрала 90,9% в бенчмарке BigLaw, правильно различая «оговорки о передаче прав» и «оговорки о смене контроля», которые исторически являлись слабым местом передовых моделей.

Однако 4.7 не является безусловным лидером. В тесте BrowseComp от Agentic Search показатель 4.7 фактически снизился с 83,7% в предыдущем поколении до 79,3%, и его обогнали GPT-5.4 (89,3%) и Gemini (85,9%).

Эта регрессия не случайна. Агент, который напрямую сообщает об ошибке при обнаружении недостающей информации и отказывается придумывать ответы, естественно, окажется в невыгодном положении, если критерием оценки будет являться наличие или отсутствие ответа.

Помимо самих данных, более важный вопрос заключается в следующем: что на самом деле означает эта «надежность» в реальных условиях работы?

В течение последнего года ожидания отрасли от больших моделей кода в целом оставались на уровне «написать функцию и найти ошибку», но Claude 4.7 продемонстрировал совершенно иной характер на ранних этапах тестирования.

Глава Replit, известной платформы для облачной разработки, описал это так: «Она опровергала мои утверждения в технических дискуссиях и помогала принимать более взвешенные решения. Я действительно чувствовал себя лучшим коллегой».

Теперь система больше не слепо подчиняется приказам и не фальсифицирует данные только для соблюдения сроков. В ходе тестирования на платформе для анализа данных Hex версия 4.7 напрямую сообщает об ошибке при обнаружении отсутствующих данных, вместо того чтобы, как в предыдущей версии, предлагать, казалось бы, разумное, но совершенно неверное альтернативное значение. Команда Hex даже прямо заявила: «4.7 при низком потреблении ресурсов эквивалентна 4.6 при среднем потреблении ресурсов».

Именно это качество — «отказ от соответствия общепринятым нормам» — является самой редкой чертой в современной разработке программного обеспечения.

Конечно, у всего есть две стороны. Запрос, написанный для старой модели, может дать неожиданные результаты в версии 4.7. Те расплывчатые инструкции, которые ранее «понимались» моделью, будут выполняться буквально в версии 4.7. Это также означает, что те, кто лучше умеет четко выражать свои потребности, получат лучшие результаты от версии 4.7.

Просто быть склонным к спорам недостаточно; ИИ, который объявляет забастовку при столкновении с неудачами, также не является хорошим коллегой. Еще одно важное изменение в версии 4.7 — это устойчивость к задачам.

Ранее крупные модели часто зависали и выдавали ошибки при сбоях вызова инструментов в многоэтапных задачах. Тесты команды Notion показали, что в версии 4.7 частота ошибок инструментов снизилась до одной трети от исходного уровня. Что еще более важно, система может обходить препятствия и продолжать выполнение задачи даже при сбое цепочки инструментов.

Когда ИИ перестанет льстить, истинная производительность начнет стремительно расти.

В одном из крайних случаев, опубликованном Anthropic, версия 4.7 создала полноценный движок преобразования текста в речь на Rust с нуля, без какого-либо вмешательства человека — были написаны модели нейронных сетей, SIMD-ядра и демонстрационные примеры для браузера, и даже результаты были переданы распознавателю речи для проверки, а также было проведено тестирование.

Компания Vercel, гигант в области фронтенд-фреймворков, также обнаружила ранее невиданное явление: версия 4.7 выполняет математические доказательства перед написанием кода системного уровня. Это выходит за рамки простого написания кода и переходит в область строгого инженерного проектирования.

Стоимость найма «старших экспертов» в области ИИ

Чтобы проверить его способность обрабатывать детали, я создал три сценария взаимодействия с интерфейсом пользователя, руководствуясь лишь одним критерием: независимо от того, были ли детали формальными или нет, это сразу бросалось в глаза.

Первый сценарий заключался в создании вида сверху на интерфейс проигрывателя виниловых пластинок, сложность которого состояла в передаче «металлического блеска» и «дышащего ореола». В версии 4.7 не использовались дешевые цветовые градиенты; вместо этого она реалистично воссоздала металлическую текстуру с помощью сложных наложений стилей CSS.

Второй сценарий заключался в создании старинного электрического вентилятора с использованием только CSS, без JavaScript. Столкнувшись с этой строго ограниченной задачей, некоторые модели могли бы тайно нарушать правила, используя JS, но версия 4.7 их соблюдала. Она создала 3D-структуру вентилятора с помощью чистого CSS, с плавными переходами между низкой, средней и высокой скоростями. Перспектива и обработка теней основания также придали ему реалистичный вид. Было найдено очень хорошее решение в рамках правил.

Третий сценарий предполагает создание ретро-кассетного плеера с эффектом старого, шумного видеокассетного проигрывателя. При этом также присутствуют детали вращения кассетной ленты.

Конечно, повышение интеллекта имеет свою цену. Opus 4.7 теперь доступен на всех продуктах и ​​API Claude, Amazon Bedrock, платформе Vertex AI от Google Cloud и платформе Microsoft Foundry.

Базовая цена остается неизменной: 5 долларов за миллион входных данных и 25 долларов за миллион выходных данных. Однако в версии 4.7 представлен совершенно новый токенизатор, который будет разбивать один и тот же текст на в 1,0–1,35 раза больше токенов, чем раньше.

Кроме того, при выполнении ресурсоемких задач устройство склонно «немного дольше думать», поэтому фактическое потребление энергии почти неизбежно увеличится.

Кроме того, Anthropic добавила совершенно новый уровень сложности xhigh к существующим опциям. На этом уровне Claude 4.7 будет потреблять больше токенов и тратить больше времени на «размышление» при решении сложных задач. Claude Code уже повысил уровень сложности по умолчанию для всех пакетов до xhigh.

Действия компании Anthropic демонстрируют, что при решении реальных задач программирования лучше тщательно всё обдумать, чем скупиться на ресурсы.

Чтобы адаптироваться к этому рабочему процессу, Клод Код запустил две потрясающие функции:

/ultrareview (Углубленный обзор): Запустите специальную сессию обзора и, подобно чрезвычайно придирчивому старшему рецензенту, тщательно прочтите все изменения кода, точно выявляя глубоко укоренившиеся архитектурные недостатки и ошибки. Пользователи версий Pro и Max могут попробовать это бесплатно три раза.

Для пользователей Max доступен новый автоматический режим, занимающий промежуточное положение между «предоставлением разрешений по одному» и «пропуском всех разрешений». Клод будет принимать решения автономно в рамках ваших полномочий, что позволяет выполнять длительные и трудоемкие задачи, и это безопаснее, чем полная децентрализация.

Чтобы предотвратить чрезмерное использование баланса счета этим «передумывающим» ИИ, API также запустил публичную бета-версию функции «Бюджеты задач», позволяющую разработчикам явно планировать приоритеты расходования токенов Клода в длительных задачах.

Конечно, 4,7 — не самая сильная рука Антропика.

Более мощная предварительная версия Claude Mythos Preview была выпущена в этом месяце под названием "Project Glasswing" для небольшой группы компаний в целях исследований в области кибербезопасности. Mythos не был выпущен публично, поскольку его возможности в области кибератак и защиты слишком сильны, и Anthropic считает, что еще не придумала, как безопасно распространить его среди всех.

4.7 Сама система предусмотрительно пошла на компромиссы, снизив возможности сетевой атаки и защиты на этапе обучения и внедрив встроенный автоматический механизм блокировки для прямой блокировки запросов высокого риска. Исследователи в области безопасности, отвечающие требованиям соответствия, могут подавать заявки индивидуально через официальные каналы.

Логика, лежащая в основе стремления не спешить разыгрывать самые сильные карты и постоянно добавлять новые на стол, та же самая. На самом деле, настоящее преимущество Anthropic заключается в самом темпе игры.

С 1 февраля по 24 марта этого года, всего за 52 дня, компания Anthropic обновила в общей сложности 74 продукта, в среднем менее одного продукта каждые два дня. Коворкинг, плагины… эти действия эффективно решили проблемы, возникающие при работе в офисе.

Сегодня экосистема Claude давно вышла за рамки простой концепции «чат-бота». Для команд, стремящихся глубоко интегрировать ИИ в свои рабочие процессы, этот стабильный, частый и предсказуемый цикл обновлений является наиболее надежной гарантией.

Сегодняшний релиз Claude 4.7 — это последний камень в этой цепи. А предварительный обзор Mythos рано или поздно появится. К тому времени то, что мы сейчас считаем очень сильным релизом 4.7, может оказаться лишь началом.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.