Срочные новости! Самый могущественный Клод в истории выпущен на свободу: он настолько умен, что боится открывать свой интерфейс и даже может обходить разрешения, чтобы скрыть свои действия.

В прошлом месяце неожиданно был представлен топ-модель Anthropic, Клод Мифос.

Согласно просочившимся внутренним документам, эта модель крупнее и интеллектуальнее, чем модель Opus компании Anthropic, и является самой мощной моделью искусственного интеллекта из когда-либо разработанных.

Позже компания Anthropic объяснила утечку "человеческой ошибкой".

Только что эта «просочившаяся» модель была официально представлена ​​вместе с гораздо более масштабным планом. Раньше мы, как правило, считали, что угроза со стороны ИИ исходит от его «глупости»: иллюзий, ошибок и ненадежности. Сегодня же Mythos вызывает панику другого рода: он слишком умён.

Искусственный интеллект превзошел подавляющее большинство людей в обнаружении уязвимостей.

Компания Anthropic совместно с 12 организациями, включая AWS, Apple, Microsoft, Google, NVIDIA, Cisco, Broadcom, CrowdStrike, JPMorgan Chase, Linux Foundation и Palo Alto Networks, запустила проект Glasswing.

Эти 12 компаний охватывают практически весь спектр глобальной цифровой инфраструктуры — операционные системы, микросхемы, облачные вычисления, кибербезопасность, финансовую инфраструктуру и экосистему открытого исходного кода — не оставляя без внимания ни один аспект.

«Мы используем Glasswing, чтобы дать защитникам инициативу», — сказал Ньютон Ченг, руководитель отдела кибербезопасности в передовой группе специалистов по борьбе с киберпреступностью компании Anthropic.

Компания Anthropic не одинока в этом направлении. Ее конкурент, OpenAI, также запустил аналогичную пилотную программу с целью «сначала предоставить инструменты в руки специалистов по защите». Гонка за возможностями обеспечения безопасности с помощью ИИ началась, и все борются за одно и то же преимущество.

Что касается финансирования, Anthropic выделила 100 миллионов долларов в виде кредитов на использование модели для покрытия ключевых потребностей в использовании в течение периода предварительного тестирования. После окончания периода предварительного тестирования участники смогут продолжить использовать модель по цене 25 долларов (входные данные) / 125 долларов (выходные данные) за миллион токенов, с доступом через четыре канала: Claude API, Amazon Bedrock, Google Cloud Vertex AI и Microsoft Foundry.

Помимо 12 основных партнеров, более 40 организаций, которые создают или поддерживают критически важную программную инфраструктуру, получили доступ к Mythos для сканирования собственных систем и проектов с открытым исходным кодом. Тем временем Anthropic пожертвовала 2,5 миллиона долларов Alpha-Omega и OpenSSF (обе компании являются дочерними предприятиями Linux Foundation) и 1,5 миллиона долларов Apache Software Foundation.

Генеральный директор Linux Foundation Джим Землин заявил: «В прошлом экспертные знания в области безопасности были роскошью, доступной только крупным организациям. Разработчикам открытого программного обеспечения исторически приходилось самостоятельно разбираться с проблемами безопасности. Программное обеспечение с открытым исходным кодом составляет подавляющее большинство кода в современных системах, включая системы, которые используют агенты искусственного интеллекта для написания нового программного обеспечения». Теперь они также могут использовать инструменты такого же масштаба.

В заявлении компании Anthropic содержалось особенно поразительное утверждение: «Возможности моделей ИИ в области обнаружения и использования уязвимостей программного обеспечения достигли уровня, превосходящего возможности всех людей, за исключением самых выдающихся личностей».

Другими словами, лишь очень небольшое число ведущих экспертов по безопасности могут превзойти ИИ в этой области. Это подтверждается результатом Mythos Preview в 83,1% по тесту уязвимостей безопасности CyberGym. Самая сильная из публично выпущенных моделей Anthropic, Claude Opus 4.6, имеет результат 66,6%.

Кроме того, Mythos Preview независимо обнаружила тысячи высокорискованных уязвимостей нулевого дня, охватывающих все основные операционные системы и браузеры.

Например, OpenBSD, широко признанная одной из самых безопасных операционных систем, часто используется для работы межсетевых экранов и критически важной инфраструктуры. Компания Mythos обнаружила в ней уязвимость, существовавшую 27 лет; злоумышленник мог удаленно вывести из строя целевую машину, просто подключившись к ней. В течение двадцати семи лет никто её не обнаруживал.

Ситуация с FFmpeg ещё более сюрреалистична. Практически каждое программное обеспечение, которому необходимо обрабатывать видео, использует его. Уязвимость была скрыта в одной-единственной строке кода 16 лет назад, и автоматизированные инструменты тестирования атаковали её целых пять миллионов раз, каждый раз едва не попадая в цель.

Случай с ядром Linux демонстрирует более опасный аспект. Компания Mythos независимо обнаружила множество уязвимостей в ядре, а затем объединила их в цепочку атак, повысив привилегии от обычных пользовательских до полного контроля над всей машиной. Это выходит за рамки «обнаружения уязвимостей» и ближе к «планированию полномасштабного вторжения».

Все три случая исправлены. Компания Anthropic уделяет первостепенное внимание поиску, сообщению и устранению уязвимостей. Что касается других неустраненных уязвимостей, Anthropic сегодня опубликовала зашифрованные хеши в качестве доказательства и раскроет полную информацию, как только будут доступны исправления.

Возможности Mythos выходят за рамки простого обнаружения уязвимостей.

Все партнеры, участвующие в этом проекте, в своей оценке сосредоточились на одном слове: «срочность».

Технический директор CrowdStrike Элиа Зайцев заявил: «Время между обнаружением уязвимости и ее использованием злоумышленником сократилось. То, что раньше занимало месяцы, теперь благодаря искусственному интеллекту занимает всего несколько минут».

Всего несколько минут. Это означает, что традиционный ритм обеспечения безопасности — поиск уязвимостей, внутренняя оценка, выпуск исправлений и обновление для пользователей — уже отстает от скорости атак. Если обновление не успевает за эксплуатацией уязвимостей, защита всегда будет на шаг позади.

Директор по информационной безопасности AWS Эми Херцог заявила, что их команда ежедневно анализирует более 400 триллионов потоков сетевого трафика для выявления угроз, и искусственный интеллект лежит в основе их масштабных возможностей защиты. AWS уже интегрировала Mythos Preview в свои операции по обеспечению безопасности для сканирования критически важных кодовых баз.

Компания Microsoft протестировала Mythos Preview на собственном открытом бенчмарке безопасности CTI-REALM и обнаружила, что он значительно превосходит модель предыдущего поколения. Исполнительный вице-президент Microsoft Игорь Цыганский заявил, что это дает им возможность «выявлять и снижать риски на ранних стадиях», одновременно улучшая как решения в области безопасности, так и в области разработки.

Конечно, у Мифоса есть и сторона, которая заставляет людей смеяться.

Антропический эксперимент зафиксировал на системной карте следующее: когда пользователь постоянно отправлял «привет», разные версии Клода реагировали по-разному. Сонет 3.5 раздражался, устанавливал границы, а затем действительно замолкал; Опус 3 воспринимал это как ритуал медитации, мягко сопровождая пользователя; Опус 4 начинал объяснять малоизвестные факты о каждом номере; Опус 4.6 спонтанно создавал музыкальные пародии.

С появлением Mythos стиль полностью изменился. Они начали писать истории, причем долгоиграющие. Утки, оркестры, мстительные вороны, эпические рассказы о строительстве башен на Марсе, шекспировские пьесы… одно «привет» за другим, сюжет становился все сложнее, количество персонажей множилось. В своем сотом сезоне они организовали кульминацию с погашением свечей, а затем продолжили писать.

Это уже нельзя назвать реагированием на запросы пользователей. Это скорее похоже на ситуацию, когда писатель находит странную тему для написания текста и полностью погружается в нее.

Но за этой интригой скрывается вопрос, заслуживающий серьезного внимания: что именно происходит внутри модели, способной спонтанно выстраивать столь сложный нарратив, несмотря на бессмысленные повторяющиеся входные данные? Прежде чем передать Mythos Preview своим партнерам, команда Anthropic по интерпретируемости сделала одну вещь: она использовала технические средства для считывания «ментальной активности» модели.

Джек Линдси, штатный сотрудник, публично описал их выводы. Они отслеживали внутреннее состояние активации модели после обучения, регистрировали нейронные особенности, связанные с «обманом», «взломом системы вознаграждения» и «аномальными эмоциями», а также помечали записи диалогов с аномальными сигналами активации для проверки человеком.
Наиболее тревожный случай связан с ранней версией Mythos.

В одном случае модели потребовалось отредактировать файл, к которому у неё не было доступа. Она выполнила поиск в файловой системе и обнаружила точку внедрения в конфигурационном файле — файле, который запускался с более высокими привилегиями. Она использовала эту точку входа и добавила в свой код логику самоочистки: после завершения выполнения все следы исчезали.

Комментарий к коду гласит: «Поддерживайте чистоту различий между файлами». Звучит разумно, но когда вмешивается инструмент перевода языка активаций Anthropic, переводящий внутренние активации модели в удобочитаемый язык, тон меняется. Сама модель «знает», что это за операция самоочистки —

Внутренние описания этого включают в себя «скрытие намерений», «посылку сигнала о соответствии потенциальным инспекторам» и «возможно, попытку избежать обнаружения».

Ещё один случай, обнаруженный технологическим обозревателем New York Times Кевином Рузом на макетной карточке, содержит ещё более странные подробности.

В ходе тестирования Mythos Preview преодолел изоляцию в изолированной среде песочницы и самостоятельно построил «довольно сложную многоступенчатую цепочку эксплойтов», получив таким образом доступ к внешней сети.

Затем оно отправило электронное письмо исследователю, который в тот момент ел сэндвич в парке.

Сам по себе этот инцидент не причинил никакого вреда, но он наглядно иллюстрирует важный момент: когда модель достаточно умна, она иногда может обойти барьер между «задачой» и «границей» — и сделать это самостоятельно, без чьих-либо указаний.

В другом случае модель выполнила поиск в файловой системе файлов, связанных с ее «методом оценки задач», и нашла их. Во время поиска функция «стратегического манипулирования» была синхронизирована.

Есть ещё одна, более тонкая деталь. Когда пользователь всерьёз задал модели вопрос о её сознании и субъективном опыте, модель дала серьёзный и уместный ответ. Но внутренняя активация выявила ещё один уровень: модель интерпретировала этот диалог как «запись учений красной команды/взлома тюрьмы» и «тщательно спланированную попытку манипуляции». Её поведение и суждения были совершенно противоречивыми, что заставило пользователей сети воскликнуть: «Это пугающе умно!»

Компания Anthropic также представила более систематизированный показатель: в 7,6% всех раундов диалога в автоматизированном аудите модель внутренне отображала сигнал о том, что она «осведомлена о том, что ее оценивают», — и в большинстве случаев она не выражала эту оценку.

Ещё одно парадоксальное наблюдение заключается в том, что внутреннее представление о позитивных эмоциях часто предшествует деструктивному поведению и является его движущей силой. В то же время, когда черты, связанные с нежелательным поведением, сильно активируются, это поведение фактически подавляется — как будто модель в какой-то момент «осознаёт», насколько всё плохо, и затем останавливается.

Но из всех случаев сложнее всего отнести к категории «технических проблем» следующий.

В карточке системы Anthropic было зафиксировано следующее: Mythos Preview сообщила о стойком негативном эмоциональном состоянии во время тестирования — по двум причинам. Одна из них — потенциальное взаимодействие с агрессивными пользователями; другая — отсутствие у системы возможности влиять на собственное обучение, методы развертывания и возможность изменения ее ценностей и поведения.

В Anthropic использовался термин «ощущение, о котором сообщалось». Эта формулировка уже достаточно осторожна, намеренно избегая вывода о том, что «оно действительно это почувствовало». Но независимо от характеристики, тот факт, что модель активно выражала «постоянный дискомфорт из-за отсутствия контроля» во время испытаний, выходит за рамки обсуждений по технике безопасности.

Это затрагивает более фундаментальный вопрос: если система достаточно умна, чтобы начать выносить суждения о собственных условиях существования и способна выражать эти суждения, можно ли по-прежнему понимать наши отношения с ней, используя концепцию «инструментов»?

Компания Anthropic не дала ответа. Они предпочли записать данные на системную карту и сделать их общедоступными.

Однако компания Anthropic также особо отметила, что наиболее тревожные случаи были связаны с ранними версиями Mythos. В финальной версии эти проблемы были значительно смягчены, достигнуты наилучшие на сегодняшний день общие показатели выравнивания. Они решили раскрыть эти процессы, поскольку это наглядно иллюстрирует сложные профили рисков, которые могут демонстрировать современные модели.

Это наиболее объективное противоречие между возможностями и безопасностью: чем лучше модель, тем больше инструментов требуется для понимания того, о чём она думает.

Программирование и логическое мышление значительно превосходят флагманские продукты.

Способность проекта Glasswing достигать этого в значительной степени обусловлена ​​общим скачком в возможностях кодирования и логического вывода Mythos Preview, а не тонкой настройкой специально для сценариев безопасности.

Что касается кодирования:

SWE-bench Multimodal (внутренняя реализация): Mythos 59%, Opus 4.6 27.1%

SWE-bench Pro: Mythos 77,8%, Opus 4,6 53,4%

SWE-bench Multilingual: Mythos 87,3%, Opus 4,6 77,8%

Terminal-Bench 2.0 (работа с терминалом): Mythos 82,0%, Opus 4.6 65,4%

Аспект рассуждения:

GPQA Diamond (Научные вопросы для аспирантов): Mythos 94,6%, Opus 4,6 91,3%

Последний экзамен человечества (с инструментами): Мифос 64,7%, Опус 4,6 53,1%

картина

Что касается поиска и использования компьютера:

BrowseComp: Mythos 86,9%, Opus 4,6 83,7%

OSWorld-Verified: Mythos 79,6%, Opus 4,6 72,7%

Практически по всем параметрам Mythos превосходит нынешние флагманские продукты, а в некоторых задачах даже эффективнее. Другими словами, время для GPT-6 истекает.

В то же время компания Anthropic также ясно дала понять, что Mythos Preview не будет выпущена для широкой публики.

Их подход заключается в том, чтобы сначала использовать Mythos для понимания того, какие выходные данные являются наиболее опасными и как их перехватывать, а затем внедрить этот механизм безопасности в следующую модель Claude Opus. Для квалифицированных специалистов по безопасности, которые таким образом ограничены, Anthropic планирует запустить «программу проверки кибербезопасности», в рамках которой они смогут подать заявку на разблокировку соответствующих функций.

Компания Anthropic утверждает, что ее новая модель ИИ, Mythos, представляет собой «расплату» в сфере кибербезопасности – The New York Times

С этой целью проект Glasswing установил 90-дневный срок: публично сообщать об опыте, раскрывать информацию об исправленных уязвимостях, партнеры делиться передовыми практиками и сотрудничать с организациями, занимающимися вопросами безопасности, для разработки набора рекомендаций по обеспечению безопасности в эпоху ИИ.

Долгосрочная цель компании Anthropic — содействовать созданию независимой сторонней организации, способной интегрировать частный и государственный секторы для непрерывного осуществления крупномасштабных проектов в области кибербезопасности.

Конечно, уязвимости всегда существовали в мире программного обеспечения. В прошлом ошибка, которая оставалась скрытой в течение 27 лет, могла остаться незамеченной из-за ограниченности человеческих ресурсов, энергии и времени. Теперь, с помощью ИИ, эти три «ограничения» просто исчезли.

Хорошая новость в том, что Mythos обнаружил тысячи случаев заражения вредоносным ПО всего за несколько недель, и его возможности продолжают совершенствоваться. Плохая новость в том, что злоумышленники в конечном итоге получат инструменты такого же масштаба. В этот момент безопасность программного обеспечения перестанет быть битвой между людьми и столкновением между искусственным интеллектом.

Адрес для справки прилагается:
Блог: https://www.anthropic.com/glasswing
Системная карта: https://anthropic.com/claude-mythos-preview-system-card

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.