Маск одобрил это! Статья Кими потрясла «исконные основы» крупномасштабных моделей.

Почему результаты отличаются при одинаковой вычислительной мощности и одинаковых данных? Большинство людей интуитивно понимают: более крупные модели, лучшие данные и более квалифицированные инженеры. Но Кими дал более неожиданный ответ.

16 марта Кими, представитель «Тёмной стороны Луны», опубликовал важный технический отчёт под названием «Остаточные значения внимания».

Этот метод модифицирует структуру остаточных связей, используемую почти во всех современных больших моделях, и эксперименты показали, что при одинаковом объеме вычислительной мощности модель, обученная с помощью нового метода, достигает того же эффекта, что и базовая модель, для которой требуется в 1,25 раза больше вычислительной мощности.

Неудивительно, что после публикации доклад получил похвалу и одобрение многих ведущих специалистов в области искусственного интеллекта в Силиконовой долине.

▲Адрес проекта с открытым исходным кодом на GitHub: github.com/MoonshotAI/Attention-Residuals

Например, Маск заявил в социальных сетях, что «впечатляющая работа Кими» — это ключевое достижение. Джерри Творек, главный изобретатель OpenAI o1, назвал это началом «Глубокого обучения 2.0».

Бывший соучредитель OpenAI Андрей Карпати сказал: «Похоже, мы еще не до конца поняли буквальное значение фразы „Внимание — это все, что вам нужно“». Но более примечательными, чем эти похвалы, являются сигналы, скрывающиеся за техническими статьями: самая фундаментальная парадигма глубокого обучения меняется.

Фундамент, к которому не прикасались десять лет, был перенесен.

За последние два года конкуренция между крупными моделями развернулась главным образом в области «надстройки»: лучшие варианты внимания, более продуманные стратегии маршрутизации MoE и более сложные методы выравнивания. Все занимаются высокоуровневым внутренним оформлением здания трансформаторной подстанции.

С момента публикации статьи ResNet в 2015 году практически не затрагивалась одна тема: остаточные соединения.

Чтобы понять эту технологию, необходимо сначала ознакомиться с базовой структурой, находящейся внутри большой модели.

Современные крупномасштабные модели фактически состоят из множества слоев нейронных сетей, расположенных друг над другом, от десятков до сотен слоев. Информация поступает снизу и передается слой за слоем, при этом каждый слой обрабатывает информацию и, наконец, выдает результат наверху.

Можно представить это как работу на конвейере: сырье поступает с первого этапа, каждый рабочий обрабатывает его, затем оно передается на следующий этап, и, наконец, производится готовый продукт. Проблема в том, что чем длиннее конвейер, тем сложнее обучить рабочих.

Предположим, что работник в 50-м процессе допустил ошибку, и вы хотите её исправить. Этот «сигнал исправления» должен быть передан обратно через 49 работников, прежде чем достигнет первого. По мере передачи сигнал исчезает, и работники внизу понятия не имеют, где произошла проблема.

Для обеспечения возможности обучения таких глубоких нейронных сетей команда известного ученого Кайминга Хе опубликовала в 2015 году статью под названием «Глубокое остаточное обучение для распознавания изображений», в которой представила ключевой подход, называемый остаточными связями:

Каждый слой, обрабатывая информацию, также поддерживает «прямой путь», который добавляет исходный входной сигнал к обработанному результату без изменений, прежде чем распространить его вниз. Этот прямой путь позволяет градиенту обходить промежуточные преобразования во время обратного распространения и проходить весь путь обратно к нижнему слою, что принципиально решает проблему сложности обучения глубоких нейронных сетей.

Проще говоря, это означает добавление «прямого пути» рядом с каждым этапом процесса, позволяющего сырью обходить этот этап и напрямую соединяться с обработанными результатами перед передачей дальше по линии. Таким образом, сигналы коррекции ошибок могут беспрепятственно возвращаться к нижнему слою по прямому пути, не теряясь.

Эта статья впоследствии стала одной из самых цитируемых в области компьютерного зрения и даже во всей области глубокого обучения. Остаточные связи используются и сегодня и являются краеугольным камнем почти всех крупных моделей.

Хотя остаточные связи полезны, их метод агрегирования информации очень примитивен: они суммируют выходные данные всех предыдущих слоев с равным весом без каких-либо различий.

Давайте снова воспользуемся аналогией с конвейером. На 51-м этапе рабочий получает такое же количество продукции, как и на предыдущих 50 этапах, причем продукция каждого этапа представляет собой лишь часть, ни больше, ни меньше. Он не может сказать: «Мне нужно больше сырья с 3-го этапа», и не может сказать: «Продукция с 20-го этапа мне бесполезна, дайте мне меньше».

Это приводит к практической проблеме, называемой разбавлением PreNorm: по мере углубления сети и увеличения объема накапливаемой информации вклад каждого слоя становится все менее значимым в общей огромной совокупности. Чем дальше слой, тем больше должен быть выходной сигнал, чтобы его «услышали», иначе он будет заглушен.

В результате многие промежуточные слои фактически не выполняют свою работу должным образом. Существующие исследования показали, что удаление значительного количества слоев из больших моделей практически не влияет на производительность, что указывает на крайне ограниченный вклад этих слоев.

Большинство команд давно знают об этой проблеме и предпочитают обходить её стороной, добавляя к существующим архитектурам лучшие соотношения данных, более сложные стратегии обучения и более длинные контекстные окна. Эта работа, безусловно, ценна, но по сути это поэтапная оптимизация в рамках существующей технической структуры.

Кими выбрал более уединенный и сложный путь: он вернулся к самой базовой структуре и переосмыслил эти «само собой разумеющиеся» проекты, используя фундаментальные принципы.

Рано утром основатель Kimi Ян Чжилинь в своем выступлении на GTC 2026 отметил: «Многие из технических стандартов, используемых в настоящее время в отрасли, по сути, являются продуктами восьми- или девятилетней давности и постепенно становятся узкими местами для масштабирования».

Ян Чжилинь считает, что для непрерывного преодоления верхнего предела интеллекта больших моделей необходимо перестраивать базовые элементы, такие как оптимизаторы, механизмы внимания и остаточные связи.

Изящное «вращение»

Главный прорыв в работе команды Кими на самом деле основан на изящном открытии, сделанном с помощью аналогии.

Ранние рекуррентные нейронные сети (РНН) также имели аналогичную дополнительную проблему при обработке текстовых последовательностей: плохую память. После прочтения всего отрывка прочитанное ранее содержимое постоянно перезаписывалось последующим, и к моменту, когда доходили до последнего слова, содержимое нескольких предыдущих предложений размывалось.

Позже Transformer решил эту проблему с помощью механизма внимания, который эквивалентен предоставлению модели «полнотекстовой заметки». При обработке каждого слова она может вернуться назад и найти любое слово, которое встречалось ранее, а место и количество слов для поиска определяются самим текущим содержимым.

Исследователи обнаружили, что проблемы, возникающие у остаточных связей в направлении глубины, и проблемы, возникающие у рекуррентных нейронных сетей в направлении времени, имеют совершенно одинаковую математическую структуру. Другими словами, представьте Transformer как двумерную сетку:

Горизонтальная ось представляет направление последовательности, слева направо — каждое слово в предложении; вертикальная ось представляет направление глубины, от нижнего слоя к верхнему слою сети. Традиционные механизмы внимания работают вдоль горизонтальной оси, проверяя информацию о других словах в том же слое при обработке конкретного слова.

Механизм Attention Residuals просто поворачивает тот же самый механизм на вертикальную ось. При обработке определенного слоя он анализирует выходные данные всех предыдущих слоев, чтобы определить, к каким слоям следует обратиться и в каком количестве. Цель операции меняется с «разные слова в одном слое» на «состояние одного и того же слова в разных слоях». Сам механизм остается точно таким же, как если бы направление было повернуто на 90 градусов.

Поскольку механизм внимания решает проблему ориентации последовательности, его вращение в направлении глубины работает так же хорошо.

Вот ещё одно важное теоретическое открытие, заслуживающее упоминания. Исследователи с помощью математического анализа обнаружили, что все улучшения остаточных связей за последнее десятилетие — включая стандартные остаточные связи, сети «шоссе», mHC и различные варианты — математически представляют собой разные формы одного и того же, эквивалентные своего рода «линейному вниманию, ориентированному на глубину». Другими словами, все работали в одном направлении, просто мы не осознавали этого в то время.

Основная идея AttnRes заключается в переносе механизма внимания из измерения «обработки текстовых последовательностей» в измерение «глубины межсетевого взаимодействия».

Конкретный подход заключается в том, чтобы оснастить каждый слой небольшим «вектором запроса», подобно назначению списка требований работникам в каждом процессе. Перед началом работы работники используют список требований для анализа результатов всех предыдущих процессов, рассчитывают набор коэффициентов использования на основе релевантности, а затем смешивают необходимое сырье в соответствии с этим соотношением.

Таким образом, каждый слой больше не пассивно получает равную по весу сумму выходных данных всех предыдущих слоев, а активно и избирательно решает, из каких слоев извлекать сколько информации, причем пропорции также динамически изменяются в зависимости от содержания текущей задачи. Каждый слой добавляет только один вектор и одну операцию нормализации, а увеличение количества параметров для всей модели практически незначительно.

Для обеспечения стабильности на ранних этапах обучения этот вектор запросов должен быть инициализирован нулями. Это эквивалентно тому, чтобы работники изначально не имели предпочтений и обрабатывали все предыдущие результаты одинаково, чтобы они могли постепенно формировать собственные суждения по мере обучения.

Стоит отметить, что исследователи также протестировали более радикальную версию: вместо использования фиксированных параметров вектор запроса генерировался динамически на основе текущего входного сигнала на каждом слое. Эта версия действительно показала лучшие результаты, при этом значение функции потерь еще больше уменьшилось.

Однако в конечном итоге этот подход не был принят, поскольку он требует последовательного доступа к памяти во время вывода, что увеличило бы задержку. Этот компромисс отражает инженерную философию, лежащую в основе данной статьи: теоретически лучшее решение не обязательно является тем, которое следует выбрать на практике.

Все новые технологии для крупномасштабных моделей в конечном итоге должны преодолеть это препятствие.

Функция Full AttnRes хорошо работает в небольших экспериментах, но сталкивается с проблемами при обучении в больших масштабах.

Для этого каждому слою необходимо иметь доступ к выходным данным всех предыдущих слоев. Модель имеет более ста слоев, и выходные данные каждого слоя должны храниться в памяти и передаваться между различными вычислительными узлами. Накладные расходы на память и обмен данными возрастают линейно с увеличением количества слоев, что просто невыносимо для больших моделей.

Решение команды Кими очень практично: блочное внимание (Block AttnRes). Они делят все слои сети на несколько блоков (8-9 блоков в модели 48B, каждый блок содержит примерно 6 слоев). Внутри каждого блока используются традиционные остаточные соединения, а между блоками применяется механизм внимания softmax. Проще говоря, лифт на каждом этаже не нужен; достаточно быстрого перехода между ключевыми этажами.

Таким образом, объем данных, которые необходимо сохранять и передавать, сокращается с «общего числа слоев» до «числа блоков», что значительно снижает накладные расходы. Эксперименты показали, что разделение данных примерно на 8 блоков сохраняет большую часть повышения производительности по сравнению с полномасштабным методом.

Что касается конкретных инженерных решений, команда также внесла две оптимизации.

В процессе обучения используется механизм межэтапного кэширования. При параллельном обучении в конвейере при каждом переключении между этапами передается только новый небольшой блок данных, вместо повторной передачи всей истории. В реальных тестах общие накладные расходы на обучение не превышают 4%.

В конечной части алгоритма вывода используется двухэтапная стратегия вычислений, которая объединяет все запросы в блоке в единую матричную операцию для унифицированной обработки и амортизирует повторные обращения к памяти, так что итоговая задержка вывода увеличивается не более чем на 2%.

Итак, как прошёл эксперимент? Исследователи протестировали пять моделей разных размеров.

Результаты показывают, что Block AttnRes превосходит базовую модель по показателю потерь при валидации во всех масштабах, и это улучшение остается стабильным по мере увеличения масштаба. На основе аппроксимированных кривых, Block AttnRes достигает той же вычислительной стоимости, что и базовая модель, требуя в 1,25 раза большей вычислительной мощности.

В экспериментах с линейной архитектурой Kimi, состоящей из 48 миллиардов параметров (3 миллиарда активаций), модель Block AttnRes продемонстрировала высокую обобщающую способность: она показала результаты на уровне или лучше, чем базовая модель PreNorm, по всем 15 основным эталонным тестам.

Например, был достигнут скачок на 7,5% в результатах теста GPQA-Diamond по научному мышлению на уровне докторантуры, а также зафиксированы значительные успехи в задачах генерации кода по математике (+3,6%) и оценке человеком (+3,1%).

В процессе обучения выходные значения каждого слоя базовой модели монотонно увеличиваются с глубиной, что подтверждает проблему разбавления PreNorm; в то время как выходные значения каждого слоя AttnRes сбрасываются на границах блоков, демонстрируя периодические изменения, а распределение градиентов в каждом слое становится более равномерным, что указывает на то, что больше слоев действительно вовлечены в эффективное обучение.

Кроме того, исследователи визуализировали весовые коэффициенты внимания, усвоенные обученной моделью, и обнаружили несколько интересных закономерностей.

Каждый слой по-прежнему в значительной степени зависит от результатов непосредственно предшествующего ему слоя, и локальность остается основным способом передачи информации. Однако появились некоторые скачкообразные связи, например, некоторые слои стабильно отслеживают свои корни до самых ранних слоев, а другие уделяют особое внимание исходным результатам векторного представления слов.

Ещё одна закономерность заключается в различиях в моделях «обращения в прошлое» слоев внимания и слоев многослойного перцептрона: слои внимания, как правило, фокусируются на более широком историческом контексте, в то время как слои многослойного перцептрона в большей степени полагаются на слои ближайших соседей. Это соответствует их функциональному разделению труда внутри модели.

AttnRes также позволил получить ценные результаты для будущего проектирования моделей. Исследователи, при фиксированных общих вычислительных затратах и ​​количестве параметров, перечислили 25 различных комбинаций глубины и ширины и сравнили базовую модель с предпочтительной оптимальной архитектурой AttnRes.

Результаты показали, что стандартные остаточные связи отдавали предпочтение моделям с «большей шириной и меньшим количеством слоев», в то время как оптимальные точки AttnRes отдавали предпочтение моделям с «меньшей шириной и большим количеством слоев». Это указывает на то, что AttnRes может более эффективно использовать глубину, гарантируя, что каждый дополнительный слой действительно генерирует ценность, а не превращает глубину в простое накопление с уменьшающейся предельной отдачей.

Последствия этого открытия выходят за рамки простого обновления. Это означает, что AttnRes — это не просто патч к существующей архитектуре, а фундаментальное изменение эффективности использования глубины сети, и предоставляет новый ориентир для распределения ресурсов глубины и ширины при проектировании больших моделей в будущем.

Ян Чжилинь однажды упомянул, что десять лет назад дело было не в отсутствии хороших идей, а в недостатке вычислительных мощностей для их проверки. Теперь же, благодаря достаточным ресурсам и «масштабируемой лестнице», на эти отложенные вопросы наконец-то можно дать серьёзные ответы.

За популярностью влиятельных людей скрывается поворотный момент в истории.

Крайне редко китайская команда получает существенное признание от ведущих деятелей Кремниевой долины за свои фундаментальные архитектурные инновации. Признание связано не только с самой статьей, но и с тем, что работа Кими указывает на совершенно новое направление: оптимизация перешла от модулей верхнего уровня, таких как механизм внимания и механизм MoE, к самым фундаментальным остаточным связям.

В своей презентации на GTC 2026 Ян Чжилинь также представил ряд фундаментальных технологических инноваций: оптимизатор MuonClip обеспечивает двукратное повышение вычислительной эффективности по сравнению с AdamW — стоит отметить, что оптимизатор Adam практически не встречал конкуренции с 2014 года, считаясь «неприкасаемой» технологией в глубоком обучении; Kimi Linear (архитектура KDA) обеспечивает 5-6-кратное ускорение декодирования в сверхдлинных контекстах, от 128 000 до миллионов символов; а кросс-модальное обучение Vision RL даже улучшило бенчмарк для обычного текста примерно на 2,1%.

Ян Чжилинь обобщает эти инновации в трехмерную модель масштабирования: эффективность токенов × длинный контекст × рои агентов.

«Современное масштабирование — это уже не просто накопление ресурсов, а поиск экономии за счет масштаба в повышении эффективности вычислений, увеличении объема памяти и одновременном автоматизированном взаимодействии».

Компания, которая одновременно преуспевает на всех основных направлениях — оптимизаторы, остаточные связи, архитектуры внимания и кросс-модальное обучение — является уникальной в отрасли.

Именно поэтому Джерри Творек вынес суждение о «глубоком обучении 2.0». Конечно, это не означает, что статья об остатках внимания может всё перевернуть, а скорее, что она представляет собой возвращение к методологии: больше не довольствуясь латарем существующих фреймворков, а переосмыслением инфраструктуры, которую все считают «решенными проблемами».

Если остаточные связи можно перепроектировать, то что насчет оптимизатора Adam? Нормализации слоев? Кодирования местоположения? Фундаментальная парадигма глубокого обучения сама по себе меняется, и как только эта дверь откроется, дальнейшая история уже не будет предсказуема с помощью линейной экстраполяции.

Вероятно, это мнение отражает высказывание Карпати о том, что "Внимание — это всё, что вам нужно".

В последние несколько лет вклад китайских команд, занимающихся разработкой ИИ, в большей степени сосредоточен на инженерной реализации и инновациях в применении, при этом в области базовой теории архитектуры наблюдается сравнительно мало оригинальных прорывов. В статье Кими используется совершенно иной подход — единая теоретическая основа, элегантная инженерная реализация и строгая крупномасштабная экспериментальная проверка.

Конечно, статья Кими по-прежнему оставляет много вопросов без ответа. Масштабная проверка проводилась на модели с 48 миллиардами параметров (3 миллиардами параметров активации), что не особенно много даже по сегодняшним меркам. Сохранится ли эквивалентное преимущество в 1,25 раза на моделях с действительно миллиардами или даже триллионами параметров, покажет время.

Между тем, в статье показаны только преимущества этапа предварительного обучения. Отсутствуют данные о том, снизятся ли преимущества AttnRes после этапов, следующих за обучением, таких как доработка инструкций и RLHF.

Однако именно эти ограничения и являются источником вдохновения. Небольшая модификация, требующая всего около 100 строк кода и увеличивающая накладные расходы на обучение менее чем на 4%, может обеспечить такое улучшение в масштабе 48 байт.

Применительно к более масштабной модели следующего поколения никто не может с уверенностью сказать, где будет предел доходности.

Технология Attention Residuals повышает эффективность использования токенов, Kimi Linear расширяет границы длинных контекстов, а Agent Swarms указывают на будущее взаимодействия агентов. Когда эти три технологические линии сойдутся в моделях следующего поколения, они могут привести к новому парадигматическому сдвигу.

При строительстве Вавилонской башни искусственного интеллекта все стремятся добавить кирпичи и плитки, но Кими наклонился и воткнул тяжелую лопату в дорожное полотно, случайно вскрыв тем самым фундамент глубокого обучения.

Авторы: Мо Чунюй, Ли Чаофань

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.