Научная статья спровоцировала резкое падение акций компаний, производящих микросхемы памяти; не наступил ли для нас «момент DeepSeek» для Google?

Те, кто смотрел сериал HBO «Кремниевая долина», наверняка помнят вымышленную компанию под названием Pied Piper.

В сериале главный герой Ричард Хендрикс изобретает «алгоритм промежуточного сжатия», способный обрабатывать файлы без потерь с чрезвычайно высокими коэффициентами сжатия, и в результате даже переписывает правила всего Интернета.

В то время мы все думали, что это всего лишь безумная идея сценариста. Так было до тех пор, пока Google Research официально не выпустила алгоритм сжатия на основе искусственного интеллекта под названием TurboQuant.

Изначально сухая техническая новость быстро распространилась в социальных сетях, набрав 12,8 миллионов просмотров менее чем за 24 часа. Причина проста: конструкция технологии практически точная копия конструкции Крысолова.

Без ущерба для производительности модели, «рабочая память» ИИ сжимается как минимум в 6 раз.

Реакция рынка также была вполне реалистичной: в ходе торговой сессии в американском секторе микросхем памяти наблюдалась распродажа акций, а цены на акции ведущих компаний, таких как Micron Technology и SanDisk, закрылись снижением.

Это поднимает вопрос: почему чисто программная алгоритмическая инновация вызвала панику у производителей оборудования в первую очередь, и какой козырь Google выложил на стол нынешней индустрии искусственного интеллекта?

Большая модель, застрявшая в «чёрной дыре памяти».

Если отбросить интернет-мемы, появление TurboQuant — это не просто развлечение, а решение реальной проблемы, которая долгое время преследовала всю индустрию искусственного интеллекта.

Как всем известно, современные модели ИИ становятся все больше и больше, и их потребность в памяти графического процессора подобна бездонной пропасти. Особенно на этапе вывода (то есть, когда вы общаетесь с ИИ) ИИ необходимо запоминать контекстную информацию, и эта часть данных называется KV-кэшем (кэш ключ-значение).

Для каждого обработанного слова модель преобразует его в многомерный вектор и сохраняет в памяти графического процессора. Чем дольше разговор, тем быстрее эта «цифровая заметка» расширяется, быстро заполняя память графического процессора. Именно поэтому ваш ИИ-помощник может «глупеть» или даже сообщать об ошибках после длительного разговора — его умственных способностей недостаточно.

Ещё более сложной является дилемма, с которой всегда сталкивались традиционные методы сжатия: при сжатии данных необходимо хранить дополнительные «константы квантования», чтобы указать модели, как их декомпрессировать. Эти метаданные могут показаться незначительными, но в совокупности они могут полностью нивелировать преимущества сжатия.

На основе этого был создан сервис TurboQuant от Google.

Исследователи разработали двухэтапное математическое решение. Первый этап, названный PolarQuant, преобразует вектор данных из традиционной декартовой системы координат в полярную, разбивая его на «радиус» (представляющий величину) и «угол» (представляющий направление).

Преимущество этой геометрической трансформации заключается в том, что распределение углов после преобразования становится очень предсказуемым, и модели больше не нужно хранить дорогостоящие константы нормализации отдельно для каждого блока данных. Ее можно напрямую отобразить на фиксированную круговую сетку без каких-либо дополнительных затрат.

Второй этап называется QJL (квантование с использованием преобразования Джонсона-Линденштрауса) и действует как математический корректор ошибок. Он проецирует остаточную ошибку после сжатия в низкоразмерное пространство, а затем сжимает каждое значение ошибки в знаковый бит (+1 или -1).

Такая конструкция гарантирует, что при вычислении ИИ «показателя внимания» результат сжатой версии будет статистически идентичен исходному результату с высокой точностью. Показатель внимания является ключевым этапом в определении моделью того, какие слова в контексте наиболее важны.

Если раньше для создания заметок с помощью ИИ требовалось «копировать слово в слово», то TurboQuant — это как изобретение набора «минималистичных стенографических символов»: он записывает все, что нужно записать, но занимает в шесть раз меньше места.

Этот подход обладает еще одной особенностью, особенно удобной для корпоративного использования: нет необходимости переобучать модель. Ваша существующая модель с открытым исходным кодом или ваша собственная доработанная модель могут быть напрямую применены к TurboQuant и запущены без дополнительных наборов данных или необходимости повторного прохождения процесса обучения.

Слова ничего не стоят. В бенчмарк-тесте «иголка в стоге сена» TurboQuant показал идеальный показатель полноты на наборах данных Llama-3.1-8B и Mistral-7B, при этом сократив использование памяти графического процессора в KV-кэше как минимум в 6 раз.

В комплексном оценочном пакете LongBench (охватывающем ответы на вопросы, генерацию кода и составление кратких обзоров статей) TurboQuant полностью соответствует и даже превосходит предыдущий, самый сильный базовый метод, KIVI.

Наиболее впечатляющие результаты получены в ходе реального тестирования с использованием графического процессора NVIDIA H100: TurboQuant с 4-битной точностью в 8 раз быстрее вычисляет логику внимания, чем несжатое 32-битное решение.

В течение 24 часов после публикации статьи сообщество уже начало её проверять.

Известный разработчик фреймворка Apple Silicon MLX, @Prince_Canuma, портировал алгоритм на этот фреймворк. Протестировав модель Qwen3.5-35B, охватывающую длины контекста от 8500 до 64000 токенов, он добился 100% точного совпадения для каждого уровня квантизации. Он также обнаружил, что 2,5-битный TurboQuant может сжимать кэш ключ-значение почти в 5 раз без потери точности.

«Момент DeepSeek» для Google?

Генеральный директор Cloudflare Мэтью Принс даже назвал выпуск TurboQuant «моментом DeepSeek» для Google.

Вернемся на год назад: DeepSeek обучил модель с поразительной производительностью при чрезвычайно низких затратах, полностью развеяв миф, распространенный среди гигантов Кремниевой долины, о том, что высокие затраты необходимы для обучения высокопроизводительного ИИ. Этот шок также заставил всю отрасль осознать, что одной большой модели недостаточно; она также должна быть способна работать, и работать быстро.

TurboQuant — это продукт именно этого процесса. Если эта технология сможет перейти из лабораторных условий в крупномасштабное применение, она принесет ощутимую коммерческую выгоду. Теоретически, стоимость вывода данных для того же H100 может быть снижена более чем на 50%; порог развертывания на периферии также значительно снизится. Большие модели, которые ранее требовали 32-битной точности, теперь могут работать на Mac Mini или локальном сервере без потери качества.

Реакция рынка говорит сама за себя. В день публикации отчета TurboQuant американский сектор микросхем памяти испытал значительное давление со стороны продавцов в течение торгового дня. Акции ведущих компаний, таких как SanDisk и Micron Technology, существенно упали, а индекс, связанный с цепочкой поставок микросхем памяти и оборудования, снизился более чем на 2% за один день.

Причина в том, что если гиганты в области искусственного интеллекта смогут использовать чисто программный алгоритм для сокращения требований к памяти графического процессора на пять шестых, то тем, кто делает ставку на то, что ИИ продолжит потреблять высокоскоростную память графических процессоров, придется пересмотреть свои позиции.

Эта защитная реакция также указывает на то, что одним из основных аргументов в пользу оценки акций компаний, занимающихся хранением данных, за последние два года было предположение о том, что спрос ИИ на видеопамять будет только расти. Компания TurboQuant впервые официально оспорила это предположение на техническом уровне.

Конечно, хотя это звучит замечательно, мне все равно приходится поливать это холодной водой.

С одной стороны, исторически каждое повышение эффективности часто приводило к увеличению совокупного спроса — явление, известное в экономике как «парадокс Джевенса». Снижение стоимости ИИ может означать, что больше людей будут использовать его чаще, что в конечном итоге приведет к увеличению вычислительной мощности. Поэтому, разрешит ли это нынешний «кризис памяти», покажет время.

С другой стороны, TurboQuant всё ещё находится на стадии лабораторных исследований. Согласно последним новостям, Google планирует официально продемонстрировать эту технологию на конференции ICLR 2026 в следующем месяце, а также на другой крупной конференции, AISTATS 2026.

Однако путь от научной статьи до крупномасштабного внедрения в производство сопряжен со множеством трудностей, включая адаптацию к инженерным требованиям, тестирование совместимости различных архитектур и проверку производительности в реальных условиях. Каждый этап труден.

▲Ссылка на статью: https://arxiv.org/abs/2504.19874

Некоторые пользователи сети прямо раскритиковали статью, заявив, что лежащее в её основе исследование было опубликовано ещё в апреле прошлого года, и это не было внезапным появлением. Нынешний ажиотаж в общественном мнении отчасти является реакцией на старые новости.

По его мнению, если акции компаний, занимающихся хранением энергии, резко упадут из-за документа с алгоритмом, это покажет, насколько многие участники рынка вообще не понимают масштабов этой проблемы, и он сравнил эту реакцию с ситуацией, когда «когда Toyota выпускает новый гибридный двигатель, цены на нефть должны рухнуть».

Что еще более важно, TurboQuant решает проблему нехватки памяти только на этапе вывода; потребление памяти на этапе обучения остается серьезной проблемой. Обучение модели с нуля для работы с высоконагруженными приложениями по-прежнему требует астрономических объемов вычислительной мощности.

В фильме «Кремниевая долина» алгоритм сжатия Pied Piper в конечном итоге произвел революцию во всем интернете. Однако в реальности амбиции TurboQuant менее грандиозны; его цель — просто позволить искусственному интеллекту запоминать больше, вычислять быстрее и работать дешевле в ограниченном физическом пространстве.

Реальность — это не голливудский сценарий. Нам не нужно полностью менять интернет. Возможность вести более длительные беседы с ИИ без прерывания разговора на полпути — это уже то, чего хотят многие.

Прилагается официальный технический блог TurboQuant:

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.