Каково это — подключить четыре топовых Mac Studios и одновременно запустить две машины DeepSeek всего за 400 000 юаней?

Несколько месяцев назад iFanr успешно развернул локальную большую модель DeepSeek объёмом 671 бит (4-битную квантованную версию) на Mac Studio с процессором M3 Ultra. Если объединить четыре топовых Mac Studio с процессорами M3 Ultra с помощью инструментов с открытым исходным кодом в «настольный ИИ-кластер», можно ли поднять потолок локального вывода ещё выше?

Эту же проблему пытается решить британский стартап Exo Labs.

Не думайте, что у Оксфордского университета неограниченный запас графических процессоров

Можно подумать, что в таком крупном университете, как Оксфорд, графических процессоров должно быть больше, чем он может использовать, но это совсем не так.

Основатели Exo Labs Алекс и Сет окончили Оксфордский университет. Даже в таком престижном учебном заведении доступ к кластерам графических процессоров требует многомесячного ожидания в очереди, а заявки можно подавать только на одну карту за раз, что делает процесс долгим и неэффективным.

Они понимают, что нынешняя высокоцентрализованная инфраструктура ИИ маргинализирует отдельных исследователей и небольшие группы.

В июле прошлого года они запустили свой первый эксперимент, успешно запустив модель LLaMA на двух MacBook Pro одновременно. Хотя производительность была ограничена (выдавалось всего три токена в секунду), этого оказалось достаточно, чтобы продемонстрировать возможность использования архитектуры Apple Silicon для распределённого ИИ-анализа.

Переломным моментом стал выпуск M3 Ultra Mac Studio. 512 ГБ унифицированной памяти, пропускная способность 819 ГБ/с, 80-ядерный графический процессор и двунаправленная передача данных Thunderbolt 5 со скоростью 80 Гбит/с сделали локальные кластеры ИИ реальностью.

Каково это — запускать две модели с 67 миллиардами параметров одновременно?

После подключения четырех топовых Mac Studios с процессорами M3 Ultra через Thunderbolt 5 показатели производительности оказались весьма впечатляющими:

  • 128-ядерный процессор (32×4)
  • 240 ядер графического процессора (80×4)
  • 2 ТБ унифицированной памяти (512 ГБ x 4)
  • Общая пропускная способность памяти превышает 3 ТБ/с

Эта комбинация практически эквивалентна небольшому домашнему суперкомпьютеру. Однако аппаратное обеспечение — это лишь основа; ключ к раскрытию его потенциала кроется в Exo V2, платформе распределенного планирования моделей, разработанной Exo Labs. Exo V2 автоматически разделяет модель в зависимости от доступной памяти и пропускной способности, разворачивая её на наиболее подходящем узле.

На месте Exo V2 продемонстрировал следующие основные возможности:

  • Загрузка больших моделей: Полная модель DeepSeek с 8-битным квантованием требует более 700 ГБ памяти, что значительно превышает возможности одной Mac Studio. Exo разделяет модель между двумя Mac Studio для завершения процесса загрузки. После активации её «скорость печати» превосходит скорость чтения человеком.

  • Параллельный вывод: DeepSeek R1, также содержащий 67 миллиардов параметров, был загружен в DeepSeek V3. Система немедленно распределила R1 по оставшимся двум устройствам, что позволило проводить параллельный вывод двух больших моделей и одновременно задавать вопросы нескольким пользователям.

  • Вопросы и ответы по конфиденциальным документам : перетащите PDF-файл финансового отчёта компании, и модель выполнит внедрение знаний и вопросы и ответы локально. Она не использует облачные ресурсы, а данные полностью конфиденциальны и контролируемы.

  • Лёгкая тонкая настройка: предприятия с тысячами внутренних документов могут выполнять локальную тонкую настройку, используя технологию QLoRA + LoRA. Тонкая настройка одной машины может занять несколько дней, но благодаря возможностям кластерного планирования Exo задачи обучения можно линейно ускорить, значительно сокращая временные затраты.

Огромная разница в стоимости

iFanr изучил топологическую схему за кулисами и обнаружил, что даже если четыре машины одновременно находились в состоянии высокой нагрузки, энергопотребление всей системы всегда находилось в пределах 400 Вт, а во время работы вентиляторы практически не издавали шума.

Для достижения той же производительности в традиционных серверных решениях требуется установить не менее 20 видеокарт A100. Стоимость сервера и сетевого оборудования превышает 2 миллиона юаней, энергопотребление достигает нескольких киловатт, требуется отдельный компьютерный зал и система охлаждения.

Чипы Apple неожиданно нашли новую позицию в волне искусственного интеллекта

Стоимость M3 Ultra Mac Studio начинается от 32 999 юаней и включает 96 ГБ унифицированной памяти, в то время как топовая версия с 512 ГБ действительно стоит дорого. Однако с технической точки зрения преимущества унифицированной архитектуры памяти революционны.

Когда Apple впервые разработала чип M, он в первую очередь предназначался для энергоэффективного и эффективного персонального творчества. Однако такие функции, как унифицированная память, высокопроизводительный графический процессор и агрегация многолучевых сигналов Thunderbolt, неожиданно нашли новую нишу в эпоху искусственного интеллекта.

Традиционные графические процессоры, даже самые мощные видеокарты для рабочих станций, обычно имеют всего 96 ГБ видеопамяти. Унифицированная память Apple позволяет центральному и графическому процессорам использовать одну и ту же высокоскоростную память, устраняя необходимость в частой передаче данных между различными уровнями хранения. Это критически важно для построения крупномасштабных моделей.

Конечно, решение EXO также имеет чёткое позиционирование. Оно не предназначено для прямой конкуренции с H100 и не предназначено для обучения следующего поколения GPT. Вместо этого оно предназначено для решения практических прикладных задач: запуска ваших собственных моделей, защиты ваших данных и выполнения необходимой тонкой настройки и оптимизации.

Если H100 — король на вершине пирамиды, то Mac Studio становится швейцарским армейским ножом в руках малых и средних команд.

От стороннего наблюдателя и наблюдателя за технологиями до практического применения того, как технологии влияют на образ жизни.

#Приглашаем вас следить за официальным публичным аккаунтом WeChat проекта iFaner: iFaner (WeChat ID: ifanr), где в ближайшее время вам будет представлен еще более интересный контент.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo