Минимализм побеждает грандиозность! Вышла самая мощная миниатюрная модель от Google, и она даже работает на мобильных телефонах.

«Открытый» и «открытый исходный код» — это не просто разные слова.
Серия Gemma от Google существует уже два года. Разработчики могут загрузить и запустить её локально, но её использование ограничено, распространение запрещено, а модификации не могут свободно распространяться. В лучшем случае её можно считать лишь «открытой», и она не соответствует стандарту «открытого исходного кода» сообщества ИИ.

▲Генеральный директор Google DeepMind Демис Хассабис
Только что Google выпустила четыре модели серии Gemma 4, полностью с открытым исходным кодом и поддержкой Apache 2.0. Самая маленькая версия может работать полностью в автономном режиме на Raspberry Pi. Впервые мини-модель Gemma стала действительно доступной для всех.
Маленький, крошечный…
Ноутбук Gemma 4 выпускался в четырех размерах, используя ту же базовую технологию, что и Gemini 3, и охватывал аппаратное обеспечение от периферийных устройств до высокопроизводительных рабочих станций:
E2B / E4B: Разработаны специально для мобильных телефонов и устройств IoT, оптимизированы в тесном сотрудничестве с командой Google Pixel, Qualcomm и MediaTek. Во время выполнения вычислений активируются только параметры 2B и 4B соответственно, чтобы минимизировать потребление памяти и энергии.
Поддерживает контекстные окна размером 128 КБ, предлагает возможности ввода изображений, видео и нативного звука, а также работает полностью в автономном режиме на телефонах Pixel, Raspberry Pi и Jetson Orin Nano с практически нулевой задержкой. Разработчики Android теперь могут опробовать режим Agent Mode на ранней стадии разработки через AICore Developer Preview.

26B MoE: Гибридная экспертная архитектура, которая активирует всего 3,8 млрд всех параметров во время вывода, поддерживая высокое качество и обеспечивая чрезвычайно высокую скорость вывода. Она достигла текстового балла 1441 на Arena AI, заняв шестое место среди моделей с открытым исходным кодом.
31B Dense: Стремясь к максимальной производительности, Arena AI достигла текстового результата в 1452 балла, заняв третье место среди моделей с открытым исходным кодом. Неквантованные веса bfloat16 могут работать на одной 80-гигабайтной видеокарте NVIDIA H100, в то время как квантованная версия поддерживает потребительские графические процессоры, обеспечивая прочную основу для локальной тонкой настройки.
С точки зрения возможностей, все четыре модели демонстрируют высокую степень согласованности: все поддерживают многошаговый вывод и сложную логику; изначально поддерживают вызовы функций, вывод в формате JSON и системные команды, что позволяет создавать автономных агентов, способных взаимодействовать с внешними инструментами и API; поддерживают ввод изображений и видео, а также превосходно справляются с визуальными задачами, такими как оптическое распознавание символов и распознавание диаграмм; и прошли предварительное обучение более чем на 140 языках.
В версиях 26B и 31B контекстное окно было дополнительно расширено до 256 КБ, что позволяет передавать полный код или длинный документ в одном запросе.

Результаты сравнительных тестов позволяют более наглядно продемонстрировать масштаб улучшений в этом поколении.
По сравнению со своим предшественником, Gemma 3 27B, Gemma 4 31B показала рост с 20,8% до 89,2% в бенчмарке математического мышления AIME 2026, улучшила свои результаты с 29,1% до 80,0% в бенчмарке навыков программирования LiveCodeBench v6 и значительно увеличила свои показатели с 6,6% до 86,4% в бенчмарке τ2-bench, измеряющем возможности вызова инструментов агента.
Эти три показателя особенно важны, поскольку они напрямую соответствуют трем наиболее важным сценариям применения на сегодняшний день: рассуждения, программирование и агенты.
Еще один важный аспект — эффективность параметров. Если посмотреть на диаграмму рассеяния «Производительность модели в зависимости от количества параметров», то Gemma 4, имеющая всего 26 и 31 параметров, достигла показателей Эло, для которых обычно требуются сотни миллиардов или даже триллионы параметров.
Показатель Arena AI для модели 26B MoE близок к показателю Qwen3.5-397B-A17B, которая имеет примерно в 15 раз больше параметров, а показатель Dense для модели 31B находится на одном уровне с GLM-5, которая имеет более 600 параметров. Google описывает это как «беспрецедентную плотность интеллекта на единицу параметра», и, по крайней мере, цифры кажутся разумными.

Также стоит обратить внимание на модели Edge.
E2B набрала 60,0% в многоязычном тесте вопросов и ответов MMMLU и 43,4% в тесте научных знаний GPQA Diamond. Стоит отметить, что это только модель, которая активирует параметр 2B и работает на мобильном устройстве. Для сравнения, Gemma 3 27B набрала 42,4% в тесте GPQA Diamond, что делает их практически идентичными.
Иными словами, модель 2B на мобильных телефонах догнала предыдущее поколение настольных моделей с 27 миллиардами параметров.
На уровне аппаратной экосистемы NVIDIA и Google сотрудничали в оптимизации вывода Gemma 4 на графических процессорах RTX, персональном суперкомпьютере DGX Spark для искусственного интеллекта и Jetson Orin Nano.
Тензорные ядра NVIDIA и программный стек CUDA обеспечивают Gemma 4 высокую пропускную способность и низкую задержку «из коробки». Локальное агентское приложение OpenClaw также адаптировано к последней модели, что позволяет автоматизировать выполнение задач путем вызова локальных пользовательских файлов и контекста приложения.

От "открытого" к "открытому исходному коду", открывающему новые возможности.
Чтобы понять этот релиз, необходимо сначала прояснить взаимосвязь между Gemma и Gemini. Оба продукта построены на одной и той же научно-технологической системе, но разница заключается в том, что Gemini — это продукт с закрытым исходным кодом, работающий по подписке, в то время как Gemma — это модель с открытым исходным кодом, которую можно бесплатно скачать и запустить локально.
В сериале «Джемма» всегда использовались собственные условия предоставления услуг Google.
Хотя разработчики могут загрузить и запустить его локально, его использование и распространение ограничены, поэтому, строго говоря, его можно считать только «открытым», а не «с открытым исходным кодом». Google по-прежнему контролирует ситуацию.
Gemma 4 официально перешла на лицензию Apache 2.0. В соответствии с этой лицензией разработчики могут использовать модель для любых целей, включая личное, коммерческое и корпоративное использование, без уплаты роялти, без каких-либо ограничений на использование, а также имеют право модифицировать и распространять её.
Apache 2.0 также включает в себя встроенный механизм защиты патентов: патенты участников автоматически лицензируются пользователям, и если пользователь подает в суд на другую сторону за нарушение патента, лицензия автоматически аннулируется. Это двустороннее положение обеспечивает дополнительную юридическую защиту для корпоративных пользователей.
Реальное значение этого релиза с открытым исходным кодом заключается в том, что Gemma 4 теперь может легально поставляться в составе продуктов, услуг и аппаратных устройств. Для пользователей в отраслях с требованиями к суверенитету данных или соблюдению нормативных требований, таких как здравоохранение и финансы, полностью локальная работа означает, что данные не нужно загружать в облако, при этом сохраняется доступ к передовым возможностям искусственного интеллекта.
Соучредитель и генеральный директор Hugging Face Клеман Деланг назвал смену лицензии «значительной вехой». С момента своего первого выпуска в феврале 2024 года серия Gemma была скачана более 400 миллионов раз, и существует более 100 000 вариантов, созданных сообществом.
Весовые коэффициенты моделей теперь доступны на Hugging Face, Kaggle и Ollam, а такие популярные фреймворки, как Transformers, TRL, vLLM, llama.cpp, MLX, Unsloth, SGLang и Keras, обеспечили их поддержку в день релиза.

Локальное развертывание можно быстро запустить с помощью Ollam или llama.cpp с весами в формате GGUF, а Unsloth Studio обеспечивает одновременную поддержку тонкой настройки и развертывания моделей квантования. Для расширения в облако также доступны Google Vertex AI, Cloud Run и GKE.
Более компактные модели, такие как Gemma 4, имеют более глубокое значение, поскольку они заново отвечают на фундаментальный вопрос: где должен работать ИИ?
В течение последних двух лет ответ на этот вопрос почти всегда был стандартным:
Центры обработки данных. Пользователи получают доступ к облачным моделям через сетевые интерфейсы, что требует загрузки данных и использования зависимых соединений, а стоимость устанавливается поставщиком услуг. Эта модель достаточно хорошо работает в потребительских сценариях, но для отраслей с жесткими требованиями к суверенитету данных, таких как здравоохранение, финансы и производство, она остается серьезным препятствием.
Джемма 4 предлагает еще один вариант.
Мобильные телефоны, Raspberry Pi и заводские терминалы без внешнего доступа к сети могут выполнять вывод моделей локально. Данные не покидают устройство, а решения не передаются в облако. Лицензия Apache 2.0 еще больше расширяет возможности применения: модели могут быть легально интегрированы в аппаратные продукты и предварительно установлены на промышленных устройствах, больше не подпадая под ограничения, связанные с протоколами вызовов и экспортом данных.

Показатели производительности также подтверждают осуществимость такого подхода. Результат E2B в бенчмарке GPQA Diamond для научных знаний примерно соответствует показателю предыдущей модели с 27 миллиардами параметров, при этом во время вывода задействуется всего 2 миллиарда параметров, и система может работать полностью в автономном режиме на мобильном телефоне.
Словами «дешевле» или «удобнее» уже недостаточно для описания этих изменений; речь идет скорее о расширении охвата, когда возможности ИИ начинают по-настоящему проникать в те сценарии, которые долгое время были исключены.
Популяризация операционных систем прошла аналогичный процесс: от специализированных инструментов, используемых профессиональными организациями, до постепенного внедрения в каждое персональное устройство, пока люди перестали осознавать их существование. Искусственный интеллект еще далек от этого этапа; проблемы проектирования, взаимодействия и надежности еще не полностью решены. Однако возможность работы на любом устройстве, несомненно, является самым фундаментальным и важным шагом на этом пути.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете быстро найти еще больше интересного контента.