Только что состоялся релиз Gemini 3.1 Pro! Яо Шуньюй из Университета Цинхуа представил его, а Карпати сказал: «Эра магазинов приложений закончилась».

После того, как генеральный директор Google Сундар Пичаи пережил самый неловкий момент на саммите по искусственному интеллекту в Индии, он внезапно официально анонсировал сегодня утром новейшую модель, Gemini 3.1 Pro.

Время было выбрано безупречно, невероятно точно (дож).

▲Генеральные директора OpenAI и Anthropic отказались пожимать друг другу руки во время фотосессии, вместо этого подняв кулаки.

Хотя с момента обновления Gemini 3 Deep Think на прошлой неделе прошло всего несколько дней, Google очень четко обозначила позиционирование 3.1 Pro — он разработан для задач, где «простого ответа далеко недостаточно», и служит основой для решения сложных проблем.

Как обычно, обновление до версии 0.1 обычно означает незначительные доработки. Однако в бенчмарке ARC-AGI-2, который проверяет способность модели решать совершенно новые логические задачи, версия 3.1 Pro показала результат 77,1%, что более чем вдвое превышает показатель предыдущего поколения 3 Pro (31,1%), а также превзошла Anthropic Opus 4.6 (68,8%) и OpenAI GPT-5.2 (52,9%).

В других областях оценка GPQA Diamond за научные знания составила 94,3%, в то время как бенчмарки MCP Atlas и BrowseComp для интеллектуальных агентов набрали 69,2% и 85,9% соответственно.

Что касается возможностей программирования, то в соревновательном бенчмарке LiveCodeBench Pro был достигнут показатель Эло 2887, превзойдя 2439 у 3 Pro и 2393 у GPT-5.2. В SWE-Bench Verified 3.1 Pro показал результат 80,6%, что практически совпадает с 80,8% у Opus 4.6.

Конечно, 3.1 Pro не идеален во всех отношениях.

В многомодальном бенчмарке MMMU Pro предыдущее поколение 3 Pro даже немного превзошло конкурентов (81,0% против 80,5%); в тесте Humanity's Last Exam с включенной поддержкой инструментов первое место занял Opus 4.6 с результатом 53,1%. Инструменты Google давно критикуют за меньшую эффективность по сравнению с конкурентами, и на этот раз компания так и не смогла полностью заставить замолчать этих критиков.

Известная независимая аналитическая компания Artificial Analysis дала достаточно объективную оценку.

В рейтинге интеллекта 3.1 Pro занял первое место, набрав на 4 балла больше, чем Opus 4.6; на весь тест было потрачено приблизительно 57 миллионов токенов, а стоимость его прохождения составила менее половины стоимости Opus 4.6. Высокоэффективное и экономичное сочетание этих характеристик весьма привлекательно.

Джефф Дин, главный научный сотрудник Google DeepMind, также представил приложение, использующее 3.1 Pro для моделирования городского планирования и проектирования новых городов, создав с нуля интерактивный интерфейс для планирования.

В официальном блоге Google были представлены еще несколько примеров применения в повседневной жизни. Что касается анимации кода, версия 3.1 Pro может напрямую генерировать динамические SVG-изображения на основе текстовых подсказок. Поскольку анимация создается исключительно из кода, а не из пикселей, качество сохраняется независимо от масштабирования, а размер файла значительно меньше, чем у традиционных видеороликов.

В контексте сложных систем, модель напрямую обращается к общедоступным потокам телеметрических данных, создавая панель космических приборов, которая отслеживает орбиту Международной космической станции в режиме реального времени.

Ещё более интересными являются две креативные демоверсии.

Один из вариантов — это 3D-симуляция стаи скворцов, которая не только генерирует визуальный код, но и поддерживает управление стаей жестами, а также оснащена сгенерированной музыкой, которая динамически меняется в зависимости от стаи.

Другой подход заключается в преобразовании литературной атмосферы «Грозового перевала» в современный персональный веб-сайт. Вместо простого пересказа сюжета, модель анализирует общий тон романа и разрабатывает стиль интерфейса, соответствующий темпераменту главного героя.

Кроме того, пользователи сети представили множество впечатляющих примеров. Один пользователь заказал у Google 3.1 Pro динамическую SVG-анимацию, изображающую «охотника за привидениями, путешествующего по дому с привидениями», и результат был настолько потрясающим, что пользователь прокомментировал: «В этот раз Google настроен серьезно».

Некоторые пользователи сети также считают, что интерактивная анимация прорастания семени из почвы, укоренения, прорастания стебля, распускания листьев и, наконец, превращения его в полноценное дерево, при этом каждый этап роста плавно и естественно перетекает один в другой, является лучшим подобным эффектом, который они когда-либо видели.

Яо Шуньюй, лауреат специальной премии физического факультета Университета Цинхуа, который в прошлом году перешел из Anthropic в Google DeepMind, также поддержал Gemini, заявив: «Gemini — это не только отличная модель, но и еще лучшие модели появляются неудержимым образом».

Конечно, все эти демонстрации в совокупности говорят об одном и том же: возможности моделей расширились от простых ответов на вопросы до выполнения целого ряда профессиональных или творческих рабочих процессов.
Что касается ценообразования, API имеет многоуровневую структуру и остается неизменным по сравнению с предыдущим поколением 3 Pro, но все же относительно дешевле, чем серия Anthropic Opus.

Для количества токенов менее 200 000 входная плата составляет 2 доллара за миллион токенов, а выходная — 12 долларов. Для количества токенов более 200 000 входная плата увеличивается до 4 долларов, а выходная — до 18 долларов. Функция поиска бесплатна для первых 5000 поисков в месяц, а затем стоит 14 долларов за каждые последующие 1000 поисков.

Теперь разработчики могут использовать AI Studio, Gemini API, Gemini CLI, платформу разработки интеллектуальных агентов Google Antigravity и Android Studio; корпоративные пользователи могут использовать Vertex AI и Gemini Enterprise; а обычные пользователи могут использовать приложения Gemini и NotebookLM, последний из которых доступен только по подпискам Pro и Ultra.

Стоит отметить, что версия 3.1 Pro в настоящее время является лишь предварительной версией. Google, скорее всего, продолжит дорабатывать рабочий процесс интеллектуального агента перед выпуском официальной версии, демонстрируя внешнему миру, что компания ещё не выложилась на полную.

Что касается того, что произойдет, если эта возможность распространится на индивидуальный уровень, это напоминает мне твит, только что опубликованный соучредителем OpenAI Андреем Карпати:

Его цель — снизить частоту сердечных сокращений в состоянии покоя с 50 до 45 ударов в минуту за 8 недель, установив целевой показатель общей продолжительности кардиотренировок в зоне 2 в сочетании с одной высокоинтенсивной интервальной тренировкой в ​​неделю. Для отслеживания прогресса он потратил час на создание пользовательской панели управления с помощью Vibe Coding.

Процесс оказался сложнее, чем ожидалось. Клоду нужно было провести обратное проектирование облачного API беговой дорожки Woodway, извлечь необработанные данные, обработать и отфильтровать их, а также создать веб-интерфейс. Кроме того, пришлось вручную обнаруживать и исправлять ошибки, такие как смешение метрических и имперских единиц измерения и несоответствие календарных дат.

Замечание Карпати было метким: два года назад на это потребовалось бы 10 часов, теперь — 1 час. Но больше всего его волновало то, что это должно было занять всего 1 минуту.
По его мнению, модель магазинов приложений устаревает.

Созданный за считанные секунды инструмент с 300 строками кода и библиотекой LLM не обязательно должен быть полноценным приложением, чтобы его можно было искать и скачивать. Он также указал на проблему в отрасли: 99% продуктов по-прежнему не имеют встроенных интерфейсов командной строки для ИИ и поддерживают удобочитаемые интерфейсы вместо предоставления API, которые агентам было бы легко вызывать.

Беговая дорожка Woodway по сути является датчиком, однако для ее обратного проектирования все равно требуется магистр права, что совершенно излишне.

Сравнение демонстрации градостроительного проекта Джеффа Дина с панелью управления бегом Карпати показывает две стороны одной медали. Эпоха, когда обычные люди могут за час создать для себя высоко персонализированный инструмент, состоящий из датчиков и исполнительных механизмов, работающих на основе искусственного интеллекта, управляемый локальной моделью управления (LLM) и спонтанно генерируемый в высокоспециализированные приложения, уже не за горами.

Официальный блог прилагается:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.

ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo