Только что появился самый мощный ИИ этого года! Илон Маск хвалил Gemini 3, и, протестировав его, я понял, что ChatGPT стоит беспокоиться.

Только что официально вышла предварительная версия Gemini 3 Pro.
Мир искусственного интеллекта никогда не обходится без новостей в конце года, но этот год особенно шумный. Если не произойдёт ничего неожиданного, это будет самая ожидаемая модель для массового рынка, дебютирующая в 2025 году. Можно даже сказать, что Gemini 3 Pro стал единственным главным героем этого периода.

За последние два месяца Google практически повторила маркетинговую тактику Сэма Альтмана. От известного специалиста по связям с общественностью Gemini Логана Килпатрика до генерального директора Пичаи, инсайдеры постоянно используют загадочную лексику в социальных сетях, чтобы подогреть ажиотаж и повысить ожидания от Gemini 3.

Интересно, что генеральный директор OpenAI Сэм Альтман только что опубликовал на платформе X: «Поздравляю Google с успешным запуском Gemini 3! Похоже, это отличная модель».
Учитывая предостерегающую историю Ультрамена, подход Загадочника крайне рискован: если продукт окажется неэффективным, его репутация может мгновенно рухнуть. Однако Google, очевидно, безгранично уверена в своём продукте. Итак, что же предлагает Gemini 3 Pro на этот раз?
Версия с сохранением данных выглядит следующим образом:
- Предварительная версия Gemini 3 Pro изначально поддерживает многомодальные форматы (текст, изображения, видео, аудио).
- Он возглавил рейтинг LMARaena и лидировал по основным тестам, включая вывод, многомодальный анализ и программирование.
- Рекордные способности к рассуждению (GPQA Diamond 91,9%, MathArena Apex 23,4%)
- Доступен расширенный режим вывода Deep Think (ожидается в ближайшие недели).
- 1 миллион токенов контекстного окна + 64К вывода
- Запущена новая IDE для ИИ от Google Antigravity. Новые модели теперь интегрируют такие инструменты, как Cursor, GitHub и JetBrains.
Самая мощная модель искусственного интеллекта от Google, достойная звания «Pro», была представлена поздно ночью.
По данным Google, Gemini 3 Pro — «самая интеллектуальная и адаптируемая модель» на сегодняшний день, разработанная для решения сложных реальных задач, особенно тех, которые требуют более высокого уровня мышления, креативности, стратегического планирования и постепенного совершенствования.
К типичным сценариям применения относятся: приложения с возможностями автономного поведения, продвинутое программирование, сверхдлинное контекстное понимание, кросс-модальная обработка (например, объединение текста, изображений и аудио) и разработка алгоритмов.
Предварительная версия Gemini 3 Pro возглавила рейтинг LMARaena, набрав 1501 балл, значительно превзойдя своего предшественника практически во всех основных бенчмарках ИИ. Что ещё важнее, она способна не только распознавать содержимое изображений, но и понимать неявную информацию и контекстные связи.

В частности, с точки зрения способности к рассуждению, он набрал 37,5% докторского уровня по результатам теста «Последний экзамен человечества», 91,9% по результатам теста GPQA Diamond и установил новый отраслевой рекорд в 23,4% по результатам теста MathArena Apex.
В мультимодальном рассуждении MMMU-Pro набрал 81%, Video-MMMU набрал 87,6%, а SimpleQA Verified достиг точности фактов 72,1%.
Это также означает, что Gemini 3 Pro может надежно предоставлять высококачественные ответы на множество сложных проблем в области науки, математики и других областей, а его ответы содержат прямые и подлинные идеи, сообщая вам то, что вам нужно знать, а не только то, что вы хотите услышать.
Помимо стандартного режима, Gemini 3 также предлагает расширенную опцию вывода под названием Deep Think.
Эта усовершенствованная модель рассуждения набрала 41,0% в «Последнем тесте на человечность», улучшила результат до 93,8% в тесте GPQA Diamond и достигла беспрецедентного результата в 45,1% в тесте ARC-AGI-2.

Однако эта модель все еще проходит оценку безопасности и, как ожидается, будет внедрена для подписчиков Google AI Ultra в ближайшие недели.
Помимо тестовых данных, еще более примечательны результаты работы Gemini 3 в реальных условиях эксплуатации.
Например, если вы найдете рукописную книгу рецептов вашей семьи, в которой содержатся рецепты, написанные вашей бабушкой на нескольких языках, Gemini 3 может распознать эти рукописные слова и организовать их в общую книгу рецептов.

Или, если вы хотите освоить новую дисциплину, система может обрабатывать научные статьи и длинные видеолекции, создавая интерактивные учебные карты. Она даже может анализировать видеозаписи матчей по пиклболу для разработки целевых планов тренировок.
Это связано с тем, что Gemini изначально разрабатывался для мультимодального понимания и способен интегрировать различные типы информации, такие как текст, изображения, видео, аудио и код, а также имеет контекстное окно объемом до 1 миллиона токенов и поддерживает вывод до 64 КБ.
Стоит отметить, что Gemini 3 был официально выпущен и интегрирован в поиск Google в первый же день.

Он не только значительно повышает способность поисковой системы понимать сложные проблемы и добывать информацию, но и генерирует динамические визуальные интерфейсы, интерактивные инструменты и системы моделирования в реальном времени на основе запросов, такие как физический симулятор трех тел или кредитный калькулятор.

Кроме того, согласно картам моделей, опубликованным Google, Gemini 3 Pro использует разреженную экспертную гибридную модель (MoE) на базе Transformer, которая изначально поддерживает мультимодальные входные данные, такие как текст, изображение и аудио. Основное преимущество этой архитектуры заключается в том, что модель динамически выбирает для активации некоторые параметры в зависимости от содержания каждого входного токена, тем самым достигая баланса между потреблением вычислительных ресурсов, стоимостью обслуживания и общей производительностью.
Что касается аппаратного обеспечения, Gemini 3 Pro использует для обучения тензорный процессор (TPU), разработанный Google. По сравнению с центральным процессором, TPU быстрее справляется с масштабными вычислениями, необходимыми для больших языковых моделей, а его большой объём и высокая пропускная способность памяти позволяют обрабатывать сверхбольшие модели и пакеты данных.
Если вы разработчик, то изменения, внесенные Gemini 3, проявятся еще быстрее.
В официальном блоге Google утверждается, что Gemini 3 — самая мощная на сегодняшний день модель «видеокодирования»: вам нужно только описать то, что вы хотите, на естественном языке, и она сможет генерировать полнофункциональные интерактивные приложения.

Данные говорят о многом: Эло занял 1487-е место в рейтинге WebDev Arena, набрав 54,2% на Terminal-Bench 2.0 и 76,2% на SWE-bench Verified.

Google также запустила совершенно новую среду разработки искусственного интеллекта: Google Antigravity.
Встроенный интеллектуальный агент может автономно планировать и выполнять сложные сквозные программные задачи, а также автоматически проверять корректность кода. Если вы хотите создать приложение для отслеживания рейсов, агент может самостоятельно планировать и писать код, проверять его производительность через браузер и даже работать одновременно в редакторе, терминале и браузере.
По возможностям долгосрочного планирования Gemini 3 занимает первое место в списке Vending-Bench 2.

На практике новые экспериментальные функции Gemini Agent позволяют выполнять сложные многоэтапные процессы от начала до конца. Если вы скажете «Организовать мой почтовый ящик», система расставит ваши задачи по приоритету и подготовит черновики ответов на электронные письма для подтверждения.
Или вы можете сказать: «Найдите информацию и забронируйте для меня внедорожник среднего размера с бюджетом не более 80 долларов в день. Используйте информацию из моего письма, чтобы спланировать поездку на следующей неделе». Gemini найдёт информацию о рейсах, сравнит варианты аренды автомобилей и подготовит для вас процесс бронирования.
Вы сохраняете контроль на протяжении всего процесса, а Gemini будет запрашивать подтверждение перед важными операциями.
Кроме того, в Google AI Studio и Vertex AI стоимость использования предварительной версии Gemini 3 Pro через Gemini API составляет 2 доллара за миллион токенов на входе и 12 долларов за миллион токенов на выходе. Использование Gemini 3 Pro в Google AI Studio также бесплатно, но есть ограничения.

Gemini 3 интегрирован в экосистему инструментов разработки, включая Cursor, GitHub, JetBrains и Replit.
Одновременно с запуском продукта Google одновременно открыла несколько точек доступа.
Начиная с сегодняшнего дня, предварительная версия Gemini 3 будет постепенно внедряться: все пользователи смогут использовать ее в приложении Gemini; подписчики Google AI Pro и Ultra смогут опробовать ее в режиме ИИ-поиска; разработчики смогут получить к ней доступ через API Gemini, Google Antigravity и Gemini CLI; а корпоративные пользователи смогут получить доступ к сервису через Vertex AI и Gemini Enterprise.
Конкурент ChatGPT уже здесь. Насколько конкурентоспособен Gemini 3 в реальных тестах?
Конечно, технологические компании всегда преувеличивают свои возможности, поэтому мы также протестировали несколько проблем.
Первой задачей было воссоздать полноценную портативную консоль Game Boy в одном HTML-файле с предустановленными классическими играми, такими как Tetris и Pokémon Red/Blue, а все элементы управления должны были поддерживать взаимодействие как с клавиатурой, так и с сенсорным экраном.
Честно говоря, у меня нет больших ожиданий относительно этого требования.
Подобная задача, требующая одновременной работы над дизайном пользовательского интерфейса, игровой логикой и звуковыми эффектами, заняла бы даже у профессионального front-end-разработчика несколько дней. Но результаты Gemini оказались неожиданными: интерактивный интерфейс получил оценку 60-70%, а кнопки даже издавали характерные звуковые эффекты при нажатии. С учётом того, что код был сгенерирован за один раз, это было весьма впечатляюще.

Теперь, когда ретро-игровые консоли работают, давайте выложимся по полной.

▲ Спроектируйте и создайте веб-операционную систему, подобную macOS, с полным набором функций: от текстового редактора, терминала с Python и редактора кода до игры, в которую можно играть, от диспетчера файлов для рисования до видеоредактора и всего важного предустановленного программного обеспечения Windows. Используйте любые библиотеки, чтобы сделать это, но убедитесь, что я могу вставить все это в один HTML-файл и открыть его в Chrome. Сделайте его интересным и очень подробным, покажите детали, которых никто не ожидал. Создайте полный творческий и красивый дизайн в одном блоке кода.
Я попросил его воспроизвести полную систему macOS, используя один HTML-файл, включая предустановленное программное обеспечение, такое как текстовый редактор, терминал, редактор кода, файловый менеджер, Paint и видеоредактор. Хотя получившийся продукт не слишком эстетичен, основная интерактивная логика реализована.

Помимо возможностей программирования мы также протестировали его способности к визуальной генерации и рассуждению.
Следуя подходу пользователя @lepadphone (X), я поручил Gemini реализовать визуальный эффект электрического вентилятора с помощью front-end-кода. Я предложил использовать технологию SVG для его отрисовки, включая структурные детали, такие как лопасти вентилятора, защитную решётку, основание и кнопки управления, а также реализовать динамические эффекты, такие как вращение лопастей и регулировка скорости. Сгенерированный SVG-файл не только имеет законченную структуру, но и анимация вращения лопастей вентилятора очень реалистична.
Затем я нарисовал пеликана, едущего на велосипеде — необычное сочетание, которое стало испытанием для пространственного воображения ИИ. В результате получилась графика с чёткими пропорциями, с позой пеликана и перспективой велосипеда, переданными довольно точно.

▲Задание: Создайте код SVG-изображения пеликана, едущего на велосипеде, как можно более красиво.
Что касается способности к рассуждению, я использовал классическую задачу «Обезьяна и персики». Ответ Джемини был не только верным, но и дважды проверенным.
Пять обезьян нашли кучу персиков на пляже и решили разделить их поровну на следующий день. Первая обезьяна пришла рано утром. Не сумев правильно разделить персики, она бросила один в море, образовав пять равных групп. Обезьяна забрала свою долю. Вторая, третья, четвёртая и пятая обезьяны столкнулись с той же проблемой и применили тот же метод, каждый раз выбрасывая по одному персику, чтобы образовать пять равных групп. Какое минимальное количество персиков может быть в куче?

Что еще интереснее, мы также проверили его способность понимать «бессмысленную литературу».
Столкнувшись с подобной претенциозной игрой слов — «Понимающий поймёт, невежественный останется невежественным; тайны небес понятны, если их не высказать, но раскрытие тайн небес — это не истинное понимание», — подход Джемини весьма остроумен: сначала он относит это к категории «бессмысленной литературы», чтобы успокоить читателя; затем он исследует глубинные культурные отсылки, такие как даосские концепции «существования и несуществования» и буддийские концепции «формы и пустоты»; наконец, он даёт перевод на простой язык. Этот ответ гораздо более изощрённый, чем просто «это бессмыслица».

Также был включен письменный тест.
Мы попросили Джемини написать «Один день из жизни капли дождя» от первого лица, и она представила прозаическое стихотворение: толпа и ожидание в облаках, веселье падения и спокойствие впадения в реку. Текст богат чувственными деталями — дрожащим прикосновением, визуальным отражением неоновых огней, слышимым воем ветра. Эмоции искренни, а образы богаты. Хотя в нём всё ещё присутствуют следы шаблонного стиля, характерного для «отличных образцов», он уже превзошёл проходной балл.
Справедливости ради, если отбросить в сторону технические характеристики на бумаге, реальная производительность Gemini 3 неоспорима. Способность Google за короткий срок догнать или даже превзойти многолетний опыт OpenAI неотделима от её мощи как одного из немногих поставщиков комплексных решений для ИИ.
Преимущества Google очевидны: автономность вычислительной мощности, обеспечиваемая разработанными ею процессорами серии TPU, в сочетании с крупнейшим в мире хранилищем данных — поисковыми индексами, научной литературой и видеотекой YouTube — обеспечивают мощную поддержку для обучения Gemini. Это также может объяснить, почему он работает стабильнее при обработке информации в режиме реального времени, выполнении многоязычных задач и понимании видео.
Только что Омар Сансевьеро, руководитель отдела взаимодействия с разработчиками DeepMind, написал в X, что сегодняшнее мероприятие было лишь «разминкой», и вскоре будут выпущены новые функции. Учитывая предыдущие слухи, долгожданная Nano Banana 2 действительно может появиться уже совсем скоро.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (WeChat ID: ifanr), где вы сможете как можно скорее получить еще больше интересного контента.
ifanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo