Годовая плата превышает 20 000! Маск только что выпустил самый дорогой ИИ, Grok 4, который превзойдёт всех докторов наук во всех областях.

10 июля, 2025 Дядя Влад

Маск сдерживался почти полгода и наконец представил Grok 4.

На этот раз его тон был по-прежнему довольно резким. Перед запуском он сделал смелое заявление, заявив, что Grok 4 «перепишет базу знаний человечества». Во время запуска Маск вновь подчеркнул, что Grok 4 на данный момент является самым умным искусственным интеллектом в мире.

Да, знакомый вкус, знакомый рецепт.

Конечно, все привыкли, что Маск расхваливает собственные продукты, но, как шутят пользователи сети, можно смеяться над сотрудниками xAI, спящими в офисных палатках или работающими до 4:20 утра по выходным, но нужно признать, что они действительно являются одной из самых быстрорастущих лабораторий ИИ.

Можно ли назвать Grok 4 «самым умным ИИ», зависит от реального опыта. Однако одно можно сказать наверняка: он стал самым дорогим ИИ на рынке, с годовой подпиской до 3000 долларов. Такая ценовая политика весьма неэтична.

Самый умный ИИ в мире? Самый дорогой ИИ в мире!

Путь обучения в Grok делится на два основных этапа: предварительная подготовка и обучение с подкреплением. С Grok 2 по Grok 3 основное внимание уделяется предварительной подготовке, а с Grok 3 по Grok 4 — обучению с подкреплением, где основной упор делается на развитие способности к рассуждению.

Маск постарался преуменьшить значение инцидента, но обучение оказалось не из легких.

По сравнению с Grok 2 объем тренировочных вычислений Grok 4 увеличился на два порядка, что эквивалентно 100-кратному увеличению, и он продолжает расширяться.

Маск заявил, что Grok 4 превзошёл докторский уровень по всем основным дисциплинам. Хотя в настоящее время проект не способен разрабатывать новые теории или оригинальные технологии, по его мнению, это лишь вопрос времени.

Он даже сказал, что к концу этого года Grok, возможно, сможет изобрести новые технологии, а в следующем году он почти наверняка сможет открыть новые законы физики.

Конечно, настоящая задача — соединить ИИ с реальным миром.

Он сказал, что сочетание Грока и гуманоидного робота Оптимуса создаст замкнутую систему мышления, которая будет выдвигать гипотезы, проверять их и исследовать реальность. Это откроет эпоху взрывного развития интеллекта и станет самым захватывающим звеном в истории человечества.

С точки зрения формы продукта Grok 4 представляет собой модель с одним агентом, тогда как Grok 4 Heavy представляет собой версию с несколькими агентами.

Первый вариант проще для понимания, тогда как второй позволяет нескольким агентам мыслить параллельно, проводить горизонтальные сравнения и вертикальное сотрудничество в процессе рассуждений, а также задействовать более масштабные вычислительные ресурсы для выполнения более сложных и замысловатых задач.

Во время живой демонстрации Grok 4 Heavy продемонстрировал возможности множества сценариев.

Например, пусть Grok 4 Heavy спрогнозирует вероятность победы в Мировой серии MLB в этом году. С помощью поиска информации, моделирования данных и расчёта вероятностей программа оценивает шансы «Лос-Анджелес Доджерс» на победу в чемпионате в 21,6% и выдаёт весь процесс прогнозирования за 4,5 минуты.

Другой пример — казалось бы, бессмысленная задача: найти в команде xAI человека с самым странным аватаром. Опираясь на базу данных платформы X, модель автоматически распознала и проанализировала стиль аватара, и в итоге выбрала сооснователя Грега Янга.

Интересно, что, хотя модель точно распознает субъективное понятие «странности» и может делать относительные выводы среди похожих людей, при просмотре демоверсии я, кажется, увидел фотографию профиля сотрудника Anthropic Яна Лейке, так что, похоже, точность нужно улучшить.

Помимо рассуждений и поиска, Grok также может генерировать временные шкалы контента.

Например, основываясь на публичных публикациях на платформе X, он может анализировать результаты бенчмарк-тестов различных моделей ИИ, скорость обновления решений производителями и реакцию сообщества. Пользователи могут наглядно оценить производительность OpenAI, количество итераций обновления Gemini и даже оценить конкурентную ситуацию между моделями.

Другими словами, Грок — не какой-нибудь зануда, который умеет только сдавать экзамены, а искусственный интеллект, который действительно способен понимать и выполнять различные сценарии.

В настоящее время самым большим недостатком Grok по-прежнему остаётся его способность к мультимодальному пониманию, особенно в области понимания и генерации изображений, которую ещё предстоит улучшить. Хорошая новость заключается в том, что следующий этап обучения базовой модели уже на подходе и, как ожидается, будет завершён через несколько недель.

В ходе демонстрации, при тестировании задачи визуализации «процесса столкновения двух черных дыр», Грок применил упрощенный метод расчета — используя постньютоновское приближение вместо полной схемы общей теории относительности.

Несмотря на упрощения, модель по-прежнему точно отображает ключевые физические стадии слияния чёрных дыр, включая «спиральное сближение», «слияние» и «стадию звона», и позволяет наглядно объяснить используемые приближенные методы. Кроме того, модель использует соответствующие учебники, результаты поиска в открытом доступе и реальные физические константы для обоснования рассуждений, общая логическая цепочка строга, а объяснение понятно.

С точки зрения параметров бумаги Grok 4 также дал впечатляющий ответ.

«Последний экзамен человечества» (HLE) охватывает более 100 предметов, включая математику, физику, информатику, медицину, гуманитарные и общественные науки, и включает в общей сложности 2500 вопросов с закрытыми ответами. Тест чрезвычайно сложен и может по-настоящему отразить всестороннюю эффективность модели в области общих знаний и сложных рассуждений.

По данным xAI, Grok 4 набрал 25,4% без использования каких-либо инструментов, превзойдя Google Gemini 2.5 Pro с его 21,6% и OpenAI o3 (версия high-end) с его 21%.

При использовании инструментов Grok 4 Heavy набрал 44,4%, что значительно выше, чем 26,9% у Gemini 2.5 Pro после использования инструментов. Исходя из общей тенденции, Grok 4 не только улучшает способность к обработке сложных задач, развивая навыки использования инструментов и цепочного мышления, одновременно расширяя тренировочные ресурсы, но и постепенно сокращая разрыв между модельным интеллектом и общими когнитивными способностями.

Некоммерческая организация Arc Prize также отметила, что Grok установил новый рекорд в своём тесте ARC-AGI-2 — тесте на визуальное мышление, в котором искусственный интеллект распознаёт закономерности на изображениях. Результат Grok — 16,2% — почти вдвое превышает результат текущего финалиста, Claude Opus 4.

В некоторых распространённых тестах Grok 4 Heavy набрал почти максимальный балл. В задании докторского уровня GBQA, несмотря на то, что общая сложность немного ниже, чем у HLE, Grok 4 Heavy всё же набрал максимальный балл, продемонстрировав высокие способности к рассуждению и пониманию.

Кроме того, Grok 4 Heavy также показывает хорошие результаты во многих тестах, связанных с программированием, включая Live Coding, HMMT (Mathematics Competition MIT) и USAMO (Mathematical Olympiad United States), значительно превосходя текущую модель, занимающую второе место, а ее технические преимущества совершенно очевидны.

Кроме того, известная аналитическая организация Artificial Analysis оценила комплексную производительность нескольких основных крупных моделей с помощью 7 бенчмарков, связанных с логическими рассуждениями (MMLU-Pro, GPQA Diamond, Humanity's Last Exam, LiveCodeBench, SciCode, AIME и MATH-500).

Данные показывают, что Grok 4 занимает первое место с результатом 73 балла, что на данный момент является моделью с наивысшим комплексным баллом по способности к рассуждению. За ним следует o3-pro (приблизительное значение) с 71 баллом.

Маск также подчеркнул:

В будущем Grok будет отвечать правильно практически на каждый вопрос на всех экзаменах. Если он не сможет ответить на вопрос, он укажет на ошибку в вопросе или на его неоднозначность и предложит возможные ответы в различных ситуациях. К тому времени традиционные экзамены потеряют смысл. Единственным стандартом тестирования для ИИ станет реальный мир: сможет ли он изобрести полезные технологии и способствовать научным прорывам. Поэтому банки тестовых вопросов, такие как HLE, необходимо обновлять как можно скорее, поскольку при нынешних темпах развития ИИ они скоро устареют.

В настоящее время Grok 4 и Grok 4 Heavy полностью запущены. Доступ к ним осуществляется по подписке, однако её стоимость несколько «несправедлива» — до 3000 долларов в год, что стало причиной многочисленных жалоб пользователей.

Для сравнения, пакеты OpenAI, Anthropic и Perplexity стоимостью 200 долларов в месяц кажутся гораздо более доступными.

Стоит отметить, что вскоре после релиза некоторые пользователи сети сообщили об успешном «джейлбрейке» моделей Grok-4 и Grok-4-Heavy. Возможности джейлбрейка чрезвычайно опасны и позволяют обходить защитные барьеры и выдавать конфиденциальную или незаконную информацию, например, этапы синтеза химического оружия, полный сценарий «Звёздных войн 1» (предположительно, нарушающий авторские права) и даже вредоносный код-вымогатель.

Grok Voice не только говорит, но и имеет душу.

Помимо более развитых способностей к рассуждению и более высокого интеллекта, Grok 4 также сделал большой шаг вперед в плане становления более похожим на человека.

В отличие от привычных нам голосовых помощников, новый голосовой помощник «Ева» от xAI может не только отвечать на вопросы, но и выражать эмоции, менять тон и даже «петь» на ходу.

Во время живой демонстрации он спел импровизированную «Арию диетической колы» с элегантным британским акцентом: «О диетическая кола, божественный эликсир…» На самом деле это звучало не как ИИ, а скорее как выступление актера на сцене лондонского театра.

Всего в этой голосовой модели было запущено пять голосов, включая Сала, «мужского голоса из трейлеров фильмов» в начале прямой трансляции, и Еву, которая поддерживает низкую задержку, естественные паузы, эмоциональные подъемы и спады и т. д.

На месте также была организована сравнительная демонстрация с ChatGPT Voice, где участники по очереди повторяли цифры. ChatGPT время от времени «отвечал» на вопросы, словно одноклассник, который перехватывал разговор, не слыша его. Grok говорил более плавно, ближе к человеческой речи, и не перебивал пользователя.

На пресс-конференции было отмечено, что с момента запуска голосовой модели сквозная задержка Grok Voice сократилась в два раза, а количество активных пользователей увеличилось в 10 раз. Grok Voice стремительно развивается.

Маск: Пусть Грок откроет миллион торговых автоматов, чтобы заработать денег

Меня очень впечатлили несколько сценариев применения API Grok 4.

Например, в бизнес-симуляции торгового автомата Vending-Bench Грок должен был самостоятельно выполнить следующие задачи: переговоры с поставщиками, управление запасами, разработку стратегии ценообразования, причем выполнять их непрерывно и поддерживать прибыльность в долгосрочной перспективе.

▲Примечание: Vending-Bench — это тест, специально разработанный для проверки способности агентов, имеющих степень магистра права, управлять простым, но долгосрочным бизнес-сценарием: эксплуатацией торгового автомата.

Результаты испытаний показали, что Grok 4 не только возглавил список, но и заработал вдвое больше чистых активов, чем другие модели. Даже Маск пошутил: «Деньги от покупки видеокарт в будущем можно будет вернуть, если Grok развернет и будет управлять миллионом торговых автоматов».

В области научных исследований Grok 4 использовался в исследованиях генов с использованием технологии CRISPR и рентгенографии грудной клетки. Он способен считывать миллионы экспериментальных записей и журналов за несколько секунд и автоматически отсеивать наиболее вероятные гипотезы.

Кроме того, такие проекты, как финансы и разработка игр, могут быть реализованы с помощью Grok 4 через API xAI. На пресс-конференции был отдельно упомянут гейм-дизайнер. После того, как xAI выпустила предварительную версию API Grok 4, он сразу же принял участие в тестировании. В результате он создал шутер от первого лица всего за 4 часа.

Grok 4 — это ещё не конец. На пресс-конференции наконец-то объявили о дальнейших планах, и каждый из них стоит того, чтобы его с нетерпением ждать.

Модель кода: Grok Code на этот раз не был опубликован, но xAI упомянул, что в настоящее время он обучается, а «быстрая и умная» модель кода будет запущена в течение нескольких недель.
Мультимодальные возможности: Grok 4 пока обладает ограниченными возможностями в распознавании изображений. Команда также заявила, что обучает следующую версию в более крупных масштабах, и ожидается, что это приведёт к качественному улучшению понимания изображений, видео и аудио. К тому времени Grok сможет «видеть мир как человек».
Генерация видео: xAI заявила, что будет использовать масштабные вычислительные ресурсы для обучения моделей генерации видео. Их конечная цель — генерировать видео из изображений и создавать интерактивные «бесконечные видеопотоки», чтобы пользователи могли смотреть и участвовать в сюжете.

Многие из вас, возможно, заметили на этой конференции два знакомых лица из Китая. Это сооснователи xAI — Джимми Ба и Юхуай Ву.

Среди них Юхуай У, окончивший с отличием Университет Нью-Брансуика в Канаде и получивший степень доктора философии в области машинного обучения в Университете Торонто в 2021 году. В этот период он учился у Джеффри Хинтона, «отца глубокого обучения».

Во время обучения в докторантуре он также проходил стажировку в Google DeepMind и OpenAI. После окончания университета он работал в Google и проводил постдокторские исследования в Стэнфордском университете.

Исследования У Юйхуая сосредоточены на создании систем искусственного интеллекта с развитыми возможностями рассуждения. Он руководил или принимал участие в таких проектах, как самообучающаяся модель рассуждения STAR, языковая модель Minerva и программа для доказательства теорем Alpha Geometry. Он также публиковал статьи в ведущих журналах, таких как Nature, способствуя прорывам в области ИИ в области математических рассуждений.

▲ У Юйхуай (второй слева) и Джимми Ба (третий слева)

Рядом с ним сидит Джимми Ба, доцент кафедры компьютерных наук Университета Торонто и один из наставников У Юйхуая во время его обучения в докторантуре.

Он также вышел из школы Хинтона и является ключевой фигурой в области оптимизации глубокого обучения.

Он наиболее известен благодаря разработанному им и его коллегами алгоритму Adam Optimizer (адаптивной оценке моментов), который в настоящее время практически является алгоритмом по умолчанию для обучения глубоких нейронных сетей. Можно сказать, что его докторская диссертация заложила прочную теоретическую основу для современных механизмов обучения искусственного интеллекта.

Надо сказать, что Gork 4 появился в идеальное время.

Популярность предыдущего поколения Grok 3 быстро пришла, но также быстро и сошла на нет.

По данным «Отчета о тенденциях в мировой индустрии генеративного ИИ-технологий 2025», опубликованного известным аналитическим агентством SimilarWeb 9 мая, трафик Grok в марте вырос более чем в 1 миллион раз, однако в мае темпы роста упали до 5200%.

По сравнению с предыдущим поколением, которое было запущено и завершено в спешке, на этот раз Grok 4 явно замедлил темп и уделил больше внимания доводке продукта. В конечном счёте, ореол Маска может помочь Grok привлечь первую волну трафика, но сможет ли он удержать пользователей, зависит от жёсткости самой модели.

Однако, если я правильно помню, когда Маск выпустил Grok 3, он пообещал открыть исходный код Grok 2. Прошло пять месяцев, но никакого прогресса в этом вопросе не было, и никто не упомянул об этом на пресс-конференции.

Бабушка, нельзя быть слишком снисходительной к себе и строгой к другим.

Автор: Чжан Цзихао, Мо Чунюй

#Добро пожаловать на официальный публичный аккаунт WeChat проекта iFanr: iFanr (WeChat ID: ifanr), где в ближайшее время вам будет представлен еще более интересный контент.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo