Как Gemini 3 удалось переломить ситуацию, будучи вынужденным вытащить GPT-5.2 в экстренной ситуации? Главный архитектор искусственного интеллекта Google впервые раскрывает секреты.

«Это действительно великая история аутсайдера».
Запуск «Джемини-3» ранним утром 19 ноября нарушил привычное спокойствие. В день запуска он собрал более 54 миллионов посещений по всему миру, установив новый рекорд для платформы.

Триумфальное возвращение Google вызвало шок даже у конкурентов. Как сообщает The Information, столкнувшись с неустанным наступлением Google, генеральный директор OpenAI Сэм Альтман в понедельник в срочном порядке объявил во внутренней служебной записке, что компания перешла в статус «красный код» и готовится мобилизовать все стратегические ресурсы для значительного расширения возможностей ChatGPT.

Как сообщает The Verge со ссылкой на источники, знакомые с ситуацией, OpenAI планирует выпустить модель GPT-5.2 уже на следующей неделе, что станет значительным шагом вперед по сравнению с первоначальным планом на конец декабря.
Это не только косвенно подтверждает внушительное присутствие Gemini 3, но и делает последующую беседу еще более содержательной.
Недавно технический директор DeepMind и новый главный архитектор искусственного интеллекта Google Корай Кавукчуоглу появился в программе интервью Логана Килпатрика, где сказал: «Когда-то мы были последователями, но инновации — единственный выход».
Краткий обзор основных моментов:
1. Корай Кавукчуоглу подчеркивает, что оптимизация Gemini сосредоточена на следующих ключевых областях:
- Инструкции следуют следующему принципу : убедиться, что модель точно понимает и выполняет конкретные потребности пользователя, а не генерирует контент произвольно.
- Интернационализация : расширение возможностей многоязыковой поддержки для обеспечения высококачественного опыта для пользователей по всему миру.
- Возможности агента и инструмента : модель может не только естественным образом использовать наши существующие инструменты и функции, но и писать свои собственные инструменты.
2. Gemini 3 — это «модель совместной работы всей команды Google». В разработке проекта приняли участие команды со всего мира, включая Европу и Азию, включая не только команду DeepMind, но и команды из различных отделов Google.
3. С развитием технологий архитектура и концепции текстовых и графических моделей всё больше сближаются. В прошлом их архитектуры существенно различались, но теперь они становятся всё более похожими. Это естественный результат технологической эволюции: все ищут более эффективные решения, их концепции постепенно унифицируются, и в конечном итоге формируется общий путь развития.
Ссылка на видео:
Ниже представлена транскрипция и перевод полного содержания. (Порядок был изменён.)
Сравнительный анализ — это только первый шаг; обратная связь от пользователей — это шаг второй.
Логан Килпатрик : Всем привет! Добро пожаловать обратно в раздел «Заметки к выпуску». Меня зовут Логан Килпатрик, я из команды DeepMind. Сегодня я с гордостью встречаюсь с Кораем, техническим директором DeepMind и новым главным архитектором ИИ в Google. Корай, спасибо, что присоединились к нам, и я с нетерпением жду более подробного разговора с вами.
Корай Кавукчуоглу : Я тоже с нетерпением жду. Спасибо за приглашение!
Логан Килпатрик : Конечно, Gemini 3 уже вышел. Мы предчувствовали, что эта модель будет хорошо работать, и результаты тестов были весьма впечатляющими, но отзывы пользователей, после того как они получили устройство в руки…
Корай Кавукчуоглу : Это финальный тест. Сравнительный анализ — это только первый шаг; мы также провели множество последующих тестов, в том числе привлекли доверенных тестировщиков к участию в предрелизном тестировании. Поэтому мы можем с уверенностью сказать, что это превосходная модель с выдающимися возможностями. Хотя она не идеальна, отзывы пользователей меня очень удовлетворили.
Похоже, всем очень понравилась модель, и все с одинаковым интересом отнеслись к тем деталям, которые нам кажутся интересными. Так что пока всё идёт хорошо, и всё идёт гладко.
Логан Килпатрик : Да, мы только вчера об этом говорили, и основной темой было то, насколько быстро прогрессирует разработка ИИ. Вспоминая прошлогоднюю конференцию I/O, где мы выпустили Gemini 2.5, слушая демонстрации и рассуждения Сержа о будущем ИИ, я чувствовал, что 2.5 уже была самой передовой моделью, вырвавшейся вперёд во многих измерениях. И вот теперь Gemini 3.0 совершила ещё один прорыв. Мне интересно, что дискуссия о том, сможет ли этот прогресс продолжиться, продолжается. Что вы думаете сейчас?
Корай Кавукчуоглу : Я абсолютно уверен в текущем прогрессе и исследованиях. Находясь на переднем крае исследований, вы увидите, что каждая область полна энтузиазма к инновациям: от обработки данных до предварительной подготовки и тонкой настройки. На каждом этапе рождается множество новых идей и прорывов.
В конечном счёте, всё сводится к инновациям и творчеству. Когда наши технологии действительно влияют на реальный мир и широко используются, мы получаем больше отзывов, расширяем свой охват, и это, в свою очередь, вдохновляет нас на большее.
Более того, я считаю, что будущие проблемы будут более сложными и разнообразными, что принесет новые вызовы, но эти вызовы полезны и приведут нас к всеобщему интеллекту.
Иногда, если взглянуть только на один-два бенчмарка, может показаться, что прогресс замедлился, но это нормально. Бенчмарки устанавливаются, когда становится очевидной определённая техническая проблема. По мере развития технологий они перестают быть синонимом передовых технологий, и именно тогда необходимо устанавливать новые бенчмарки.
Это распространено в области машинного обучения: бенчмаркинг и разработка моделей дополняют друг друга. Бенчмаркинг направляет итерацию модели, и только приблизившись к текущему переднему краю, мы можем определить следующую цель и сформулировать новый бенчмарк.
Логан Килпатрик : Полностью согласен. Например, в ранних тестах HLE все модели достигали точности всего 1–2%, в то время как последние модели DeepMind теперь достигают около 40%, что поразительно. В тестах ArcGIS изначально практически не было моделей, способных справиться с ними, но теперь точность также превышает 40%.
Однако некоторые статические бенчмарки действительно выдержали испытание временем, например, GPQA Diamond. Хотя сейчас мы можем повысить точность лишь примерно на 1%, они всё ещё широко используются и, возможно, близки к насыщению.

Корай Кавукчуоглу : Эти тесты действительно выявляют множество сложных проблем, которые мы ещё не полностью решили, но они всё ещё имеют ценность для тестирования. Возьмём, к примеру, GPQA: нам не нужно стремиться к абсолютной точности выше 90%, поскольку мы уже близки к этой цели, поэтому количество нерешённых проблем естественным образом сокращается.
Поэтому поиск новых горизонтов и установление новых ориентиров имеют решающее значение. Бенчмаркинг — один из способов измерения прогресса, но он не обеспечивает идеального соответствия. В идеале эти два показателя должны быть идеально согласованы, но в реальности они никогда не будут полностью соответствовать друг другу.
Для меня важнейший критерий измерения прогресса: широко ли используется наша модель в реальном мире? Используют ли её учёные, студенты, юристы и инженеры для решения задач? Используют ли её люди для написания, отправки и получения электронных писем и так далее? Истинный прогресс, будь он простым или сложным, заключается в её способности постоянно создавать большую ценность для пользователей во всё большем количестве областей и сценариев. Сравнительный анализ — это всего лишь инструмент, помогающий нам количественно оценить этот прогресс.
Логан Килпатрик : У меня есть вопрос, который, пожалуй, не вызовет споров: Gemini 3 показал себя исключительно хорошо в многочисленных бенчмарк-тестах, был запущен одновременно во всех продуктах Google и экосистемах партнёров и получил очень положительные отзывы пользователей. Какие аспекты, по вашему мнению, нам следует улучшить в преддверии следующего крупного релиза Google? Например, «Мы надеемся добиться лучших результатов в X, Y и Z», или нам стоит сначала насладиться плодами успеха Gemini 3?
Корай Кавукчуоглу : Думаю, у нас получится и то, и другое. Нужно наслаждаться моментом; в конце концов, день релиза стоит того, чтобы его отпраздновать, и команда должна гордиться своими достижениями. Но в то же время мы ясно видим, что у модели есть недостатки в различных областях: её способность писать неидеальна, а её способность к кодированию нуждается в доработке.
Особенно в области действий агентов и программирования, здесь ещё есть значительный потенциал для совершенствования, что является наиболее перспективной областью для роста. Нам необходимо определить области для оптимизации и продолжить работу над ними. Я считаю, что мы добились значительного прогресса: для 90–95% пользователей, занимающихся программированием (будь то инженеры-программисты или творческие люди, разрабатывающие продукты), Gemini 3, вероятно, является лучшим доступным инструментом, но существуют некоторые сценарии, требующие дальнейшей оптимизации.
От «креативного» к «практичному»
Логан Килпатрик : Что вы думаете о «постепенной оптимизации»? Например, от Gemini 2.5 до 3.0 или в других версиях, каковы наши приоритеты оптимизации? Учитывая такое количество доступных сегодня бенчмарков, как мы выбираем направление оптимизации, будь то для всей серии Gemini или конкретно для версии Pro?
Корай Кавукчуоглу : Я думаю, есть несколько ключевых аспектов, которые имеют решающее значение. Во-первых, это соответствие инструкциям . Модель должна точно понимать и выполнять потребности пользователей, а не выдавать случайные ответы, на что мы всегда обращали внимание. Во-вторых, это интернационализация . Бизнес Google охватывает весь мир, и мы хотим, чтобы пользователи по всему миру могли использовать эту модель.
Логан Килпатрик : Действительно, я разговаривал с Тулси сегодня утром, и она упомянула, что эта модель работает исключительно хорошо на некоторых языках, с которыми мы раньше испытывали трудности.
Корай Кавукчуоглу : Это действительно здорово. Поэтому нам нужно продолжать уделять внимание этим направлениям, которые, возможно, не являются передовыми, но имеют решающее значение для взаимодействия с пользователем. Как я уже говорил, нам важно получать обратную связь от пользователей.
В более технических областях также чрезвычайно важны вызовы функций, вызовы инструментов, действия агентов и возможности кода.
Вызовы функций и инструментов могут значительно усилить интеллектуальный эффект мультипликатора модели: модель может не только естественным образом использовать наши существующие инструменты и функции, но и создавать собственные инструменты. По сути, сама модель также является инструментом.
Навыки программирования важны не только потому, что в нашей команде много инженеров, но и потому, что код — основа цифрового мира. Будь то разработка программного обеспечения или воплощение любой идеи в реальность, код незаменим. Он позволяет глубоко интегрировать модели во многие аспекты жизни людей.
Например, я очень оптимистично отношусь к «вайб-кодингу». Многие люди креативны, но не умеют воплощать свои идеи в жизнь. Вайб-кодинг позволяет им перейти от «творчества» к «практичности»: просто запишите свои идеи, и вы увидите, как перед вами появится соответствующее приложение, и в большинстве случаев оно будет работать идеально.
Этот замкнутый цикл от идеи до продукта фантастичен: он дает большему количеству людей возможность стать творцами.

Логан Килпатрик : Это потрясающе! Это идеальный аргумент в пользу AI Studio, и мы смонтируем этот ролик и выложим его в сеть. Вы упомянули важную тему: запуск платформы Google Anti-Gravity одновременно с запуском Gemini 3. Насколько, по вашему мнению, важна эта архитектура продукта для повышения качества моделей? Очевидно, что она тесно связана с использованием инструментов и возможностями программирования.
Корай Кавукчуоглу : Для меня это крайне важно. Сама платформа действительно впечатляет, но с точки зрения модели это улица с двусторонним движением. Во-первых, модель может получать обратную связь от конечных пользователей (разработчиков программного обеспечения), напрямую интегрируясь с ними, что помогает понять, в каком направлении её необходимо улучшить, и это крайне важно для нас.
Как и Gemini и AI Studio, платформа Anti-Gravity является ещё одним примером. Эти продукты позволяют нам тесно взаимодействовать с пользователями и получать реальную обратную связь, что является огромным преимуществом. Хотя платформа Anti-Gravity была ключевым партнёром по запуску лишь недолгое время, её отзывы сыграли решающую роль в подготовке к запуску в последние две-три недели.
То же самое относится и к поиску режимов ИИ, по которым мы получили множество отзывов. Сравнительный анализ помогает нам развивать интеллект в таких областях, как наука и математика, но понимание реальных сценариев использования не менее важно; модели должны уметь решать реальные задачи.
Gemini 3 — модель для полноценной совместной работы команды Google.
Логан Килпатрик : Ваши обязанности на посту нового главного архитектора ИИ выходят за рамки простого обеспечения превосходных моделей; вы также побуждаете команды разработчиков внедрять эти модели и создавать выдающийся пользовательский опыт во всех продуктах Google. Одновременный запуск Gemini 3 во всех продуктах Google в день релиза стал огромным сюрпризом для пользователей, и мы надеемся, что в будущем он охватит ещё больше продуктов. С точки зрения DeepMind, добавляет ли такое межкомандное сотрудничество дополнительную сложность? В конце концов, полтора года назад всё, вероятно, было гораздо проще.
Корай Кавукчуоглу : Но наша цель — развивать интеллект, верно? Многие спрашивают меня, есть ли конфликт между должностями технического директора и главного архитектора ИИ, но для меня эти две роли по сути одинаковы.
Чтобы создать интеллектуальные решения, необходимо взаимодействие между продуктами и пользователями. Моя главная цель — обеспечить использование самых передовых технологий во всех продуктах Google. Мы не команда разработчиков продуктов, а скорее разработчики технологий. Мы отвечаем за разработку моделей и технологий. Конечно, у нас есть собственное мнение о продуктах, но, что самое важное, мы предоставляем техническую поддержку наилучшим образом, сотрудничая с командами разработчиков продуктов для создания лучших продуктов в эпоху ИИ.
Это новая эра, в которой новые технологии меняют ожидания пользователей, поведение продуктов и способы предоставления информации. Поэтому я надеюсь способствовать расширению технологических возможностей Google, сотрудничая со всеми продуктовыми командами. Это выгодно не только для продуктов и пользователей, но и крайне важно для нас самих.
Только находясь в непосредственной близости от пользователей, мы можем понять их потребности и получить подлинную обратную связь, которая является движущей силой итерации модели. Именно так мы создаём искусственный интеллект общего назначения (ИИО): развиваясь вместе с пользователями через наши продукты.
Логан Килпатрик : Полностью согласен. Это могла бы быть подпись к вашему твиту! Я также считаю, что мы, по сути, создаём искусственный интеллект общего назначения (ИИО) вместе с нашими клиентами и партнёрами — это не изолированное исследование в одной лаборатории, а совместная работа со всем миром.
Корай Кавукчуоглу : Я думаю, что это также «надёжная система тестирования» — мы всё больше внимания уделяем инженерному мышлению. Оно важно, поскольку хорошо спроектированная система более надёжна и безопасна.
При создании реальных продуктов мы активно используем концепцию «доверенного тестирования», что отражается в нашем внимании к безопасности и конфиденциальности: мы закладываем принципы безопасности и конфиденциальности в основу с самого начала, а не добавляем их впоследствии.
Будь то предварительное обучение, тонкая настройка или проверка данных, каждый член команды должен заботиться о безопасности. У нас, безусловно, есть специальные команды по безопасности и конфиденциальности, которые обеспечивают необходимую техническую поддержку, но мы предпочитаем, чтобы все члены команды Gemini принимали активное участие в процессе, интегрируя вопросы безопасности и конфиденциальности на каждом этапе разработки. Эти команды также входят в команду тонкой настройки.
Поэтому при итерации моделей и выпуске версий-кандидатов мы не только опираемся на результаты бенчмарк-тестов, таких как GPQA и HLE, но и тщательно анализируем показатели безопасности и конфиденциальности. Этот инженерный подход имеет решающее значение.
Логан Килпатрик : Полностью согласен. Это также соответствует корпоративной культуре Google: в конце концов, выпуск модели Gemini — это масштабное мероприятие, требующее глобальной командной работы.
Корай Кавукчуоглу : Говоря о Gemini 3, я думаю, самой примечательной особенностью является то, что это «модель для полноценного сотрудничества команды Google».
Логан Килпатрик : Мы можем посмотреть соответствующие данные. Это, пожалуй, один из самых многочисленный проектов в истории, как и программа НАСА «Аполлон». Это огромный глобальный проект.
Корай Кавукчуоглу : Совершенно верно, это глобально.
Логан Килпатрик : Невероятно, что все команды Google были задействованы.
Корай Кавукчуоглу : Внесли свой вклад команды со всего мира, включая Европу и Азию, не только команда DeepMind, но и различные отделы Google. Это был огромный коллективный труд: выпустить его одновременно с AI Mode и приложением Gemini было непростой задачей.
Эти команды разработчиков тесно сотрудничали с нами на этапе разработки модели, благодаря чему мы смогли запустить её одновременно на всех платформах в день релиза. Термин «полное участие Google» относится не только к командам, непосредственно участвовавшим в разработке модели, но и ко всем командам, которые выполняли свои обязанности и вносили свой вклад.
Nano Banana — спонтанное название, сложившееся естественным образом.
Логан Килпатрик : Ещё одна тема, которая меня интересует, — это модели генеративных медиа. Хотя мы всегда ими интересовались, раньше им не уделялось особого внимания. Однако с выпуском моделей Veo 3, Veo 3.1 и Nano Banana мы добились значительных успехов в реализации продуктов.
Мне интересно, как вы оцениваете роль генеративных видеомоделей в развитии общего искусственного интеллекта (ОИИ)? Иногда мне кажется, что видеомодели не имеют никакого отношения к ОИИ, но при ближайшем рассмотрении оказывается, что они связаны с пониманием мира и законов физики, поэтому эти два понятия должны быть взаимосвязаны.
Корай Кавукчуоглу : 10–15 лет назад генеративные модели были в основном сосредоточены на области изображений, поскольку в то время мы могли лучше наблюдать процесс генерации изображений, а понимание мира и физических законов также было основной целью моделей генерации изображений.
Исследования Google в области генеративных моделей начались 10 лет назад, а то и раньше. Когда я был аспирантом, все работали над генеративными моделями изображений, такими как пиксельные свёрточные нейронные сети (Pixel CNN). Позже мы поняли, что прогресс в области текстов будет ещё быстрее.
Однако важность моделей изображений вновь стала очевидной. DeepMind давно накопила значительный технический потенциал в области моделей изображений, видео и аудио, поэтому интеграция этих технологий с текстовыми моделями стала естественным шагом вперёд.
Мы всегда подчеркивали мультимодальность, включая мультимодальность ввода и мультимодальность вывода. С развитием технологий архитектура и концепции текстовых и графических моделей всё больше сближаются. Раньше их архитектуры существенно различались, но теперь они становятся всё более похожими. Это не то, что мы намеренно продвигали, а скорее естественный результат технологической эволюции: все ищут более эффективные решения, их концепции постепенно унифицируются, и в конечном итоге формируется общий путь развития.
Основная ценность этого слияния заключается в том, что текстовые модели обладают богатым знанием мира, в то время как модели изображений воспринимают мир с другой точки зрения. Сочетание этих двух моделей позволяет модели лучше понимать намерения пользователя и создавать более неожиданные результаты.
Логан Килпатрик : У меня есть ещё один вопрос о Nano Banana: как вы считаете, стоит ли дать всем моделям какие-нибудь интересные названия? Это поможет?
Корай Кавукчуоглу : Не обязательно. Я считаю, что названия должны возникать естественным образом, а не выбираться намеренно. Например, мы не придумывали название «Джемини-3» намеренно.
Логан Килпатрик : Если бы «Джемини-3» назывался иначе, как бы вы его назвали? Было бы это название забавным?
Корай Кавукчуоглу : Не знаю, я не очень хорош в названиях. На самом деле, у наших моделей Gemini есть внутренние кодовые имена, некоторые из которых генерируются самой моделью Gemini, но у Nano Banana их нет; он не был сгенерирован моделью.
За этим названием стоит история, которая, как мне кажется, уже была раскрыта. Думаю, если название возникает естественно и спонтанно, этого достаточно. Важно, чтобы команда, создающая модель, могла иметь с ним эмоциональную связь.
Название «Nano Banana» было сохранено, потому что мы использовали это кодовое имя во время тестирования, и оно всем понравилось; оно распространилось спонтанно. Думаю, сложно намеренно создать такое естественное название. Если у вас есть своё, используйте его; если нет, можно использовать и стандартное.
Логан Килпатрик : Давайте поговорим о Nano Banana Pro, современной модели генерации изображений, созданной на базе Gemini 3 Pro. Я слышал, что после завершения Nano Banana команда обнаружила, что обновление до версии Pro значительно повысило производительность в более детализированных сценариях, таких как рендеринг текста и понимание окружающего мира. Что вы думаете об этой разработке?
Корай Кавукчуоглу : Это как раз и есть проявление интеграции различных технологий. Мы всегда говорили, что каждая версия Gemini представляет собой семейство моделей, таких как Pro, Flash и т. д., с разными размерами моделей, что даёт компромиссы в плане скорости, точности и стоимости. То же самое относится и к моделям генерации изображений, что, естественно, приводит к появлению продуктов с разным позиционированием.
Основываясь на архитектуре Gemini 3.0 Pro и сочетая опыт работы с моделью первого поколения, команда создала более мощную модель генерации изображений, расширив её масштаб и оптимизировав методы настройки, что вполне разумно. Её основное преимущество заключается в обработке сложных сценариев: например, при вводе большого количества сложных документов модель может не только отвечать на актуальные вопросы, но и генерировать соответствующую инфографику, причём с превосходными результатами. Это проявление естественного слияния входной и выходной мультимодальности, что само по себе фантастично.

Логан Килпатрик : Да, это как волшебство! Надеюсь, к моменту выхода этого видео все уже видели примеры; некоторые из внутренних случаев, которыми мы делимся, действительно поразительны.
Корай Кавукчуоглу : Полностью согласен! Когда видишь модель, способную представить огромные объёмы текста и сложные концепции в виде чёткого и интуитивно понятного изображения, ты по-настоящему поражаешься. Это прямая демонстрация возможностей модели.
Логан Килпатрик : И есть много деталей, которые стоит оценить. У меня есть ещё один вопрос по теме: в декабре прошлого года Тулси обещала, что мы выпустим единую модель контрольно-пропускного пункта Gemini. Означает ли то, что вы только что описали, что мы уже очень близки к этой цели?
Корай Кавукчуоглу : Исторически архитектура генеративных моделей была последовательной…
Логан Килпатрик : Думаю, наша цель — действительно интегрировать эти функции в модель, но в реальности определённо есть некоторые препятствия. Можете ли вы объяснить это с макроэкономической точки зрения?
Корай Кавукчуоглу : Как я уже говорил, технологии и архитектура конвергентны, и эта конвергенция — неизбежная тенденция, но её необходимо проверить. Мы не можем полагаться на субъективные предположения; мы должны следовать научному методу: формулировать гипотезы, проводить испытания и наблюдать за результатами. Иногда это удаётся, иногда нет, но таков процесс технологического прогресса.
Мы постепенно приближаемся к нашей цели, и я верю, что в ближайшем будущем мы увидим более унифицированную модель, но это потребует много инноваций.
На самом деле это довольно сложно — выходное пространство модели критически важно, поскольку оно напрямую связано с качеством усвоенного сигнала. В настоящее время наши усвоенные сигналы в основном поступают из кода и текста, поэтому модель хорошо работает в этих областях.
Однако генерация изображений — это нечто иное: она требует исключительно высокого качества, требуя не только точности на уровне пикселей, но и согласованности концепции изображения, то есть каждый пиксель должен соответствовать логике всего изображения. Добиться одновременной генерации качественного текста и изображений очень сложно. Но я считаю, что это вполне осуществимо; нужно лишь найти подходящее направление для развития модели.
Логан Килпатрик : Это так здорово! Надеюсь, это также повысит эффективность нашей работы, например, благодаря единой контрольной точке модели.
Корай Кавукчуоглу : Трудно сказать, но это весьма вероятно.
Все построено на обучении.
Логан Килпатрик : У меня есть ещё один вопрос о кодировании и использовании инструментов. Оглядываясь назад на разработку Gemini: версия 1.0 была сосредоточена на многомодальных вычислениях, а версия 2.0 начала создавать инфраструктуру. Несмотря на быстрый прогресс, почему мы с самого начала не достигли передовых технологий в использовании инструментов агентов в многомодальной области? Ведь Gemini 1.0 неизменно лидировала в области многомодальных вычислений.
Корай Кавукчуоглу : Не думаю, что это было сделано намеренно. Честно говоря, я думаю, это тесно связано с тем, насколько среда разработки модели приближена к реальному миру. Чем ближе она к реальности, тем лучше она понимает реальные потребности пользователя.
Разработка Gemini — это также процесс перехода от «чистых исследований» к «инженерному мышлению» и глубокой интеграции с продуктом. У Google есть обширная база в области исследований ИИ и множество выдающихся исследователей, но особенность Gemini заключается в том, что она позволила нам перейти от «написания статей и проведения исследований» к «совместной разработке продуктов с пользователями».
Я горжусь нашей командой — большинство из нас, включая меня, четыре-пять лет назад занимались публикацией статей и исследованиями в области искусственного интеллекта. Теперь мы находимся на переднем крае технологий, совместно внедряя технологические инновации через продукты и пользователей.
Эта трансформация поразительна: мы выпускаем новую модель каждые шесть месяцев и обновляем её каждые один-полтора месяца. Я считаю, что именно в этом процессе мы постепенно улучшили наши возможности использования инструментов интеллектуальных агентов.
Логан Килпатрик : Ещё один интересный момент: DeepMind теперь может похвастаться множеством ведущих в мире продуктов в области искусственного интеллекта, таких как Vibe Coding, AI Studio, Gemini и платформа Anti-gravity. У Google также есть множество передовых моделей, таких как Gemini 3, Nano Banana и Veo. Десять, а то и пятнадцать лет назад мир был совершенно другим.
Мне любопытно. Оглядываясь на свою карьеру, вчера вы упомянули, что были первым исследователем глубокого обучения в DeepMind, что удивило меня и других. С тех пор, как 13 лет назад (в 2012 году) к глубокому обучению относились скептически, и до сегодняшнего дня, когда эта технология лежит в основе множества продуктов и стала движущей силой, что вы думаете об этом? Было ли всё это ожидаемо или стало для вас сюрпризом?
Корай Кавукчуоглу : Я думаю, это идеальный результат. Как и все, кто стремится получить докторскую степень, ты убеждаешься, что твоя работа важна и окажет значительное влияние — таков был мой настрой в то время.
Поэтому, когда Деми и Шейн связались со мной и рассказали, что DeepMind — это команда, специализирующаяся на создании систем интеллекта, в основе которой лежит глубокое обучение, я был невероятно воодушевлён. Мы с моим другом Карлом Грегером (оба мы работали в лаборатории Яна в Нью-Йоркском университете) присоединились к DeepMind одновременно. В то время стартапы, ориентированные на глубокое обучение и ИИ, были большой редкостью, поэтому концепция DeepMind была поистине выдающейся, а работа там — невероятно увлекательной. Позже я создал собственную команду специалистов по глубокому обучению и наблюдал, как она растёт и процветает.
Моё отношение к глубокому обучению всегда было следующим: основывать его на первопринципах и придерживаться мышления, «основанного на обучении», что также является основной философией DeepMind: всё построено на обучении.
Оглядываясь назад на этот путь, от ранних DQN, AlphaGo, AlphaZero и AlphaFold до нынешнего Gemini, я могу сказать, что это поистине волнующий опыт. Мы всегда двигались вперёд с позитивными ожиданиями, но в то же время чувствуем себя очень счастливыми.
Нам повезло жить в эту эпоху. Многие посвятили свою жизнь ИИ или своим увлечениям, надеясь стать свидетелями технологического взрыва, и вот он действительно произошёл. Развитие ИИ обусловлено не только достижениями в области машинного и глубокого обучения, но и неотделимо от развития аппаратного обеспечения, интернета и данных — все эти факторы внесли свой вклад в сегодняшнюю ситуацию. Поэтому я горжусь тем, что выбрал область ИИ, и считаю, что мне повезло жить в эту эпоху. Это действительно захватывающе.
Логан Килпатрик : Недавно я посмотрел серию видеороликов «Игра в мышление» и узнал об истории AlphaFold. Я не был свидетелем той эпохи лично, поэтому знаю о ней только по материалам и рассказам других людей. Вы участвовали в нескольких важных проектах DeepMind. Чем, по вашему мнению, ваша текущая работа отличается от предыдущей? Например, ранее вы упомянули, что «мы освоили методы создания моделей». Чем это ощущение похоже или отличается от ваших предыдущих проектов?
Корай Кавукчуоглу : Как организовать команду и создать культуру, необходимую для успешного решения сложных научных и технологических задач? Я считаю, что мы накопили богатый опыт, работая над множеством проектов, от DQN, AlphaGo и AlphaZero до AlphaFold, каждый из которых оказал огромное влияние. Мы научились организовывать большие команды для работы над конкретными целями и задачами.
Помню, на заре DeepMind у нас было 25 человек, которые работали вместе над проектом по публикации статьи. Многие задавались вопросом, как 25 человек вообще могут работать над одной статьей, но мы справились. Столь масштабное сотрудничество редко встречается в научных исследованиях, но мы добились его благодаря эффективной организации. Этот опыт и подход развивались со временем и стали всё более важными.
За последние два-три года мы также внедрили инженерное мышление: у нас есть основное направление развития модели, и мы научились проводить исследования, исходя из этого основного направления.
Я думаю, Deep Think — хороший пример: мы использовали его для участия в соревнованиях высшего уровня, таких как Международная математическая олимпиада (IMO) и Международный студенческий чемпионат по программированию (ICPC). Задачи на этих соревнованиях чрезвычайно сложны, и многие хотели бы адаптировать модель специально для этого соревнования, но мы решили использовать его как возможность оптимизировать нашу существующую модель.
Мы твёрдо верим в универсальность технологий. В рамках конкурсов мы исследуем новые идеи, интегрируем их в существующие модели и в конечном итоге создаём модели, готовые к участию в соревнованиях самого высокого уровня, которые затем делаем доступными для всех.
Логан Килпатрик : Это напоминает мне параллель: раньше над статьёй работали 25 человек, а теперь список авторов Gemini 3 может насчитывать 2500 человек — многие могут подумать: «Как вообще 2500 человек могут быть вовлечены?», но это правда. Этот способ решения проблем посредством масштабного сотрудничества поистине удивителен.
Корай Кавукчуоглу : Это очень важно, и именно в этом заключается сила Google. Google обладает полным спектром технических возможностей, которые могут быть полезны нам: от центров обработки данных, чипов и сетей до развертывания крупномасштабных моделей — на каждом этапе присутствуют эксперты.
Возвращаясь к теме инженерного мышления, эти аспекты неразделимы. При проектировании модели мы учитываем оборудование, на котором она будет работать; а при проектировании оборудования следующего поколения мы предвидим будущее направление развития модели. Это сотрудничество прекрасно, но координация стольких аспектов требует поистине объединённых усилий тысяч людей. Мы должны признать ценность этого сотрудничества; оно поистине замечательно.
Логан Килпатрик : Это непростая задача. Возвращаясь к традициям DeepMind: мы всегда применяли междисциплинарный научный подход, стремясь решить множество интересных задач. И теперь мы наглядно продемонстрировали эффективность этой технологии в различных областях; нам просто нужно продолжать её масштабировать. Конечно, это также требует инноваций.
Как, по вашему мнению, DeepMind сегодня совмещает «чисто научные исследования» и «расширение масштабов Gemini»? Например, «модель диффузии Gemini» — это проявление такого подхода к принятию решений.
Корай Кавукчуоглу : Это самый важный вопрос: важно найти баланс между этими двумя понятиями.
Многие спрашивают меня, в чём главный риск Близнецов? Я тщательно обдумал этот вопрос, и ответ — «отсутствие инноваций». Я совершенно не верю, что мы нашли «универсальную формулу», которой можно просто следовать шаг за шагом.
Наша цель — создание всеобщего интеллекта, что требует глубокой интеграции с пользователями и продуктами. Однако сама эта цель остаётся крайне сложной, и у нас нет готовых решений. Инновации — ключевая движущая сила для достижения этой цели.
Инновации могут иметь разные масштабы и направления: в рамках проекта Gemini мы исследуем новые архитектуры, новые идеи и новые методы; в то же время в целом Google DeepMind также будет проводить больше междисциплинарных исследований, поскольку некоторые идеи могут оказаться слишком ограниченными в рамках проекта Gemini для их полной реализации.
Поэтому Google DeepMind и Google Research должны совместно изучать различные идеи, а затем интегрировать эти идеи в Gemini, поскольку Gemini — это не архитектура, а цель: построить общий интеллект, чтобы все продукты Google могли работать на этом движке ИИ.
Независимо от того, какую архитектуру мы в конечном итоге выберем, мы продолжим развиваться, и инновации всегда будут нашей движущей силой. Поиск баланса или развитие исследований разными способами имеет решающее значение.
Логан Килпатрик : У меня есть вопрос по теме: на конференции I/O я разговаривал с Сергеем, и когда вы объединяете столько людей для выпуска моделей и продвижения инноваций, вы чувствуете некое «человеческое тепло» — я глубоко это понимаю. Я сидел рядом с вами в тот момент и тоже чувствовал ваш энтузиазм.
Для меня это очень важно, поскольку отражает общую культуру DeepMind: глубокую научную основу в сочетании с дружелюбной и инклюзивной атмосферой в команде. Многие могут не осознавать важности этой культуры и её влияния на работу. Как вы, как руководитель команды, оцениваете проявление этой культуры?
Корай Кавукчуоглу : Прежде всего, спасибо за комплимент. Он меня немного смущает. Но я искренне верю в силу командной работы и важность доверия и предоставления другим возможностей. Командная работа крайне важна, и я усвоил это за время работы в DeepMind.
Мы начинали как небольшая команда и сохраняли доверие на протяжении всего нашего роста. Я считаю, что крайне важно создать среду, «ориентированную на решение важных и сложных технических и научных задач», и именно этим мы сейчас и занимаемся.
В основе Gemini лежит развитие общего интеллекта — чрезвычайно сложная техническая и научная задача, к которой нам нужно подходить со смирением, постоянно задавая вопросы и совершенствуя себя. Надеюсь, команда тоже это чувствует; я искренне горжусь нашей командой, её сплочёнными усилиями и взаимной поддержкой.
Как я уже говорил с командой в комнате отдыха: «Это тяжело, мы все измотаны, но это нормально при разработке передовых технологий. У нас нет идеальных процессов, но все выкладываются на полную и поддерживают друг друга». Всё это делает интересным и значимым, а также даёт нам смелость противостоять трудностям, во многом благодаря «отличной команде», где все работают вместе, чтобы раскрыть потенциал технологии.
Могу с уверенностью сказать, что архитектура «Большой языковой модели» (LLM), которую мы используем сегодня, определённо устареет через 20 лет. Поэтому постоянное исследование новых направлений — это правильный выбор. Google DeepMind, Google Research и всё академическое исследовательское сообщество должны работать вместе, чтобы развивать исследования в различных областях.
Я считаю, что нам не следует зацикливаться на том, «что правильно, а что нет». Что действительно важно, так это возможности и эффективность технологий в реальном мире.
Логан Килпатрик : И последний вопрос: в первый год работы в Google я лично ощущал «возвращение Google». Несмотря на значительное инфраструктурное преимущество Google, в области ИИ мы, казалось, постоянно догоняли. Например, на ранних этапах разработки AI Studio у нас не было ни пользователей (позже их число выросло до 30 000), ни дохода, а модель Gemini также находилась на ранней стадии развития.
Теперь, с выходом Gemini 3, я недавно получил множество отзывов из разных частей экосистемы, и, похоже, люди наконец осознали, что «эра искусственного интеллекта Google наступила». Вы когда-нибудь чувствовали это чувство «возвращения»? Верили ли вы, что мы сможем достичь того, что имеем сегодня? Как эта смена ролей повлияет на команду?
Корай Кавукчуоглу : По мере того, как потенциал больших языковых моделей (LLM) становится всё более очевидным, я открыто заявляю, что, хотя я считаю DeepMind передовой лабораторией искусственного интеллекта, я также понимаю, что мы, как исследователи, недостаточно инвестировали в некоторые области. Для меня это важный урок: мы должны расширять наши исследования, и инновации имеют решающее значение, а не ограничиваться одной архитектурой.
Я всегда был честен с командой: около 2,5 лет назад, когда мы начали серьёзно относиться к большим языковым моделям и запустили проект Gemini, мы во многом отставали от передовых технологий. Многого мы не знали, и, хотя у нас были свои преимущества, мы всё же находились в фазе догоняющих.
Этот процесс наверстывания упущенного длился долго, и теперь, я считаю, мы вошли в группу лидеров. Я очень доволен темпами нашего развития, динамикой работы команды и ритмом совместной работы. Но нам предстоит преодолеть трудности, связанные с прошлым этапом наверстывания.
В процессе наверстывания упущенного мы должны учиться на сильных сторонах других, сохраняя при этом наши собственные инновации и находя решения, которые нам подходят: будь то технологии, модели, процессы или методы командной работы — все это уникально для нас.
Многие говорят: «Google слишком большой и неэффективный», но я верю, что это можно превратить в преимущество. У нас есть возможность делать уникальные, масштабные вещи, например, сделать Gemini доступным во всех продуктах Google одновременно. Я очень доволен своим нынешним положением, но этого удалось достичь благодаря постоянному обучению и инновациям. Это поистине замечательная история «возвращения».
Конечно, сравнения всегда будут, но наша цель остается прежней: развитие всеобщего интеллекта, и мы хотим достичь этого правильным способом, посвящая этому все наши усилия и инновации.
Логан Килпатрик : Думаю, следующие шесть месяцев будут такими же захватывающими, как и предыдущие, и даже шесть месяцев до этого. Ещё раз спасибо, что нашли время для этого интервью, было очень приятно! Надеюсь, мы сможем пообщаться до конференции I/O в следующем году.
Хотя кажется, что прошло много времени, время определённо пролетит незаметно. Думаю, на следующей неделе состоится плановое совещание конференции I/O 2026. Ещё раз поздравляю вас, команду DeepMind и всех исследователей моделей с успешным запуском Gemini 3, Nano Banana Pro и ряда других продуктов!
Корай Кавукчуоглу : Спасибо! Этот обмен мнениями был просто фантастическим. Спасибо команде за усердную работу и за приглашение!
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (WeChat ID: ifanr), где вы сможете как можно скорее ознакомиться с еще более интересным контентом.
ifanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo