Как Gemini 3 удалось переломить ситуацию, когда в экстренной ситуации пришлось использовать GPT-5.2? Главный архитектор искусственного интеллекта Google впервые раскрывает секреты.

«Это действительно замечательная история о том, как кто-то добился успеха, несмотря ни на что».

Запуск Gemini 3 ранним утром 19 ноября нарушил привычное спокойствие. В день запуска платформа собрала более 54 миллионов посещений по всему миру, установив новый рекорд для платформы.

Триумфальное возвращение Google вызвало шок даже среди конкурентов. По данным издания The Information, столкнувшись с неустанным наступлением Google, генеральный директор OpenAI Сэм Альтман в понедельник в служебной записке срочно объявил, что компания перешла в режим «красной тревоги» и готовится мобилизовать все стратегические ресурсы для значительного улучшения возможностей ChatGPT.

Как сообщает издание The Verge со ссылкой на источники, знакомые с ситуацией, OpenAI планирует выпустить модель GPT-5.2 уже на следующей неделе, что значительно опережает первоначальные планы, запланированные на конец декабря.

Это не только косвенно подтверждает внушительный внешний вид Gemini 3, но и делает последующий разговор еще более содержательным.

Недавно технический директор DeepMind и новый главный архитектор искусственного интеллекта Google Корай Кавукчуоглу принял участие в программе Логана Килпатрика, где заявил: «Когда-то мы были последователями, но инновации — единственный выход».

Основные моменты вкратце:

1. Корай Кавукчуоглу подчеркивает, что оптимизация в компании Gemini сосредоточена на следующих ключевых областях:

  • Инструкции следуют следующему принципу : необходимо убедиться, что модель точно понимает и удовлетворяет конкретные потребности пользователя, а не генерирует контент произвольно.
  • Интернационализация : Расширение возможностей многоязычной поддержки для обеспечения высокого качества обслуживания пользователей по всему миру.
  • Возможности агента и инструментов : Модель может не только естественным образом использовать наши существующие инструменты и функции, но и разрабатывать собственные инструменты.

2. Gemini 3 — это «модель сотрудничества всей команды Google». В ее создании приняли участие команды со всего мира, включая Европу и Азию, в том числе не только команда DeepMind, но и команды из различных подразделений Google.

3. С развитием технологий архитектура и концепции текстовых и графических моделей все больше сближаются. В прошлом их архитектуры значительно различались, но сейчас они становятся все более похожими. Это естественный результат технологической эволюции: все ищут более эффективные решения, их концепции постепенно объединяются, и в конечном итоге формируется общий путь развития.

Ссылка на видео:

Ниже приведена транскрипция и перевод всего текста. (Порядок строк изменен.)

Сравнительный анализ — это только первый шаг; обратная связь от пользователей — это второй шаг.

Логан Килпатрик : Всем привет, добро пожаловать обратно в рубрику «Примечания к релизу». Я Логан Килпатрик из команды DeepMind. Сегодня для меня большая честь приветствовать Корая, технического директора DeepMind и нового главного архитектора искусственного интеллекта Google. Корай, спасибо, что присоединились к нам, и я с нетерпением жду возможности обсудить с вами все подробнее.

Корай Кавукчуоглу : Я тоже с нетерпением жду этого. Спасибо за приглашение!

Логан Килпатрик : Конечно, Gemini 3 уже выпущен. У нас было предчувствие, что эта модель покажет хорошие результаты, и результаты тестов оказались очень впечатляющими, но отзывы пользователей после того, как они получили устройство в свои руки…

Корай Кавукчуоглу : Это финальное тестирование. Бенчмаркинг — это только первый шаг; мы также провели множество последующих тестов, включая участие доверенных тестировщиков в предварительном тестировании. Поэтому мы можем с уверенностью сказать, что это отличная модель с выдающимися возможностями. Хотя она и не идеальна, отзывы пользователей меня действительно удовлетворили.

Кажется, всем очень нравится эта модель, и все одинаково заинтересованы в тех деталях, которые интересны нам. Так что пока все идет хорошо и гладко.

Логан Килпатрик : Да, мы как раз вчера об этом говорили, и ключевой темой было то, как быстро развивается ИИ. Вспоминая прошлогоднюю конференцию I/O, когда мы выпустили Gemini 2.5, слушая демонстрации и рассуждения Сержа о будущем ИИ, я почувствовал, что 2.5 уже была самой продвинутой моделью, прорывающейся на передний план во многих областях. И теперь Gemini 3.0 совершила еще один прорыв. Мне любопытно, продолжается ли дискуссия о том, может ли этот прогресс продолжаться; каковы ваши нынешние мысли по этому поводу?

Корай Кавукчуоглу : Я очень уверен в текущем прогрессе и исследованиях. Находясь на передовой научных исследований, вы увидите, что каждая область полна энтузиазма к инновациям: от данных, предварительного обучения и тонкой настройки до каждого этапа — появляется множество новых идей и прорывов.

В конечном итоге, все сводится к инновациям и творчеству. Когда наши технологии действительно оказывают влияние на реальный мир и широко используются, мы получаем больше отзывов, расширяется сфера нашего влияния, а это, в свою очередь, порождает еще больше вдохновения.

Более того, я считаю, что будущие проблемы будут более сложными и разнообразными, что принесет новые вызовы, но эти вызовы полезны и будут подталкивать нас к развитию общего интеллекта.

Иногда, если вы посмотрите всего на один или два показателя, может показаться, что прогресс замедлился, но это нормально. Показатели устанавливаются, когда становится очевидной определенная техническая проблема. По мере развития технологий они перестают быть синонимом передовых технологий, и именно тогда возникает необходимость в установлении новых показателей.

В области машинного обучения это распространенная практика: бенчмаркинг и разработка моделей дополняют друг друга. Бенчмаркинг направляет итерации модели, и только приблизившись к текущему передовому уровню, мы можем уточнить следующую цель и затем сформулировать новый бенчмарк.

Логан Килпатрик : Я полностью согласен. Например, в первых тестах HLE все модели достигали точности всего 1-2%, в то время как новейшие модели DeepMind теперь могут достигать около 40%, что просто потрясающе. В тестах ArcGIS изначально почти не было моделей, способных справиться с ними, но теперь точность также превышает 40%.

Однако некоторые статические бенчмарки действительно выдержали испытание временем, например, GPQA Diamond. Хотя сейчас мы можем повысить точность лишь примерно на 1%, он по-прежнему широко используется и, возможно, близок к насыщению.

Корай Кавукчуоглу : Эти тесты действительно представляют множество сложных проблем, которые мы еще не полностью преодолели, но они все же имеют ценность для тестирования. Возьмем, к примеру, GPQA; нам не нужно стремиться к абсолютной точности более 90%, поскольку мы уже близки к этой цели, поэтому количество нерешенных проблем естественным образом уменьшается.

Поэтому поиск новых горизонтов и установление новых ориентиров имеют решающее значение. Бенчмаркинг — это один из способов измерения прогресса, но он не является идеальным совпадением. В идеале эти два подхода должны быть идеально согласованы, но в реальности их никогда нельзя будет идеально сопоставить.

Для меня наиболее важным критерием измерения прогресса является: широко ли используется наша модель в реальном мире? Используют ли её учёные, студенты, юристы и инженеры для решения проблем? Используют ли её люди для написания, отправки и получения электронных писем и так далее? Истинный прогресс, будь то простой или сложный, заключается в его способности постоянно создавать большую ценность для пользователей в большем количестве областей и сценариев. Бенчмаркинг — это всего лишь инструмент, помогающий нам количественно оценить этот прогресс.

Логан Килпатрик : У меня есть вопрос, который не является спорным: Gemini 3 показал исключительно хорошие результаты во многих сравнительных тестах, был запущен одновременно во всех продуктах Google и партнерских экосистемах и получил очень положительные отзывы пользователей. Заглядывая вперед к следующему крупному релизу модели Google, какие аспекты, по вашему мнению, нам нужно улучшить? Например, «Мы надеемся добиться лучших результатов в X, Y и Z», или нам следует сначала насладиться плодами успеха Gemini 3?

Корай Кавукчуоглу : Я думаю, мы можем получить и то, и другое. Нам следует наслаждаться моментом; в конце концов, день релиза стоит отметить, и команда должна гордиться своими достижениями. Но в то же время мы ясно видим, что у модели есть недостатки в различных областях: ее навыки написания кода не идеальны, а навыки программирования нуждаются в улучшении.

Особенно в области работы агентов и программирования еще есть значительный потенциал для улучшения, что является и наиболее перспективной областью для роста. Нам необходимо определить области для оптимизации, а затем продолжать совершенствоваться. Я считаю, что мы добились значительного прогресса: для 90-95% пользователей, связанных с программированием (будь то инженеры-программисты или творческие люди, стремящиеся создавать продукты), Gemini 3, вероятно, является лучшим доступным инструментом, но действительно существуют некоторые сценарии, требующие дальнейшей оптимизации.

От «творческого» к «практическому»

Логан Килпатрик : Что вы думаете о «постепенной оптимизации»? Например, каковы наши приоритеты в оптимизации при переходе от Gemini 2.5 к 3.0 или в других версиях? Учитывая такое количество доступных сегодня бенчмарк-тестов, как мы выбираем направление оптимизации, будь то для всей серии Gemini или конкретно для версии Pro?

Корай Кавукчуоглу : Я думаю, есть несколько ключевых областей, которые имеют решающее значение. Во-первых, это соответствие инструкциям . Модель должна точно понимать и выполнять потребности пользователя, а не выдавать случайные ответы, на что мы всегда делали акцент. Во-вторых, это интернационализация . Бизнес Google охватывает весь мир, и мы хотим, чтобы пользователи по всему миру могли использовать эту модель.

Логан Килпатрик : Действительно, я разговаривал с Тулси сегодня утром, и она упомянула, что эта модель показывает исключительно хорошие результаты на некоторых языках, с которыми у нас раньше были проблемы.

Корай Кавукчуоглу : Это действительно здорово. Поэтому мы должны продолжать уделять внимание этим областям, которые, возможно, не являются передовыми, но имеют решающее значение для взаимодействия с пользователями. Как я уже говорил, нам необходимо получать обратную связь от пользователей.

В более технических областях чрезвычайно важны также вызовы функций, вызовы инструментов, действия агентов и возможности кода.

Вызовы функций и инструментов могут значительно усилить эффект интеллектуального мультипликатора модели: модель может не только естественным образом использовать существующие инструменты и функции, но и создавать собственные инструменты. По сути, сама модель также является инструментом.

Навыки программирования важны не только потому, что в нашей команде много инженеров, но и потому, что код является основой цифрового мира. Будь то разработка программного обеспечения или воплощение любой идеи в реальность, код незаменим. Он позволяет глубоко интегрировать модели во многие аспекты жизни людей.

Например, я очень оптимистично отношусь к «вайб-кодированию». Многие люди креативны, но им не хватает умения воплощать свои идеи в жизнь. Вайб-кодирование позволяет им перейти от «креативности» к «практике»: просто запишите свои идеи, и вы увидите, как перед вами появится соответствующее приложение, и в большинстве случаев оно будет работать идеально.

Этот замкнутый цикл от идеи до продукта — это фантастика; он дает большему количеству людей возможность стать творцами.

Логан Килпатрик : Это потрясающе! Это идеальный аргумент в пользу AI Studio, и мы отредактируем этот ролик и выложим его в сеть. Важная тема, которую вы упомянули, — одновременный запуск платформы Google Anti-gravity и релиз Gemini 3. С точки зрения моделей, насколько важна, по вашему мнению, эта архитектура продукта для повышения качества моделей? Очевидно, она тесно связана с использованием инструментов и возможностями программирования.

Корай Кавукчуоглу : Для меня это крайне важно. Сама платформа, безусловно, интересна, но с точки зрения модели это улица с двусторонним движением. Во-первых, модель может получать обратную связь от конечных пользователей (программистов), напрямую интегрируясь с ними, что помогает определить направление, в котором модель нуждается в улучшении, и это для нас жизненно важно.

Как и Gemini и AI Studio, платформа Anti-gravity — еще один пример. Эти продукты позволяют нам тесно взаимодействовать с пользователями и получать реальные сигналы обратной связи, что является огромным преимуществом. Хотя платформа Anti-gravity является ключевым партнером по запуску лишь непродолжительное время, ее отзывы сыграли решающую роль в подготовке к запуску за последние две-три недели.

То же самое относится и к поиску режимов ИИ, по которым мы получили множество отзывов. Бенчмаркинг помогает нам развивать интеллект в таких областях, как наука и математика, но понимание реальных сценариев использования не менее важно; модели должны быть способны решать реальные задачи.

Gemini 3 — модель для полноценной командной работы в Google.

Логан Килпатрик : В качестве нового главного архитектора ИИ ваши обязанности выходят за рамки простого обеспечения наличия у нас превосходных моделей; вы также руководите продуктовыми командами, которые внедряют эти модели и создают выдающийся пользовательский опыт во всех продуктах Google. Одновременный запуск Gemini 3 на всех продуктах Google в день его релиза стал огромным сюрпризом для пользователей, и мы надеемся, что в будущем он охватит еще больше продуктов. С точки зрения DeepMind, добавляет ли такое межкомандное сотрудничество дополнительную сложность? В конце концов, полтора года назад все, вероятно, было намного проще.

Корай Кавукчуоглу : Но наша цель — создавать интеллект, верно? Многие спрашивают меня, нет ли конфликта между должностями технического директора и главного архитектора ИИ, но для меня эти две роли по сути одно и то же.

Для создания интеллекта необходимо взаимодействие между продуктами и пользователями. Моя главная цель — обеспечить использование самых передовых технологий во всех продуктах Google. Мы не продуктовая команда, а команда разработчиков технологий. Мы отвечаем за разработку моделей и технологий. Конечно, у нас есть собственное мнение о продуктах, но самое главное — мы обеспечиваем наилучшую техническую поддержку, сотрудничая с продуктовыми командами для создания лучших продуктов в эпоху ИИ.

Наступила новая эра, когда новые технологии меняют ожидания пользователей, поведение пользователей в отношении продуктов и способы доставки информации. Поэтому я надеюсь возглавить этот процесс технологического развития внутри Google, сотрудничая со всеми продуктовыми командами. Это выгодно не только для продуктов и пользователей, но и крайне важно для нас самих.

Только сближаясь с пользователями, мы можем понять их потребности и получить подлинные сигналы обратной связи, что является основной движущей силой итерации моделей. Именно так мы создаем искусственный общий интеллект (AGI): развиваясь вместе с пользователями посредством наших продуктов.

Логан Килпатрик : Я полностью согласен. Это вполне могла бы быть подпись к вашему твиту! Я также думаю, что мы, по сути, создаем искусственный общий интеллект (AGI) вместе с нашими клиентами и партнерами — это не изолированное исследование в одной лаборатории, а совместная работа со всем миром.

Корай Кавукчуоглу : Я думаю, это также "надежная система тестирования" — мы все больше делаем акцент на инженерном мышлении. Это мышление важно, потому что хорошо спроектированная система более надежна и безопасна.

При разработке реальных продуктов мы активно используем концепцию «доверенного тестирования», что отражается в нашем акценте на безопасности и конфиденциальности: мы делаем безопасность и конфиденциальность основными принципами с самого начала, а не добавляем их позже.

Будь то предварительное обучение, тонкая настройка или проверка данных, каждый член команды должен учитывать вопросы безопасности. У нас, безусловно, есть специализированные команды по безопасности и конфиденциальности, которые оказывают соответствующую техническую поддержку, но мы предпочитаем, чтобы каждый член команды Gemini был глубоко вовлечен, интегрируя вопросы безопасности и конфиденциальности на каждом этапе разработки. Эти команды также входят в состав команды по тонкой настройке.

Поэтому при разработке моделей и выпуске тестовых версий мы не только опираемся на результаты сравнительных тестов, таких как GPQA и HLE, но и тщательно анализируем показатели безопасности и конфиденциальности. Такой инженерный подход имеет решающее значение.

Логан Килпатрик : Я полностью согласен. Это также соответствует корпоративной культуре Google; в конце концов, запуск модели Gemini — это масштабное начинание, требующее глобальной командной работы.

Корай Кавукчуоглу : Говоря о Gemini 3, я думаю, что наиболее примечательной особенностью является то, что это «модель для полноценного взаимодействия в команде Google».

Логан Килпатрик : Мы можем посмотреть на соответствующие данные. Это, вероятно, один из проектов с наибольшим числом участников в истории, как и программа «Аполлон» НАСА. Это огромный глобальный проект.

Корай Кавукчуоглу : Верно, это глобальное явление.

Логан Килпатрик : Невероятно, что в этом участвовали все команды Google.

Корай Кавукчуоглу : В разработке участвовали команды со всего мира, включая Европу и Азию, не только из команды DeepMind, но и из различных подразделений Google. Это была огромная коллективная работа: одновременный выпуск приложения AI Mode и Gemini был непростой задачей.

Эти продуктовые команды тесно сотрудничали с нами на этапе разработки модели, поэтому мы смогли запустить модель одновременно на всех платформах в день релиза. Термин «полное участие Google» относится не только к командам, непосредственно участвовавшим в создании модели, но и ко всем командам, которые выполняли свои обязанности и вносили свой вклад незаметно.

Nano Banana — спонтанное название, возникшее естественным образом.

Логан Килпатрик : Еще одна тема, которая меня интересует, — это модели генеративных медиа. Хотя мы всегда ими интересовались, раньше они не были для нас приоритетным направлением. Однако с выпуском моделей Veo 3, Veo 3.1 и Nano Banana мы добились больших успехов в их внедрении.

Мне любопытно, как вы оцениваете роль генеративных видеомоделей в стремлении к созданию искусственного общего интеллекта (AGI)? Иногда мне кажется, что видеомодели не имеют отношения к AGI, но при более внимательном рассмотрении оказывается, что они связаны с пониманием мира и законов физики, поэтому эти две области должны быть взаимосвязаны.

Корай Кавукчуоглу : 10-15 лет назад генеративные модели были в основном сосредоточены на области изображений, потому что в то время мы могли лучше наблюдать за процессом генерации изображений, а понимание мира и физических законов также было основной целью моделей генерации изображений.

Исследования Google в области генеративных моделей начались 10 лет назад, а то и раньше. Когда я был аспирантом, все работали над генеративными моделями изображений, такими как пиксельные сверточные нейронные сети (Pixel CNN). Позже мы поняли, что прогресс в области обработки текста будет еще быстрее.

Однако важность моделей изображений вновь стала очевидной. Компания DeepMind давно накопила значительный технический потенциал в области моделей изображений, видео и аудио, что делает интеграцию этих технологий с текстовыми моделями естественным шагом.

Мы всегда делали акцент на мультимодальности, включая многомодальность ввода и вывода. С развитием технологий архитектуры и концепции текстовых и графических моделей все больше сближаются. В прошлом их архитектуры значительно различались, но сейчас они становятся все более похожими. Это не то, что мы намеренно поощряли, а скорее естественный результат технологической эволюции: все ищут более эффективные решения, их концепции постепенно объединяются, и в конечном итоге формируется общий путь развития.

Основная ценность такого объединения заключается в том, что текстовые модели обладают обширными знаниями об окружающем мире, в то время как модели изображений понимают мир с другой точки зрения. Сочетание этих двух подходов позволяет модели лучше понимать намерения пользователя и создавать более неожиданные результаты.

Логан Килпатрик : У меня есть ещё один вопрос о Nano Banana: как вы думаете, стоит ли дать всем моделям интересные названия? Поможет ли это?

Корай Кавукчуоглу : Не обязательно. Я думаю, названия должны возникать естественным образом, а не выбираться намеренно. Например, мы не задумывали название Gemini 3.

Логан Килпатрик : Если бы Gemini 3 не называлась так, как бы вы её назвали? Было бы это забавное название?

Корай Кавукчуоглу : Не знаю, я не очень хорошо умею давать названия. На самом деле, у наших моделей Gemini есть внутренние кодовые названия, некоторые из которых даже генерируются самой моделью Gemini, но Nano Banana — это не кодовое название; оно не было сгенерировано моделью.

За этим названием стоит история, которая, как мне кажется, уже стала достоянием общественности. Думаю, достаточно того, что название возникло естественно и спонтанно. Важно, чтобы команда, разрабатывающая модель, могла испытывать эмоциональную привязанность к этому названию.

Название «Нано-банан» было сохранено, потому что мы использовали этот кодовый заголовок во время тестирования, и он всем понравился; он распространился спонтанно. Я думаю, что сложно целенаправленно создавать такие естественно сформированные названия в процессе работы. Если у вас есть такое название, используйте его; если нет, то стандартное название тоже подойдет.

Логан Килпатрик : Давайте поговорим о Nano Banana Pro, современной модели генерации изображений, созданной на базе Gemini 3 Pro. Я слышал, что после завершения работы над Nano Banana команда обнаружила, что обновление до версии Pro значительно улучшило производительность в более сложных сценариях, таких как рендеринг текста и понимание окружающего мира. Что вы думаете об этом?

Корай Кавукчуоглу : Это как раз и есть проявление интеграции различных технологий. Мы всегда говорили, что каждая версия Gemini — это семейство моделей, таких как Pro, Flash и т. д., причем модели разных размеров предполагают компромиссы в отношении скорости, точности и стоимости. То же самое относится и к моделям генерации изображений, что, естественно, приводит к продуктам с различным позиционированием.

Основываясь на архитектуре Gemini 3.0 Pro и используя опыт модели первого поколения, команда создала более мощную модель генерации изображений, расширив масштаб модели и оптимизировав методы настройки, что вполне разумно. Ее ключевое преимущество заключается в обработке сложных сценариев: например, при вводе большого количества сложных документов модель может не только отвечать на соответствующие вопросы, но и генерировать соответствующую инфографику с превосходными результатами. Это проявление естественного слияния многомодальности входных и выходных данных, что просто фантастично.

Логан Килпатрик : Да, это как волшебство! Надеюсь, к моменту выхода этого видео все уже видели примеры; некоторые из случаев, которыми мы поделились внутри компании, действительно поразительны.

Корай Кавукчуоглу : Абсолютно согласен! Когда видишь модель, способную представить огромные объемы текста и сложные концепции в понятном и интуитивно понятном виде, это действительно поражает. Это прямая демонстрация возможностей модели.

Логан Килпатрик : И здесь много деталей, заслуживающих внимания. У меня есть еще один связанный вопрос: в декабре прошлого года Тулси пообещала, что мы выпустим единую контрольную точку модели Gemini. Означает ли то, что вы только что описали, что мы сейчас очень близки к этой цели?

Корай Кавукчуоглу : Исторически архитектура генеративных моделей оставалась неизменной…

Логан Килпатрик : Итак, я думаю, наша цель состоит в том, чтобы действительно интегрировать эти функции в модель, но в реальности, безусловно, существуют некоторые препятствия. Можете ли вы объяснить это с макроперспективы?

Корай Кавукчуоглу : Как я уже говорил, технологии и архитектура сближаются, и эта конвергенция — неизбежная тенденция, но её необходимо проверять. Мы не можем полагаться на субъективные предположения; мы должны следовать научному методу: формулировать гипотезы, проводить эксперименты и наблюдать за результатами. Иногда это удаётся, иногда нет, но таков процесс технологического прогресса.

Мы постепенно приближаемся к нашей цели, и я верю, что в ближайшем будущем мы увидим более унифицированную модель, но для этого потребуется много инноваций.

На самом деле это довольно сложно — пространство выходных данных модели имеет решающее значение, поскольку оно напрямую связано с качеством обучаемого сигнала. В настоящее время наши обучаемые сигналы в основном поступают из кода и текста, поэтому модель хорошо работает в этих областях.

Однако генерация изображений — это совсем другое дело: она требует чрезвычайно высокого качества, не только точности на уровне пикселей, но и согласованности концепции изображения, то есть каждый пиксель должен соответствовать логике всего изображения. Одновременное достижение качественной генерации текста и изображений — очень сложная задача. Но я считаю, что это абсолютно осуществимо; нужно лишь найти подходящее направление для инноваций в модели.

Логан Килпатрик : Это так здорово! Надеюсь, это также повысит эффективность нашей работы, например, благодаря наличию единой контрольной точки модели.

Корай Кавукчуоглу : Сложно сказать, но это очень вероятно.

Всё строится на обучении.

Логан Килпатрик : У меня есть еще один вопрос о программировании и использовании инструментов. Оглядываясь на разработку Gemini: версия 1.0 была сосредоточена на мультимодальных вычислениях, а версия 2.0 начала создавать инфраструктуру. Хотя наш прогресс был быстрым, почему мы не достигли передовых технологий в использовании инструментов для агентов с самого начала в мультимодальной области? В конце концов, Gemini 1.0 неизменно лидировала в области мультимодальных вычислений.

Корай Кавукчуоглу : Я не думаю, что это было сделано намеренно. Честно говоря, я думаю, это тесно связано с тем, насколько среда разработки модели близка к реальному миру. Чем ближе она к реальности, тем лучше она может понимать реальные потребности пользователя.

Разработка Gemini — это также процесс перехода от «чистых исследований» к «инженерному мышлению» и глубокой интеграции с продуктом. Google обладает глубокими знаниями в области исследований искусственного интеллекта и имеет множество выдающихся исследователей, но особенность Gemini заключается в том, что она перевела нас от «написания статей и проведения исследований» к «совместной разработке с пользователями посредством продуктов».

Я горжусь нашей командой — большинство из нас, включая меня, четыре-пять лет назад были сосредоточены на публикации научных статей и проведении исследований в области искусственного интеллекта. Сейчас мы находимся на передовой технологического прогресса, вместе продвигая технологические итерации через продукты и пользователей.

Эти преобразования поразительны: мы выпускаем новую модель каждые шесть месяцев и обновляем ее каждые один-полтора месяца. Я считаю, что именно в этом процессе мы постепенно улучшили свои возможности по использованию инструментов интеллектуальных агентов.

Логан Килпатрик : Еще один интересный момент: DeepMind теперь может похвастаться многочисленными передовыми продуктами в области искусственного интеллекта, такими как Vibe Coding, AI Studio, Gemini и платформа Anti-gravity. У Google также есть много передовых моделей, таких как Gemini 3, Nano Banana и Veo. Десять или даже пятнадцать лет назад мир был совершенно другим.

Мне любопытно. Оглядываясь на вашу карьеру, вы вчера упомянули, что были первым исследователем глубокого обучения в DeepMind, что удивило меня и других. Что вы думаете о том, как всё изменилось за последние 13 лет (2012 год), когда к глубокому обучению относились со скептицизмом, и как эта технология лежит в основе множества продуктов и является ключевой движущей силой? Было ли всё это ожидаемо или вас это удивило?

Корай Кавукчуоглу : Я думаю, это идеальный результат. Как и все, кто получает докторскую степень, ты убеждаешься, что то, что ты делаешь, важно и окажет значительное влияние — именно так я думал в то время.

Поэтому, когда Деми и Шейн связались со мной и сказали, что DeepMind — это команда, занимающаяся разработкой интеллектуальных систем на основе глубокого обучения, я был невероятно рад. Мой друг Карл Грегер и я (мы оба пришли из лаборатории Яна в Нью-Йоркском университете) присоединились к DeepMind одновременно. В то время стартапы, специализирующиеся на глубоком обучении и ИИ, были очень редки, поэтому видение DeepMind было поистине замечательным, а работа там — невероятно захватывающей. Позже я создал свою собственную команду по глубокому обучению и наблюдал за ее ростом и процветанием.

Мое отношение к глубокому обучению всегда было таким: основывать его на фундаментальных принципах и придерживаться подхода, ориентированного на обучение, что также является основной философией DeepMind: все строится на обучении.

Оглядываясь назад на этот путь, от ранних DQN, AlphaGo, AlphaZero и AlphaFold до нынешнего Gemini, это поистине эмоциональный опыт. Мы всегда двигались вперед с позитивными ожиданиями, но в то же время чувствуем себя очень счастливыми.

Нам повезло жить в эту эпоху. Многие люди посвятили свою жизнь искусственному интеллекту или своим увлечениям, надеясь стать свидетелями технологического прорыва, и теперь это действительно произошло. Развитие ИИ обусловлено не только достижениями в области машинного обучения и глубокого обучения, но и неразрывно связано с развитием аппаратного обеспечения, интернета и данных — все эти факторы способствовали сегодняшнему положению дел. Поэтому я горжусь тем, что выбрал область ИИ, и считаю себя счастливым человеком, живущим в эту эпоху. Это действительно захватывающе.

Логан Килпатрик : Недавно я посмотрел серию видеороликов «Игра на мышление» и узнал историю создания AlphaFold. Я не был свидетелем той эпохи лично, поэтому знаю о ней только из материалов и рассказов других людей. Вы участвовали в нескольких важных проектах в DeepMind. Чем, по вашему мнению, ваша нынешняя работа отличается от вашей прошлой? Например, вы упомянули ранее, что «мы освоили методы, позволяющие представить модели миру». Чем это ощущение похоже или отличается от ваших предыдущих проектов?

Корай Кавукчуоглу : Как вы организуете команду и создаёте культуру, позволяющую превращать сложные научные и технологические проблемы в успешные результаты? Я считаю, что мы накопили огромный опыт благодаря многочисленным проектам, от DQN, AlphaGo и AlphaZero до AlphaFold, каждый из которых оказал глубокое влияние. Мы научились организовывать большие команды для работы над конкретными целями и задачами.

Я помню, как в первые дни существования DeepMind над проектом по публикации статьи работали 25 человек — многие задавались вопросом, как 25 человек могут сотрудничать над одной статьей, но мы это сделали. Такое масштабное сотрудничество редко встречается в научных исследованиях, но мы достигли этого благодаря эффективной организации. Этот опыт и подход развивались со временем и приобретали все большее значение.

В последние два-три года мы также внедрили инженерный подход – у нас есть основное направление развития модели, и мы научились проводить исследования, исходя из этого основного направления.

Думаю, Deep Think — хороший пример: мы использовали его для участия в соревнованиях высшего уровня, таких как Международная математическая олимпиада (IMO) и Международный студенческий конкурс по программированию (ICPC). В этих соревнованиях встречаются чрезвычайно сложные задачи, и многие хотели бы создать модель, специально адаптированную под эти соревнования, но мы решили использовать это как возможность оптимизировать нашу существующую модель.

Мы твердо верим в многогранность технологий. В рамках конкурсов мы исследуем новые идеи, интегрируем их в существующие модели и, в конечном итоге, создаем модели, способные участвовать в конкурсах высшего уровня, которые затем становятся доступными для всех желающих.

Логан Килпатрик : Это напоминает мне параллель: раньше над статьей работали 25 человек, а теперь в списке участников проекта Gemini 3 может быть 2500 человек — многие могут подумать: «Как 2500 человек могут быть вовлечены?», но это правда. Такой способ решения проблем посредством масштабного сотрудничества поистине удивителен.

Koray Kavukcuoglu : 这一点非常重要,也是Google 的优势所在。 Google 拥有全栈技术能力,我们能从中受益:从数据中心、芯片、网络,到大规模模型的部署,每个环节都有专家坐镇。

回到工程思维的话题,这些环节是密不可分的。我们设计模型时,会考虑它将运行的硬件;而设计下一代硬件时,也会预判模型的发展方向。这种协同非常美妙,但要协调这么多环节,确实需要数千人的共同努力。我们应该认可这种协作的价值,这真的很了不起。

Logan Kilpatrick : 这绝非易事。再回到DeepMind 的传统:我们一直采用多元科学方法,尝试解决各种有趣的问题。而现在,我们已经明确这项技术在多个领域都有效,只需持续扩大规模。当然,这也需要创新支撑。

你认为在当今时代,DeepMind 如何平衡「纯科学探索」和「扩大Gemini 规模」?比如「Gemini 扩散模型」(Gemini Diffusion),就是这种决策的一个体现。

Koray Kavukcuoglu : 这是最关键的问题:找到两者的平衡至关重要。

现在很多人问我,Gemini 最大的风险是什么?我认真思考过,答案是「缺乏创新」。我绝不相信我们已经找到了「万能公式」,只需按部就班执行即可。

我们的目标是构建通用智能,这需要与用户、产品深度绑定,但这个目标本身依然极具挑战性,我们并没有现成的解决方案——创新才是实现目标的核心动力。

创新可以有不同的规模和方向:在Gemini 项目内部,我们会探索新架构、新想法、新方法;而作为Google DeepMind 整体,我们还会开展更多跨领域的探索,因为有些想法可能在Gemini 项目内部过于受限,无法充分发展。

所以, Google DeepMind 和Google 研究院需要共同探索各类想法,然后将这些想法融入Gemini,因为Gemini 不是一种架构,而是一个目标:构建通用智能,让Google 的所有产品都能依托这个AI 引擎运行。

无论最终采用哪种架构,我们都会持续演进,而创新将永远是核心驱动力。找到平衡,或以不同方式推进探索,这至关重要。

Logan Kilpatrick : 我有一个相关的问题:在I/O 大会上,我曾和Sergey 聊过,当你把这么多人聚集在一起,共同发布模型、推动创新时,你能感受到一种「人性的温度」——这一点我深有体会。我当时坐在你旁边,也感受到了你的热情。

这一点对我个人来说很有意义,因为它也反映了DeepMind 的整体文化:既有深厚的科学底蕴,又有友善、包容的团队氛围。很多人可能没有意识到这种文化的重要性,以及它如何影响工作。作为团队的领导者,你如何看待这种文化的体现?

Koray Kavukcuoglu : 首先,谢谢你的夸奖,这让我有点不好意思。但我确实相信团队的力量,也坚信要信任他人、给予他人机会。团队协作至关重要,这一点我也是在DeepMind 工作期间学到的。

我们从一个小团队起步,在成长过程中始终保持信任。我认为,营造一个「专注于解决有影响力的复杂技术和科学问题」的环境,非常重要,这也是我们现在正在做的。

Gemini 的核心是构建通用智能,这是一个极具挑战性的技术和科学问题,我们需要以谦逊的态度去面对,不断质疑自己、优化自己。希望团队也能感受到这一点,我真的为我们的团队感到骄傲,他们齐心协力、相互支持。

就像我刚才在茶水间和团队聊的那样:「这很辛苦,我们都很累,但这就是构建前沿技术的常态。我们没有完美的流程,但每个人都在全力以赴、相互支持。」 而让这一切变得有趣、有意义,让我们有勇气面对挑战的,很大程度上是「拥有一支优秀的团队」,大家共同为技术的潜力而奋斗。

我可以肯定地说,20 年后,我们现在使用的大语言模型(LLM)架构肯定会被淘汰。所以,持续探索新方向是正确的选择。 Google DeepMind、 Google 研究院,以及整个学术研究社区,都需要共同推进多个领域的探索。

我认为,不必纠结于「什么是对的、什么是错的」,真正重要的是技术在现实世界中的能力和表现。

Logan Kilpatrick : 最后一个问题:我个人在Google 的第一年多时间里,感受到了一种「 Google 逆袭」的氛围。尽管Google 拥有强大的基础设施优势,但在AI 领域,我们似乎一直在追赶。比如在AI Studio 的早期阶段,我们没有用户(后来增长到3万人),没有收入,Gemini 模型也处于早期阶段。

而现在,随着Gemini 3 的发布,我最近收到了很多来自生态系统各方的反馈,人们似乎终于意识到「 Google 的AI时代已经到来」。你是否也有过这种「逆袭」的感受?你相信我们能走到今天吗?对于团队来说,这种角色的转变会带来什么影响?

Koray Kavukcuoglu : 在大语言模型(LLM)的潜力逐渐显现时,我坦诚地说,我既认为DeepMind 是前沿AI 实验室,也意识到我们作为研究人员,在某些领域的投入还不够,这对我来说是一个重要的教训:我们必须拓宽探索范围,创新至关重要,而不是局限于某一种架构。

我一直对团队坦诚相待:大约2.5 年前,当我们开始认真对待大语言模型、启动Gemini 项目时,我们在很多方面都与最先进水平有差距,我们有很多不懂的东西,虽然也有自己的优势,但确实处于追赶状态。

这种追赶持续了很长时间,而现在,我认为我们已经进入了领先梯队。我对我们的发展速度、团队动态和协作节奏感到非常满意。但我们必须正视过去的追赶历程。

在追赶过程中,我们既要学习他人的优点,也要坚持自己的创新,找到适合自己的解决方案:无论是技术、模型、流程,还是团队运作方式,这些都是我们独有的。

很多人说「 Google 太大了,做事效率低」,但我认为这可以转化为优势。我们有能力做一些独特的、大规模的事情,比如让Gemini 同步登陆所有Google 产品。我对我们现在的状态很满意,但这是通过持续学习和创新实现的。这确实是一个很棒的「逆袭」故事。

当然,总会有各种比较,但我们的目标始终是构建通用智能——我们希望以正确的方式实现这一目标,并为此倾注全部心力和创新。

Logan Kilpatrick : 我觉得未来六个月可能会和过去六个月、乃至之前的六个月一样令人振奋。再次感谢你抽出时间接受采访,非常愉快!希望在明年I/O 大会前我们能再聊一次。

虽然感觉还有很久,但时间肯定会过得很快。我相信下周就会有关于2026 年I/O 大会的规划会议了。再次祝贺你和DeepMind 团队,以及所有模型研究人员,成功推出Gemini 3、Nano Banana Pro 等一系列产品!

Koray Kavukcuoglu : 谢谢!这次交流非常棒。感谢团队的付出,也感谢你的邀请!

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.

ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo