После разоблачения команды GPT Image 2 я обнаружил китайскую сеть наставников и учеников.

С официальным запуском GPT Image 2 область генерации изображений с помощью ИИ теперь состоит всего из двух уровней: GPT Image 2 и другие.
В сегменте крупномасштабных моделей GPT Image 2 лидирует с большим отрывом, имея абсолютное преимущество в 241 балл, но список разработок на самом деле интереснее, чем результаты бенчмарка.

Основная команда OpenAI, разработавшая эту модель, состоит всего из 13 человек.

Кроме того, половину команды составляют китайцы. Если внимательно посмотреть на их резюме, то можно обнаружить, что многие из них уже встречались в университете, лаборатории или даже в летнем исследовательском лагере в Китае до прихода в OpenAI.
Сообщество специалистов по искусственному интеллекту — это, по сути, огромный круг знакомых.
Технологические гиганты Кремниевой долины приходят и уходят, но отношения наставник-ученик остаются неизменными.
Чэнь Боюань — абсолютный ключевой член команды GPT Image 2, и его профессиональный рост является ярким примером модели «наставничества» в китайской академической среде.
В старших классах школы Чэнь Боюань участвовал в летнем исследовательском лагере в Уси. В то время он еще не изучал программирование, и там познакомился с Ся Фэем, китайским ученым, который позже стал старшим научным сотрудником Google DeepMind. Ся Фэй познакомил его с глубоким обучением и стал его наставником в области искусственного интеллекта.

С тех пор они поддерживают связь. Во время учебы в бакалавриате Чен Боюань специализировался на информатике и математике в Калифорнийском университете в Беркли, поступив в программу для отличников по электротехнике и информатике с средним баллом 3,96. Он учился у Питера Аббила, а также основал в 2017 году компанию по обучению робототехнике, которая работала до 2020 года.
В течение первого года обучения в аспирантуре Массачусетского технологического института (MIT) Чен Боюань столкнулся с трудностями из-за отсутствия публикаций. Ся Фэй оказал ему неоценимую поддержку, помогая опубликовать его первую влиятельную статью NLMap. Ся Фэй также дважды приглашал его на стажировку в DeepMind. Во время стажировки в 2023 году он руководил созданием многомодального конвейера синтеза данных для больших языковых моделей, а разработанные им методы тонкой настройки инструкций были использованы при разработке Gemini 2.0.

Обладая таким опытом, Чен Боюань присоединился к OpenAI в июне 2025 года. Кроме того, он также является членом команды Sora по генерации видео, занимая несколько должностей.

Во время учебы в Массачусетском технологическом институте Чен Боюань учился у доцента Винсента Зитцмана в Лаборатории компьютерных наук и искусственного интеллекта (CSAIL), специализируясь на моделировании окружающего мира. Кивхан Сонг был его однокурсником в той же лаборатории, и его научным руководителем был тот же профессор.

▲
https://kiwhan.dev/
Основное направление исследований лаборатории Зитцмана — «моделирование мира», которое, проще говоря, подразумевает предоставление искусственному интеллекту возможности прогнозировать изменения в физическом мире с помощью ментальных симуляторов, а не просто имитировать пиксели. Этот исследовательский подход, возможно, напрямую повлиял на технологическое направление GPT Image 2.
В ходе своих докторских исследований они неоднократно сотрудничали и совместно опубликовали две статьи: «Распространение видео с учетом истории» и «Планировщик больших видеоматериалов», в которых в основном исследовалось, как объединить модели распространения и генерацию последовательностей, что позволило модели уточнить временную и пространственную причинно-следственную логику перед генерацией контента.

▲
https://arxiv.org/abs/2502.06764
Стоит отметить, что Кивхан Сонг является создателем мультяшного аватара в виде «длинношеего» персонажа, выполненного в виде наклеек.

Помимо этих двух студентов, в команду также входят два китайских члена, которые входят в сеть китайских исследователей, накопивших многолетний опыт работы в отрасли.
Цзяньфэн Ван почти девять лет проработал в Microsoft, занимаясь крупномасштабным многомодальным обучением представлений в качестве ведущего исследователя. В ходе разработки DALL-E 3 он тесно сотрудничал с командой OpenAI. После присоединения к OpenAI он в основном отвечал за улучшение возможностей модели по соответствию инструкциям и пониманию окружающего мира.

▲
https://scholar.google.com/citations?user=vJWEw_8AAAAJ&hl=en
Бин Лян более пяти лет проработал в Google, где в качестве старшего инженера-программиста участвовал в основных исследованиях и разработках Imagen 3, видеомодели Veo и мультимодальной серии Gemini. В августе прошлого года он присоединился к OpenAI, чтобы возглавить исследования в области генерации изображений.

▲
https://www.linkedin.com/in/bing-liang/
Они привнесли не только свои личные навыки, но и инженерный опыт, накопленный конкурентами за многие годы, а также подводные камни, с которыми они столкнулись, что позволило команде избежать множества обходных путей.
Предоставьте площадку для гениев.
Вэйсинь Лян и Югуан Ян — еще одна примечательная пара в команде. Оба окончили Колледж имени Чу Кочена при Чжэцзянском университете и имеют одинаковое высшее образование.
Послужной список Югуана Яна весьма разнообразен. Он получил степень бакалавра в области инженерии в Колледже имени Чу Кочена, а затем продолжил обучение в докторантуре Университета Джонса Хопкинса по специальности «Вычислительная химия, физика и машинное обучение». После получения степени он работал в Amazon Alexa над исследованиями в области глубокого обучения для распознавания речи, а затем перешел в Microsoft Bing, где отвечал за понимание запросов и крупномасштабный поиск.

Он также проводил гостевые исследования в Университете Цинхуа, сосредоточившись на алгоритмах обучения с подкреплением для навигации нанороботов в кровеносных сосудах человека, в ходе которых опубликовал семь статей в рецензируемых научных журналах. Этот междисциплинарный опыт наглядно демонстрируется в демонстрации GPT Image 2.

В отличие от Югуана Яна, карьера Вэйсиня Ляна носит более академический характер. Он защитил докторскую диссертацию в Стэнфордской лаборатории искусственного интеллекта (SAIL), где сотрудничал с несколькими известными профессорами, включая Кристофера Мэннинга, Ли Фэй-Фэй и Джеймса Цзоу.

▲
https://ai.stanford.edu/~wxliang/
Во время стажировки в Meta он опубликовал статью «Mixture-of-Transformers (MoT)», в которой представил гибридную архитектуру экспертной модели с модальным разделением. В ней была реализована обработка разреженности с учетом модальности для каждого невстроенного параметра трансформера, включая сеть прямого распространения, матрицу внимания и нормализацию слоев, что в конечном итоге снизило вычислительные затраты на многомодальное предварительное обучение на 66% и завершило проверку предварительного обучения на масштабе параметров в 30 байт.
Мультимодальные модели, которым необходимо одновременно обрабатывать текст и изображения высокого разрешения, могут легко столкнуться с экспоненциальным ростом вычислительных затрат. Однако MoT эффективно решает эту проблему, эффективно распределяя веса между различными модальностями на этапе предварительного обучения с помощью механизма внимания, разделяющего модальные связи. Это исследование, впоследствии названное «фундаментальным вкладом в объединение понимания и генерации мультимодальных данных», привлекло значительное внимание в области мультимодального моделирования.

▲
https://arxiv.org/abs/2411.04996
В последние годы выпускники программы Яо Университета Цинхуа, программы Чу Коченя Чжэцзянского университета, программы для младших курсов Китайского университета науки и технологий, Шанхайского университета Цзяотун и других учебных заведений стали движущей силой зарубежных лабораторий искусственного интеллекта, таких как OpenAI, Anthropic, DeepMind и Meta.
Помимо вышеупомянутых членов, в команду также входят несколько ключевых исследователей, каждый из которых играет важную роль:
Кенджи Хата: магистр компьютерных наук Стэнфордского университета, ранее работал в Google Research. После присоединения к OpenAI он участвовал в разработке множества моделей, включая генерацию изображений 4o (GPT-Image-1) и Sora 2, и является одним из членов команды с наиболее полным опытом итераций моделей.
Аян Хаке: До прихода в OpenAI он работал исследователем в Luma AI, где участвовал в обучении модели генерации видео Dream Machine. Этот опыт позволил ему освоить обработку многомерных временных данных. В OpenAI он в основном отвечал за разработку GPT Image 2 и моделей мышления.
Дибья Бхаттачарджи: имеет степень бакалавра и магистра компьютерных наук Йельского университета и почти 5-летний опыт работы в Google. Она присоединилась к OpenAI в феврале 2024 года, чтобы возглавить исследования в области генерации изображений, продемонстрировав возможности модели по генерации изображений в различных форматах на презентации, и является ключевым участником в обеспечении возможности использования выходного формата модели «из коробки».
Мэнчао Ч.: Степень бакалавра Шанхайского университета Цзяотун, степень магистра Техасского университета A&M, солидный инженерный опыт. До прихода в OpenAI он руководил проектированием архитектуры крупномасштабных рекомендательных систем, а в настоящее время отвечает за преобразование возможностей модельных технологий в пригодные для использования продукты.
Кроме того, личности нескольких других членов команды в настоящее время недоступны.

Сеть наставничества способствует развитию исследовательского вкуса, а университетское образование закладывает основу для базового понимания. Эта сеть талантов, сотканная из наставников, однокурсников и бывших коллег, естественным образом формирует очень высокую степень доверия. Благодаря высокой степени единства ценностей и инженерной терминологии, стоимость инноваций практически равна нулю.
Простое переманивание одного-двух Чэнь Боюаней за внушительные суммы — это лишь временная мера. Без партнеров трудно воспроизвести это спонтанное нововведение. Организационная структура крупных компаний с ее четкой иерархией и целями выгодна для коммерциализации, но часто создает ограничения для фундаментальных исследований, требующих свободного поиска.
В конечном счете, конкуренция в сфере ИИ — это история о «людях». Вместо того чтобы искать следующего Чэнь Боюаня, нам нужно создать экосистему, где люди, подобные Чэнь Боюаню, смогут естественным образом встречаться в своем местном контексте и добиваться взаимного успеха.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.