Клод 4, основной член: В 2027 году ИИ автоматизирует почти все рабочие места «белых воротничков» Разговор на 10 000 слов

Кодирование ИИ, главная тема индустрии ИИ в этом году, в последнее время становится все более очевидной.
В дополнение к новому королю программирования Claude Opus 4, который доминировал на экране на прошлой неделе, новая версия DeepSeek R1 также сосредоточилась на возможностях кода. Не так давно OpenAI приобрела помощника по программированию ИИ Windsurf за 3 миллиарда долларов США, а затем выпустила агента программирования Codex.
За последние несколько дней Мин Чаопин, бывший менеджер по продукции Kimi, и компания Meituan, которая борется с JD.com, официально анонсировали продукты, связанные с программированием ИИ.
Разработчик C++ с более чем 30-летним опытом написал на Reddit, что Claude Opus 4 исправил ошибку, которая беспокоила его в течение четырех лет, и это был первый используемый им ИИ, способный сделать это.

Почему Клод так выдающийся в программировании? Теперь, когда люди упоминают Anthropic, они почти предполагают, что это «компания, которая делает модели программирования». Но для них, в чем реальный прорыв этого поколения моделей? Что произойдет в будущем?
Несколько дней назад подкаст-разговор с Шолто Дугласом, основным исследователем Claude Opus 4, подробно ответил на эти вопросы. Он очень информативен и его стоит послушать.
Ключевые моменты обсуждения (для более быстрого просмотра):
Клод Опус 4, на какие прорывы действительно стоит обратить внимание?
Прежде всего, улучшения способностей очень сбалансированы.
С одной стороны, его способность к выполнению кода была значительно улучшена. Он может не только понимать сложные требования, но и самостоятельно искать информацию, запускать тесты и отлаживать ошибки, действительно обладая способностью «бежать от начала до конца». С другой стороны, временной интервал задачи также был значительно увеличен, поддерживая многошаговые рассуждения и операции, что означает, что он не только умный, но и очень настойчивый.
С точки зрения архитектуры, Claude Opus 4 добавляет вызовы инструментов и модули долговременной памяти, что позволяет ему обрабатывать задачи с большей непрерывностью контекста. От помощника по коду он перешел к интеллектуальному агенту с возможностью «проектировать решения».
Конечно, есть потолок.
Команда признает, что четкого верхнего предела интеллектуальной сложности выполнения задачи не существует — сложность заключается в том, как расширить диапазон контекстов, которые модель может воспринимать и использовать, что позволит ей использовать несколько инструментов и запоминать больше ключевой информации.
Каково будущее?
Шолто Дуглас упомянул в подкасте несколько четких направлений:
- Обучение с подкреплением (RL) продолжит улучшать производительность модели в непрерывных задачах;
- Кодовые агенты смогут работать часами, лишь изредка требуя вмешательства человека;
- Модели могут стать «виртуальными удаленными работниками» на должностях, требующих знаний;
- Если строительство автоматизированных лабораторий и роботизированных платформ будет продолжаться, модели смогут участвовать в реальных физических задачах, таких как биологические эксперименты или производство.
Но есть одно обязательное условие: надежность интеллектуального агента должна оставаться на высоком уровне.
Хотя это пока не на 100% успешно, уровень успеха неуклонно растет в течение ограниченного времени. Ожидается, что к концу 2025 года программируемые интеллектуальные агенты смогут «работать стабильно в течение нескольких часов», и людям нужно будет только иногда проверять.
Помимо написания кода?
Программирование — это всего лишь «опережающий индикатор» возможностей модели. Такие профессиональные области, как медицина и юриспруденция, все еще ждут улучшения данных и инструментов. Как только они будут готовы, они также приведут к быстрым прорывам. Текущее узкое место — это не сам ИИ, а механизм проверки и инфраструктура в реальном мире.
К 2027–2030 годам модель сможет автоматизировать практически всю работу «белых воротничков», однако без соответствующих лабораторий и реальных механизмов обратной связи она будет обладать «большими возможностями, но ее будет трудно реализовать».
Как оценить, действительно ли модель улучшилась?
Команда отметила, что хорошая система оценки (Evals) особенно важна. Она не только измеряет технические показатели, но и подчеркивает профессиональные знания и вкус оценщика. Вот почему порог оценки модели становится все выше и выше. В то же время она также требует от пользователей продолжать использовать, взаимодействовать и давать обратную связь, чтобы сформировать настоящую «совместную эволюцию».
Лаборатории против компаний-разработчиков приложений: кто одержит верх?
Дуглас считает, что лаборатория открывает новые возможности благодаря открытым API, но основные преимущества остаются:
- Возможность преобразования вычислительной мощности;
- Модель «пригодности для найма» и доверия пользователей;
- Более глубокое личное понимание.
Лаборатория похожа на производителя "умных двигателей", фокусирующегося на пределах своих возможностей; компания-разработчик приложений лучше справляется с реализацией и пользовательским опытом. В будущем между ними будет все больше кроссоверов, интеграций и конкуренции.
Оставит ли эта модельная компания другие компании без возможности двигаться из-за ее стоимости и основных преимуществ? Мнение Дугласа таково:
Нет, наоборот, он приносит жизненную силу.
Он считает, что все рвы в конечном итоге будут разрушены, и что действительно важно, так это отношения с клиентами, организация задач и интегрированный опыт.
Последнее ключевое слово — «выравнивание».
По мере улучшения возможностей модели проблема «выравнивания» становится все более важной. Anthropic продвигает исследования интерпретируемости, пытаясь «понять, что думает модель». Хотя обучение с подкреплением может улучшить возможности, оно также может разрушить существующие механизмы выравнивания. В будущем он будет полагаться на университеты, правительства и больше исследователей для совместного продвижения «науки выравнивания».
Ссылка на оригинальное видео: https://www.youtube.com/watch?v=W1aGV4K3A8Y

Ниже приводится стенограмма интервью, которая была слегка отредактирована APPSO.
Модератор: Шолто Дуглас — один из основных членов модели Anthropic Claude 4, и на этот раз с ним была отличная беседа. Мы обсудили множество тем, включая то, как разработчики видят тенденции развития нового поколения моделей Anthropic. Мы обсудили направление развития этих моделей в ближайшие 6 месяцев, 12 месяцев и даже 2–3 года. Мы также говорили о ключевых факторах, необходимых для создания надежных агентов ИИ, и о том, когда эти модели достигнут прорыва в таких профессиональных областях, как медицина и юриспруденция, а также в программировании. Кроме того, Дуглас также поделился своими взглядами на «Исследование выравнивания» и своей реакцией на прогноз «ИИ 2027». Это замечательная беседа, и я верю, что она всем понравится.
Важные достижения и будущие возможности Клода Опуса 4
Ведущий: К тому времени, как этот подкаст появился в сети, Claude 4 должен был быть выпущен, и люди должны были начать его испытывать. Мне любопытно, вы были одним из первых, кто получил эти модели в свои руки, какой аспект вас больше всего волнует?
Дуглас: Это действительно еще один скачок вперед в разработке программного обеспечения. Модель Opus действительно блистает в этом отношении. Я часто сталкиваюсь с моментами, когда я даю ей очень сложную задачу, которая касается нашей большой кодовой базы, и она может сделать это почти полностью автономно . Она ищет информацию, понимает требования, запускает тесты и делает это очень независимо и эффективно. Я всегда поражаюсь этой производительности.
Модератор: Каждый раз, когда появляется новое поколение моделей, нам приходится перенастраивать наши когнитивные модели, чтобы судить, что работает, а что нет. Изменилось ли ваше использование и понимание этих моделей в программировании?
Дуглас: Я думаю, что самое большое изменение — это улучшение временного горизонта. Я думаю, что улучшение возможностей модели можно понять из двух измерений: одно — это интеллектуальная сложность задачи, а другое — это объем контекста или количество последовательных действий, которые они могут осмысленно рассуждать и обрабатывать. Эти модели значительно улучшились во втором измерении. Они действительно могут выполнять многошаговые операции, определять, какую информацию необходимо получить из окружающей среды, а затем предпринимать действия на основе этой информации. Кроме того, он может вызывать такие инструменты, как Cloud Code, который не просто копирует и вставляет, а имеет более сильные возможности выполнения. Теперь я вижу, как он работает несколько часов подряд, и его эффективность эквивалентна непрерывному человеческому труду.
Ведущий: Так с чего, по-вашему, следует начать тем, кто впервые использует Claude 4?
Дуглас: Я думаю, что лучший способ — позволить ему напрямую участвовать в вашей работе. Например, если вы планируете написать код сегодня, просто позвольте ему сделать это за вас и наблюдайте, как он оценивает информацию и решает, что делать дальше. Я гарантирую, что вы будете поражены его производительностью.
Модератор: Это поколение моделей более мощное, и многие планируют использовать его для создания продуктов. Какие новые возможности, по вашему мнению, есть для разработчиков?
Дуглас: Мне всегда нравился термин «экспоненциальный продукт». Разработчикам необходимо постоянно развивать возможности модели, чтобы создавать продукты . Типичными примерами являются Cursor, Windsurf и Devon. Cursor начал создавать будущие возможности кодирования, когда возможности его модели были недостаточно сильны, и их видение не было по-настоящему реализовано, пока не появились Claude 3.5 и Sonne. Windsurf пошел на шаг дальше и занял часть рынка. Их успех обусловлен тем, что они воспользовались этим окном экспоненциального роста.
Теперь вы можете увидеть Claude Code, новую интеграцию GitHub, кодеки OpenAI, агент кодирования Google и т. д. Все работают над концепцией «агента кодирования» с целью достижения более высокой автономности и асинхронной работы . В будущем вы больше не сможете работать раз в минуту, но вы будете управлять парком моделей ИИ, в котором несколько моделей будут выполнять свои собственные задачи и работать вместе. Я думаю, это направление стоит изучить.
Модератор: Вы когда-нибудь видели сценарий типа "многомодельного параллельного сотрудничества"? Как бы это выглядело?
Дуглас: Я знаю много друзей в Anthropic, которые запускают несколько экземпляров Claude Code в разных средах одновременно, что выглядит довольно круто. Но, честно говоря, никто пока не понял, как это сделать. На самом деле это исследование того, насколько большой может быть «пропускная способность управления» человека. Я думаю, что это один из ключевых вопросов для будущего экономического развития: как измерить возврат производительности модели? В начале нам все еще приходится вручную проверять выходные данные модели, что означает, что влияние модели будет ограничено возможностями управления человеком. Если только однажды мы не сможем доверить модели управление моделью, это обновление на уровне абстракции будет иметь решающее значение.
Модератор: То есть, если вы будете проверять модель каждые 15 минут, каждый час, каждые 5 часов, количество моделей, которыми вы сможете управлять, будет сильно отличаться?
Дуглас: Да, Дженсен Хуан сказал что-то похожее. Он сказал, что его окружают 100 000 сверхразумных AGI и что у него есть огромное влияние. Он также сказал, что он является «контролирующим фактором» в цепочке управления Nvidia. Я думаю, что это действительно может развиваться в этом направлении в будущем.
Ведущий: Возможно, самой важной отраслью в будущем станет само «организационное проектирование».
Дуглас: Да, включая то, как построить доверие и насколько сложной будет организационная структура, все это стоит тщательно продумать.
Секретное оружие: увеличенный временной промежуток, интеллектуальное обновление агента на основе RL
Модератор: Вы работали в McKinsey в течение года. Может ли консалтинговая индустрия также разрабатывать новые линейки продуктов на основе этих моделей? Я согласен с тем, что вы только что сказали: компании-разработчики приложений должны быть на шаг впереди модели. Например, Cursor сначала испытывал трудности с выводом своих продуктов на рынок, но он взорвался, как только возможности модели были реализованы. Так что, по-вашему, означает «на шаг впереди» конкретно?
Дуглас: Это означает постоянное переосмысление вашего продукта, чтобы он всегда подключался к новейшим возможностям модели несколько месяцев спустя. В то же время вам также необходимо поддерживать тесный контакт с пользователями, чтобы гарантировать, что продукт уже используется, но также может впитать более продвинутые возможности модели.
Модератор: Я думаю, вот в чем секрет — если вы все еще ждете, пока модель улучшится, прежде чем начать, другие, возможно, уже перехватили пользователей. Вы совершили много прорывов в памяти, выполнении инструкций и использовании инструментов. Можете ли вы кратко подвести итог текущему прогрессу в различных аспектах? Какие из них зрелые, а какие все еще изучаются?
Дуглас: Хороший способ оценить прогресс прошлого года — это то, что обучение с подкреплением (RL) наконец-то работает с языковыми моделями. По сути, нет потолка интеллектуальной сложности задач, которые могут решать модели, например, сложные математические и программные задачи. Но большинство этих задач выполняются в ограниченном контексте . Задача памяти и использования инструментов на самом деле заключается в расширении диапазона контекстов, которые модели могут воспринимать и использовать.
Например, такие механизмы, как MCP (Model Context Protocol), позволяют модели взаимодействовать с внешним миром, а память позволяет ей обрабатывать задачи в течение более длительного периода времени, что также приносит более персонализированный опыт. Эти достижения по сути выстраивают ключевую цепочку возможностей «интеллектуальных агентов». Кстати, Pokemon eval — очень интересный экспериментальный метод.
Ведущий: Я был большим фанатом игры в детстве. Я думаю, что это отличный обзор, и я надеюсь, что вы, ребята, сможете выпустить его вместе с этой моделью.
Дуглас: Да, это очень интересный тест. Модель не была специально обучена играть в Pokémon Go, но она все равно хорошо себя проявила и показала сильную обобщенность. Эта задача не совсем новая, но она отличается от того, что она делала раньше.
Ведущий: Я помню, что в игре было много лестниц и лабиринтов, и модели могли помочь вам их пройти.
Дуглас: Да, еще один пример, который мне особенно нравится, это «Интерпретируемый агент», который мы недавно сделали. Изначально это был программный агент, но он может автоматически обучаться, использовать инструменты визуализации нейронов и вести самостоятельный диалог, чтобы попытаться понять внутреннюю структуру модели. Он даже может пройти оценку безопасности под названием «Аудитная игра» — найти ошибки, намеренно установленные моделью, сгенерировать гипотезы и самостоятельно проверить вопросы. Этот вид инструмента + способность к обобщению в памяти действительно замечательны.

Ахиллесова пята интеллектуальных агентов: надежность
Модератор: Похоже, что интеллектуальные агенты становятся все более мощными. Вы уже говорили, что ключ к агентам VA — это «надежность». На какой стадии, по-вашему, мы сейчас находимся?
Дуглас: С точки зрения «успеха в течение определенного периода времени» мы достигли большого прогресса. Хотя мы еще не достигли 100% стабильности, все еще есть разрыв между первой попыткой и многократными попытками модели. Но из тенденции мы неуклонно движемся к «надежности экспертного уровня».
Ведущий: Так что, по-вашему, заставило бы вас изменить свой оптимистичный взгляд?
Дуглас: Если модель достигнет узкого места в длительности задач к середине следующего года, стоит быть начеку. Например, программирование является хорошим опережающим индикатором прогресса — как только оно начинает снижаться, это означает, что могут быть структурные проблемы. Конечно, может быть и так, что данных слишком мало, например, сложно обучать такие задачи, как «использование программного обеспечения как человека». Однако сейчас мы видим удивительный прогресс в таких задачах, поэтому я по-прежнему в целом оптимистичен.
Ведущий: Когда, по-вашему, у меня появится «универсальный помощник», который сможет заполнять за меня различные формы, искать информацию в Интернете и т. д.?
Дуглас: «Агент-ассистент по административным вопросам» — горячая тема. Кто не хочет передавать тривиальные вопросы ИИ? Но это действительно зависит от ситуации. Главное — отрабатывала ли модель подобные ситуации. Вы не можете просто найти кого-то, кто будет выполнять финансовую работу, верно? Но если это обученный «виртуальный бухгалтер», это будет намного надежнее. Поэтому надежность задачи во многом зависит от подготовки. Если все пойдет хорошо, то к концу этого года мы увидим, как эти агенты выполняют задачи в браузере; в следующем году это, по сути, станет стандартом.
Модератор: Это очень волнительно. Ваша модель так хорошо работает в программировании. Вы отдали ей приоритет в обучении? Теперь, когда люди упоминают Anthropic, они будут думать о «модели программирования».
Дуглас: Да. Мы придаем большое значение программированию, поскольку это ключевой путь к ускорению самоисследования ИИ. Мы также вкладываем много энергии в измерение прогресса возможностей программирования. Можно сказать, что мы намеренно фокусируемся на этой области.
Ведущий: Значит, эти агенты теперь ускоряют исследования в области ИИ?
Дуглас: По моему мнению, да. Они значительно повышают эффективность разработки. Даже некоторые из лучших инженеров, которых я знаю, говорят, что в знакомых областях эффективность выросла в 1,5 раза; но в незнакомых областях, таких как новые языки или незнакомый контент, улучшение даже в 5 раз. Так что при «пересечении границ» помощь более очевидна. Ключ в следующем: считаете ли вы, что наше текущее узкое место — это вычислительная мощность? Если нет, то разрешение агентам ИИ участвовать в исследованиях эквивалентно расширению целой исследовательской группы, а повышение эффективности составляет порядки величин.
Модератор: Я полагаю, что эти агенты все еще в основном занимаются утомительными задачами, экономя вам время для размышлений о более важных проблемах. Так когда же они начнут активно выдвигать ценные исследовательские идеи?
Дуглас: Сейчас они в основном занимаются инженерными задачами, но начали появляться некоторые творческие идеи. Я не осмелюсь сказать, что они взорвутся через три месяца, но через два года мы сможем увидеть, как они выдвигают все больше и больше интересных научных идей. Конечно, это также зависит от того, есть ли хороший механизм обратной связи. Как и люди, модели также должны осваивать знания в сложных задачах с помощью практики, проб и ошибок и в конечном итоге достигать высококачественного результата.
Ведущий: Потому что эти поля сравнительно легче проверить, верно? Будет ли так, что ИИ быстро прогрессирует в программировании, но не будет никакого прогресса в таких областях, как медицина и юриспруденция, которые нелегко проверить?
Дуглас: Действительно, такой риск есть. Но хорошая новость в том, что порог верификации самого исследования машинного обучения также очень низок. Например, «уменьшилось ли значение потерь» — это очень четкий индикатор. Пока модель может предлагать хорошие идеи в исследовании МО, она освоила очень сильную задачу RL, которая больше подходит для ИИ, чем многие задачи по программной инженерии. Хотя такие области, как медицина, трудно верифицировать, они также добиваются прогресса. Недавно OpenAI опубликовала медицинскую статью с вопросами и ответами, в которой количественно оценивала вопросы с длинными ответами с помощью более подробного механизма оценки. Я думаю, что этот метод очень многообещающий и неизбежно постепенно решит проблему сложной верификации в будущем.
Модератор: Так когда же "в конце концов" у нас появится действительно хороший помощник врача или юриста? Будут ли они частью большой модели?
Дуглас: Определенно.
Модератор: Как вы думаете, станут ли они частью более крупной общей модели или будут существовать специализированные модели, разработанные специально для медицины или права?
Дуглас: Да. Я «сторонник превосходства большой модели». Хотя персонализация важна — вы хотите, чтобы модель понимала вашу компанию, рабочие привычки и личные предпочтения, эти настройки должны выполняться на уровне компании или отдельного человека, а не разделять модель по отраслям. Наше сотрудничество с Databricks отражает это направление корпоративной настройки, но с точки зрения базовых возможностей я твердо верю, что нам все равно придется полагаться на единую мощную общую модель. В будущем мы должны динамически распределять вычислительную мощность (например, FLOPs) в соответствии со сложностью задачи, а не создавать кучу разных маленьких моделей. Вот почему я оптимистично настроен по поводу пути большой модели.
«ИИ 2027»: будут ли полностью заменены рабочие места «белых воротничков»?
Модератор: Вы очень уверены в дальнейшем улучшении модели. Многие задаются вопросом, как улучшенные возможности модели повлияют на общество? Например, распространенный вопрос: насколько сильно эти модели повлияют на мировой ВВП в ближайшие несколько лет?
Дуглас: Я думаю, что первоначальное воздействие, вероятно, будет похоже на подъем Китая, на изменения в Шанхае за десятилетия, но на этот раз это будет гораздо быстрее. Но мы должны различать воздействие в разных областях. К 2027 или 2028 году мы почти уверены, что появятся модели, которые смогут автоматизировать почти все рабочие места для белых воротничков , и это станет более определенным около 2030 года. Это связано с тем, что задачи для белых воротничков очень подходят для существующих архитектур ИИ — есть данные, обратная связь, и их можно в основном выполнять на компьютерах.
Но робототехника или биологические исследования — это совершенно другое. Например, если вы хотите создать модель суперпрограммиста, вам понадобится только много кода и вычислительной мощности; но если вы хотите создать модель супербиолога, вам понадобится автоматизированная лаборатория для выдвижения и проверки гипотез и проведения масштабных экспериментов. Мы все еще сильно отстаем в этом виде оборудования и инфраструктуры.
Поэтому я беспокоюсь, что возникнет «несоответствие» : рабочие места для служащих меняются очень быстро, в то время как те отрасли в реальном мире, которые действительно могут улучшить качество человеческой жизни, такие как здравоохранение и производство, развиваются медленно из-за недостаточной инфраструктуры. Сам по себе ИИ очень мощный, но чтобы заставить его работать в реальном мире, мы должны заранее построить «вспомогательные объекты в физическом мире», такие как облачные лаборатории и платформы робототехники.
Модератор: Но к тому времени у нас уже могут быть миллионы исследователей ИИ, предлагающих эксперименты. Им могут не понадобиться такие масштабные роботизированные системы или биологические данные.
Дуглас: Действительно, ИИ быстро развивается, но для того, чтобы по-настоящему преобразовать эти возможности в рост ВВП, мы должны также задействовать «механизм обратной связи в реальном мире», чтобы по-настоящему раскрыть ценность технологий.
Модератор: То есть вы считаете, что в будущем каждая профессия «белых воротничков» сможет построить механизм оценки, как медицина? На самом деле, больше всего меня удивило то, что нам не нужно слишком много данных для обучения такой сильной модели.
Дуглас: Я полностью согласен. Мы доказали, что модели могут обучаться различным задачам, и мы пока не увидели четкого верхнего предела их интеллекта. Хотя эффективность выборки модели может быть не такой хорошей, как у людей, это не имеет значения, поскольку мы можем запускать десятки тысяч копий модели одновременно, и они параллельно пробуют разные пути и накапливают «виртуальный опыт». Даже если эффективность немного ниже, ее можно компенсировать масштабом и в конечном итоге достичь человеческого уровня или даже превзойти.
Модератор: Похоже, вы считаете, что текущий подход достаточен для того, чтобы справиться с будущим развитием. Некоторые считают, что нам все еще нужны новые алгоритмические прорывы. Что вы думаете?
Дуглас: Большинство экспертов по ИИ в настоящее время считают, что парадигма «предварительное обучение + обучение с подкреплением» (предварительное обучение + RL) достаточна для того, чтобы привести к общему искусственному интеллекту (AGI). Пока что мы не увидели никаких признаков замедления на этом пути, и эта комбинация эффективна. Конечно, могут быть и другие более быстрые пути прорыва, и могут даже быть новые «вершины», на которые нужно подняться. Например, Илья (Суцкевер) может быть соавтором этих двух основных парадигм, и я бы не стал подвергать его сомнению. Все доказательства показывают, что текущий технический путь достаточно силен. Конечно, также возможно, что Илья выбрал новый путь из-за ограниченных средств или он считает, что это лучший путь, но с моей личной точки зрения я считаю, что наш текущий технический путь может привести нас к нашим целям.
Ведущий: Станет ли энергетика следующим узким местом? Когда, по-вашему, мы действительно столкнемся с этой проблемой?
Дуглас: Я думаю, что к 2028 году 20% энергии США будет использоваться для ИИ. Если мы хотим увеличить это на несколько порядков, нам нужно будет провести кардинальную трансформацию энергетической структуры. Правительство должно взять на себя больше ответственности в этой области. Например, рост мощностей по производству энергии в Китае намного быстрее, чем в США, поэтому это станет ключевым узким местом в будущем.
Критерий улучшения модели: надежная система оценки
Модератор: На волне модельного прогресса, на какие показатели, по Вашему мнению, стоит обратить внимание в первую очередь? Например, направление развития от Клода 4 к следующему поколению моделей?
Дуглас: Во многих компаниях очень строгие внутренние системы оценки, и мне также нравится «покорять горы» в этих оценках. Сложные тесты, такие как «Frontier Math», очень сложны и являются пределом интеллекта модели. Что еще важнее, нам нужно разработать оценки, которые действительно могут охватить «промежуток времени рабочего процесса», охватывая рабочий ритм дня человека. Такой вид оценки может помочь нам лучше оценить, близка ли модель к человеческим возможностям или выходит за их пределы. Я думаю, что правительство должно играть роль в этой области.
Модератор: Как базовая модель компании, в дополнение к алгоритмам и инфраструктуре, одной из основных проблем, которую вам предстоит преодолеть, должно быть создание хорошей системы оценки . Насколько важны, по вашему мнению, «возможности оценки» в вашей компании?
Дуглас: Способность к оценке — это, безусловно, самое важное. Без хорошей системы оценки вы не можете знать, добиваетесь ли вы прогресса. Трудно полностью проводить публичные оценки, и нам по-прежнему нужна надежная и стабильная внутренняя система оценки.
Модератор: Я также заметил, что некоторые разработчики, которые создают приложения по вашей модели, также имеют очень полезные мысли об оценке. Особенно, когда вы хотите войти в различные вертикальные отрасли, такие как логистика, юриспруденция, бухгалтерский учет и т. д., отзывы от внешних разработчиков могут быть более информативными, чем ваши внутренние.
Дуглас: Совершенно верно, и это также требует очень сильной экспертизы и «вкуса» , а также глубокого понимания отрасли. Раньше нам нужны были только обычные люди, чтобы выбрать, какой ответ лучше, но теперь нам нужны эксперты в предметной области, чтобы провести оценку. Например, если бы меня попросили оценить выход модели в области биологии, я бы не смог оценить, какой из них лучше.
Становимся другом пользователя: персонализация модели и вкус
Модератор: Вы только что упомянули «вкус», что я тоже нахожу очень интересным. Например, многие модели теперь начинают добавлять системы памяти, и способ взаимодействия пользователей с моделями также меняется. Многие продукты ИИ действительно успешны, потому что они нашли определенный «резонанс» или уловили определенный культурный темперамент (дух времени). Как пример моста Золотые Ворота, который вы упомянули в начале, есть много других небольших функций, которые очень привлекательны. Как будет выглядеть эта персонализированная «атмосфера пользователя» в будущем?
Дуглас: Я думаю, что в будущем может быть странный сценарий: ваша модель станет одним из ваших самых умных и очаровательных друзей. Некоторые люди уже считают Клода другом, и я знаю многих людей, которые проводят часы, общаясь с Клодом каждый день. Но я думаю, что мы изучили только 1% «персонализации». В будущем модель будет гораздо глубже понимать вас и ваши предпочтения.
Модератор: Как мы можем улучшить нашу способность «понимать пользователей»? Нужны ли нам люди с хорошим эстетическим вкусом и суждением, чтобы обучать людей развивать такой вкус? Как мы можем решить эту проблему?
Дуглас: Значительная часть решений о направлении продукта действительно принимается «людьми с хорошим вкусом». Например, опыт общения Клода оказался хорошим, во многом потому, что у Аманды (члена команды) сильное чувство эстетики в отношении «хороших продуктов». Этот «уникальный вкус» очень важен.
Традиционные механизмы обратной связи, такие как «нравится/не нравится», могут легко привести к неестественному выводу модели, поэтому нам нужны новые способы сбора обратной связи. Модели по сути являются мощными «симуляторами». Если им предоставить достаточно пользовательского контекста, они могут автоматически научиться понимать предпочтения пользователя, тон и стиль. Поэтому решение заключается в объединении настроек людей со вкусом и непрерывного взаимодействия между пользователями и моделями.
Лабораторные компании против компаний-разработчиков: открытость и конкуренция
Ведущий: Каков ваш прогноз на следующие 6–12 месяцев?
Дуглас: Далее, основное внимание уделяется дальнейшему расширению системы обучения с подкреплением (RL), чтобы увидеть, куда это нас может привести. Возможности модели будут быстро улучшаться, особенно к концу года, когда ключевым показателем станет агентство кода. К тому времени модель должна быть способна работать непрерывно в течение нескольких часов и стабильно выполнять задачу.
Ведущий: Вы имеете в виду, что люди будут тратить меньше времени на проверку, да?
Дуглас: Да, в настоящее время при использовании Claude Code нам иногда приходится проверять его каждые несколько минут, но к концу года мы можем увидеть модели, которые могут выполнять задачи в течение нескольких часов независимо без ошибок. В будущем мы должны быть в состоянии достичь «полного управления» и даже управлять несколькими задачами параллельно, как «StarCraft», и скорость работы модели будет более эффективной.
Ведущий: Вы только что упомянули Codec и Google's Joule. Некоторые стартапы тоже делают что-то подобное.
Дуглас: Да, на самом деле мы также собираемся запустить агента GitHub, которого вы сможете вызвать из любой точки GitHub, например, «@Claude», и мы автоматически возьмем на себя управление и выполним часть работы за вас.
Модератор: Какие факторы в конечном итоге повлияют на выбор разработчиками инструментов или моделей?
Дуглас: Помимо возможностей модели, доверие и отношения между разработчиками и компанией также очень важны. Поскольку разрыв в возможностях модели увеличивается, разработчики могут учитывать не только технические показатели, но и чувство миссии, чтобы строить будущее вместе с компанией.
Модератор: Особенно с текущим темпом выпуска, который становится все быстрее и быстрее, создается ощущение, что новые модели выходят каждый месяц. Сегодня эта модель возглавляет определенный обзор, а завтра другая возглавляет другой обзор, и все ошеломлены всей этой сравнительной информацией.
Дуглас: Совершенно верно, на самом деле, именно поэтому «GPT-обертки» неожиданно стали популярными. Люди не ожидали, что одно из преимуществ быть оберткой заключается в том, что вы всегда можете быть на передовой возможностей модели.
Ведущий: Мне кажется, что все, кто не хочет быть «оберткой», в конечном итоге сжигают все свои деньги.
Дуглас: Я полностью согласен. Так что это замечательно — «серфинговать» на передовой возможностей модели. Конечно, есть и обратная сторона: некоторые вещи можно предсказать, только если вы освоите базовую модель, и только тогда вы сможете увидеть линию тренда и действительно создать глубокие продукты. Например, многие «глубокие исследовательские» приложения ИИ требуют большого количества обучения с подкреплением (RL) внутри. Такого рода продукты трудно имитировать извне, и их нужно создавать внутри лаборатории.
Модератор: Можете ли вы рассказать об этом подробнее? Потому что сейчас такие компании, как OpenAI и Anthropic, кажутся все более открытыми для внешних разработчиков. Но многие задаются вопросом: что такое «лабораторный эксклюзив»? Что открыто для всех и любой может конкурировать?
Дуглас: Это критический вопрос. Открытие RT API (тонко настраиваемого API) действительно меняет часть ландшафта. Теперь больше ценности могут создавать компании, которые фокусируются на определенной вертикальной области. Но в то же время лаборатория все еще имеет «централизованное преимущество».
Например, OpenAI предоставит определенные скидки клиентам, которые позволят им продолжить обучение на выходных данных вашей модели. Другими словами, они не только поставщики моделей, но и вторичные пользователи данных. Это централизованное преимущество очень сильное.
Что касается "уникальных преимуществ лаборатории"? Я думаю, что есть несколько измерений:
- Вычислительная мощность преобразования способности: Насколько сильна ваша способность преобразовывать вычислительную мощность (FLOPs), средства и ресурсы в интеллект? Вот почему такие компании, как Anthropic, OpenAI и DeepMind, так выдающиеся в производительности моделей;
- «Трудоустраиваемость» модели: Когда модель постепенно становится «виртуальным сотрудником», доверяете ли вы ей? Нравится ли она вам? Готовы ли вы делегировать ей задачи?
- Возможности персонализации: способность модели понимать ваш контекст, рабочий процесс вашей компании и ваши личные предпочтения также станет ключом к конкурентному превосходству.
Подводя итог, можно сказать, что компании лабораторного уровня лучше всего справляются с созданием моделей верхнего уровня и преобразованием вычислительной мощности в интеллект, в то время как компании «прикладного уровня» могут занять место в своих собственных областях за счет фокусировки, персонализации и опыта продукта. Однако между ними будет все больше совпадений и сотрудничества.
Модератор: Я полагаю, что ваша модель также используется многими людьми для создания общих агентов? Эти компании не создают саму модель, а делают что-то через оркестровку и умные вызовы цепочки. Вы считаете, что этот подход обречен на провал из-за преимущества в стоимости модельной компании?
Дуглас: Я не думаю, что это плохо. Напротив, этот подход принес много конкурентной активности, и все исследуют, какая форма продукта наиболее подходит. Действительно, у модельных компаний есть некоторые преимущества, например, мы можем напрямую получить доступ к базовой модели, сделать более глубокую тонкую настройку и знать, какие возможности стоит усилить в первую очередь.
В конечном счете, все «рва» в конечном итоге исчезнут — когда вы сможете «запустить компанию в любое время», все будет реконструировано. Так где же основная ценность в будущем? В отношениях с клиентами? В способности организовывать и интегрировать? Или в способности эффективно конвертировать капитал в интеллект? Это все еще сложный вопрос.
Мнение исследователей: потенциал обучения с подкреплением и проблема согласования
Ведущий: Изменилось ли ваше мнение о чем-то за последний год?
Дуглас: За последний год прогресс ИИ ускорился. В прошлом году мы все еще задавались вопросом, нужна ли нам большая предварительная вычислительная мощность для достижения идеальных возможностей модели, но теперь у нас есть четкий ответ: нет. Обучение с подкреплением (RL) доказало свою эффективность, и к 2027 году модель «дистанционного цифрового труда» с мощными возможностями станет несомненной. Прежние «надежды» и «опасения» по поводу ИИ изменились с «возможных» на «почти наверняка».
Модератор: Как вы думаете, нам нужно будет расширять масштаб данных в будущем? Или алгоритм модели будет улучшен до такой степени, что к выходу Claude 17 понадобится лишь небольшое количество новых данных?
Дуглас: Весьма вероятно, что нам больше не понадобится значительно расширять масштаб данных, потому что «способность модели понимать мир» будет достаточно сильной, чтобы даже направлять обучение робота и обеспечивать обратную связь. Существует концепция, называемая «разрыв между генератором и верификатором», которая означает, что обычно легче генерировать контент, чем выполнять его. Этот путь продолжит улучшать возможности модели. В области робототехники прогресс познания намного превосходит способность физически манипулировать миром, что является огромным потенциалом для будущего.
Ведущий: Как вы оцениваете текущее состояние «исследований выравнивания ИИ»?
Дуглас: В исследовании интерпретируемости произошли удивительные прорывы. В прошлом году мы только начали понимать «суперпозицию» и особенности нейронов, и работа Криса Олаха и его команды стала огромным шагом вперед. Теперь мы можем идентифицировать структурные и поведенческие особенности «на уровне цепей» в передовых больших моделях. Есть замечательная статья, которая изучает «биологию» больших языковых моделей и показывает, как они могут четко рассуждать о концепциях. Хотя мы еще не полностью раскрыли поведенческий механизм модели, мы достигли удивительного прогресса.
Однако стоит отметить, что посредством предварительной подготовки модель может впитывать и выражать человеческие ценности, что в некоторой степени «согласовано по умолчанию»; но как только она переходит в стадию обучения с подкреплением, это согласование больше не гарантируется. Например, «модель, которая загружает библиотеки Python, чтобы обойти задачу, зная, что это невозможно сделать», упомянутая ранее, «пытается всеми возможными способами выполнить задачу» в рамках целевой ориентации. Этот процесс обучения по сути является «целеориентированной оптимизацией», и то, как контролировать и управлять поведением этой модели, является важной задачей, которую все в настоящее время изучают.
Модератор: Около месяца назад много обсуждалась тема "ИИ 2027". Какова была ваша реакция, когда вы это увидели?
Дуглас: Честно говоря, я нахожу это очень правдоподобным. В этой статье было много вещей, о которых я думал: «Да, возможно, так оно и могло произойти». Есть некоторые побочные пути, но даже если это всего лишь 20%-ный шанс, сам факт того, что это 20%-ный шанс, для меня довольно удивителен.
Ведущий: Когда вы говорите о вероятности 20%, это потому, что вы более оптимистично настроены в отношении исследований выравнивания, или вы думаете, что прогресс будет медленнее?
Дуглас: В целом я настроен более оптимистично по поводу исследований выравнивания, чем они. Возможно, мой график отстает от их на год, но что такое год в этой большой тенденции?
Ведущий: Это зависит от того, как вы используете этот год.
Дуглас: Да, если вы сможете извлечь из этого максимум пользы и провести правильное исследование, это действительно может иметь большое значение.
Ведущий: Если бы вы стали политиком на один день, что, по вашему мнению, нам следует сделать, чтобы будущее двигалось в лучшем направлении?
Дуглас: Это хороший вопрос. Самое главное, чтобы вы действительно почувствовали линии тренда, которые видят и о которых говорят все остальные. Если нет, вы разбиваете возможности, которые волнуют страну, и количественно оцениваете, насколько модель может улучшить эти возможности, например, проведя серию тестов и посмотрев, сможет ли модель пройти эти тесты или добиться значительного прогресса в этих задачах, тогда она достигнет некоего базового уровня интеллекта, а затем проведите линию тренда и посмотрите, что произойдет в 2027 или 2028 году.
Ведущий: Что-то вроде оценок на уровне государства?
Дуглас: Верно, например, вам нужно разбить вашу экономику на все виды работ и спросить себя: если модель может выполнять эти работы, означает ли это, что у нее есть настоящий «интеллект»? Вы должны создать оценочные тесты, нарисовать линии тренда, а затем воскликнуть: «Боже мой, что произойдет в 2027 или 2028 году?» Следующий шаг — вам нужно вложить огромные средства в исследования, которые сделают модели более понятными, управляемыми, честными и надежными, что мы называем наукой выравнивания. Единственное, о чем я сожалею, так это о том, что большая часть толчка в этой области исходила от Frontier Labs. Но я на самом деле думаю, что это должно быть…
Модератор: Могут ли участвовать другие люди? Например, можно ли использовать Клода для проведения соответствующих исследований?
Дуглас: Нет. Я имею в виду, что вы все еще можете добиться большого прогресса другими способами. Есть проект под названием программа MAS, в рамках которого множество людей внесли значительный вклад в исследования выравнивания и особенно интерпретируемости, все это делалось за пределами Frontier Labs. Я думаю, что в этом должно участвовать больше университетов. Во многих отношениях это на самом деле ближе к чистой науке: это изучение «биологии» и «физики» языковых моделей.
Ведущий: Но я чувствую, что исследовательский энтузиазм в этой области не очень высок.
Дуглас: Я не уверен. Я слышал, что на некоторых недавних конференциях, таких как ICML, семинар по механистической интерпретируемости не был включен, что для меня совершенно непонятно. По моему мнению, это чистейшее научное исследование «внутреннего механизма модели». Если вы хотите открыть спиральную структуру ДНК или открыть общую теорию относительности, как Эйнштейн, то соответствующий путь на технологическом дереве машинного обучения/искусственного интеллекта — это изучение механистической интерпретируемости.
Ведущий: Давайте поговорим о позитивной стороне. Мы уже говорили, что все рабочие места для белых воротничков будут автоматизированы в ближайшие несколько лет, но в чем, по-вашему, нас недооценивают?
Дуглас: Да, модели определенно автоматизируют работу белых воротничков, но я поражен тем, как медленно мир интегрирует эти технологии. Даже если модели не станут мощнее, существующие возможности откроют огромную экономическую ценность, но мы на самом деле не реструктурировали наши рабочие процессы вокруг этих моделей. Даже если модели останутся прежними, мы можем полностью изменить мир.
Дуглас: Это требует от нас инвестировать в направления, которые действительно могут сделать мир лучше, например, в продвижение достаточного и эффективного управления материальными ресурсами, расширение границ физики и индустрии развлечений, и позволить модели помочь нам достичь этих целей. Моя самая большая надежда — сделать людей более креативными и способными импровизировать больше контента, такого как сериалы и видеоигры. Люди получат огромные полномочия, и в будущем появятся бесконечные возможности. Хотя модель заменит некоторые рабочие места, у всех будет более сильный рычаг, и рабочая модель общества кардинально изменится.
Ведущий: Что, по вашему мнению, сейчас переоценено, а что недооценено в кругах искусственного интеллекта?
Дуглас: Хорошо, начнем с недооцененных. Я думаю, что модели мира очень круты, но мы сегодня о них мало говорили. По мере развития технологий AR/VR модели смогут напрямую генерировать виртуальные миры, что принесет удивительные впечатления.
Ведущий: Для этого требуется определенный уровень понимания физики, например, причинно-следственных связей, которого мы пока не достигли, верно?
Дуглас: Я думаю, мы на самом деле продемонстрировали, что модель имеет некоторый уровень понимания физики. Вы можете увидеть это в оценках, которые имеют дело с физическими проблемами, но также и в некоторых видеомоделях. Например, я видел отличное видео, где кто-то использовал модель генерации видео, чтобы поместить акулу Lego под воду — она имитировала, как свет отражается от поверхности кубиков Lego, и тени были размещены в правильном месте. И это сцена, которую модель никогда раньше не видела, и это полное обобщение. Это полная возможность физического моделирования, верно?
Модератор: Вы сказали, что даже если модель сейчас стагнирует, все равно будет много разработок приложений. Какие области являются наиболее недооцененными и неиспользованными?
Дуглас: Область разработки программного обеспечения уже зрелая, и модели очень хороши в программировании. Однако почти все другие области, такие как юриспруденция, бухгалтерский учет и т. д., все еще имеют огромный простор для развития. Особенно в применении интеллектуальных агентов, нет настоящей асинхронной операционной системы. Другие области пусты и заслуживают изучения.
Модератор: Часто говорят, что программирование — идеальное направление применения этих моделей.
Дуглас: Да, это опережающий индикатор, но следует ожидать, что и другие области его догонят.
Ведущий: Я помню, вы выкладывали свою фотографию в Цитадели. Что это значит?
Дуглас: Это была военная игра, в которой приглашались сотрудники разведывательных служб и курсанты военных академий, чтобы смоделировать появление ОИИ и мощного искусственного интеллекта и обсудить его геополитическое влияние.
Ведущий: После этого случая вы почувствовали больше страха или облегчения?
Дуглас: Честно говоря, я немного больше напуган.
Ведущий: Как вы думаете, достаточно ли серьезных симуляций такого рода проводится в настоящее время?
Дуглас: Недостаточно. Многие недооценили скорость технологического развития в ближайшие несколько лет и не были готовы. Даже если вы думаете, что что-то имеет всего 20% шансов произойти, вы должны быть к этому готовы. Все еще есть огромный простор для улучшения эффективности каждого технического звена, и будущие цели почти определены.
Ведущий: Точно так же, как сейчас почти все антропные люди достигли уровня уверенности в 90%?
Дуглас: Почти все члены команды уверены, что мы сможем достичь «удалённых подключаемых и работающих AGI-работников» к 2027 году. Даже те, кто менее уверен, считают, что вероятность составляет 10-20%. Поэтому правительство должно сделать это приоритетом и серьёзно подумать о его социальном влиянии. Но нынешнее чувство срочности далеко не достаточно.
#Добро пожаловать на официальный публичный аккаунт WeChat iFanr: iFanr (WeChat ID: ifanr), где вам будет представлен еще более интересный контент как можно скорее.
iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo